LINUX - wget 下載網站全部資料－linux另人忘了吃晚飯

最好的方法下載全部網站

我將展示二種方法，第一種方法只是一個命令並非運行於後台，第二種方法執行於後台並且在不同的"shell"

所以你可以離開SSH對話命令將持續執行。

首先我們要做一個資料夾用於下載網站並且開始你的下載：注意如果你下載www.XXXXXXX.com，

你將會得到一個資料夾像這：/websited/www.XXXXX.com/

Step1:

mkdir /websitedl/

cd /websitedl/

Step2:

1st way:

wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://www.XXXXXXXX.com

2nd way:

在後台執行在句子前加上NOHUP並且在結尾加上&

nohup wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://www.XXXXXXXX.com &

然後可以看OUTPUT（這將輸出nohup.out 檔案執行下面的命令）

tail -f nohup.out

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

以上命令的意思：

--limit-rate=200K:限製下載200Kb/秒

--no-clobber: 不要覆蓋任何存在的檔案（在這個CASE中使用於下載時的中斷與恢復）

--convert-links:將連結指向本地, 代替指向線上網站

--random-wait:隨機等待下載- 每一個網站都不喜歡被人下載

-r:下載全部網站

-P:下載每一張圖片（就像綱頁必要條件，下載照片,CSS相關東西並載入）

-E:得到正確的檔案，排除大多數非正確的HTML和其他檔案

-e rebots=off:我們的行為並非機器人，並非爬行器，網站不要像機器人或爬行器除非你是google或者其他有名的搜尋引擎

-U mozilla:假裝MOZilla正在看著瀏覽器而不是wget 的爬行器

沒有使用的命令

-o=/websited/wget1.txt:記碌所有的事情於wget1.txt-不要這樣做因為這樣不會顯示在螢幕上，可以使用nohub和tail -f 輸出來自nohup.out

-b:這是執行於後台並且你看不到過程，使用"nohup<commands>&"會比較好

--domain=xxxxxx.com(類似kossboss.com):不要載入因為如果托管於GOOGLE你可能要進入GOOGLE網域

--restrict-file-names=windows:修改文件名字以便可以在windows工作，似乎不要比較好

wealthy

linux另人忘了吃晚飯

wealthy 發表在痞客邦留言(0) 人氣()

E-mail轉寄

linux另人忘了吃晚飯

遺忘來自於走過

LINUX - wget 下載網站全部資料

留言列表

站方公告

活動快報

女神降...

我的好友

熱門文章

文章分類

LINUX (1)

Debian linux (5)

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY