最好的方法下載全部網站
我將展示二種方法,第一種方法只是一個命令並非運行於後台,第二種方法執行於後台並且在不同的"shell"
所以你可以離開SSH對話命令將持續執行。
首先我們要做一個資料夾用於下載網站並且開始你的下載:注意如果你下載www.XXXXXXX.com,
你將會得到一個資料夾像這:/websited/www.XXXXX.com/
Step1:
mkdir /websitedl/
cd /websitedl/
Step2:
1st way:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://www.XXXXXXXX.com
2nd way:
在後台執行在句子前加上NOHUP並且在結尾加上&
nohup wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://www.XXXXXXXX.com &
然後可以看OUTPUT(這將輸出nohup.out 檔案執行下面的命令)
tail -f nohup.out
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
以上命令的意思:
--limit-rate=200K:限製下載200Kb/秒
--no-clobber: 不要覆蓋任何存在的檔案(在這個CASE中使用於下載時的中斷與恢復)
--convert-links:將連結指向本地, 代替指向線上網站
--random-wait:隨機等待下載- 每一個網站都不喜歡被人下載
-r:下載全部網站
-P:下載每一張圖片(就像綱頁必要條件,下載照片,CSS相關東西並載入)
-E:得到正確的檔案,排除大多數非正確的HTML和其他檔案
-e rebots=off:我們的行為並非機器人,並非爬行器,網站不要像機器人或爬行器除非你是google或者其他有名的搜尋引擎
-U mozilla:假裝MOZilla正在看著瀏覽器而不是wget 的爬行器
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
沒有使用的命令
-o=/websited/wget1.txt:記碌所有的事情於wget1.txt-不要這樣做因為這樣不會顯示在螢幕上,可以使用nohub和tail -f 輸出來自nohup.out
-b:這是執行於後台並且你看不到過程,使用"nohup<commands>&"會比較好
--domain=xxxxxx.com(類似kossboss.com):不要載入因為如果托管於GOOGLE你可能要進入GOOGLE網域
--restrict-file-names=windows:修改文件名字以便可以在windows工作,似乎不要比較好
留言列表