close

最好的方法下載全部網站

我將展示二種方法,第一種方法只是一個命令並非運行於後台,第二種方法執行於後台並且在不同的"shell"

所以你可以離開SSH對話命令將持續執行。

 

首先我們要做一個資料夾用於下載網站並且開始你的下載:注意如果你下載www.XXXXXXX.com,

你將會得到一個資料夾像這:/websited/www.XXXXX.com/

 

Step1:

     mkdir /websitedl/

     cd /websitedl/

Step2:

     1st way:

          wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://www.XXXXXXXX.com

  2nd way:

     在後台執行在句子前加上NOHUP並且在結尾加上&

          nohup wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://www.XXXXXXXX.com &

  然後可以看OUTPUT(這將輸出nohup.out 檔案執行下面的命令)

    tail -f nohup.out                           

  ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

以上命令的意思:

--limit-rate=200K:限製下載200Kb/秒

--no-clobber:  不要覆蓋任何存在的檔案(在這個CASE中使用於下載時的中斷與恢復)

--convert-links:將連結指向本地, 代替指向線上網站

--random-wait:隨機等待下載- 每一個網站都不喜歡被人下載

-r:下載全部網站

-P:下載每一張圖片(就像綱頁必要條件,下載照片,CSS相關東西並載入)

-E:得到正確的檔案,排除大多數非正確的HTML和其他檔案

-e rebots=off:我們的行為並非機器人,並非爬行器,網站不要像機器人或爬行器除非你是google或者其他有名的搜尋引擎

-U mozilla:假裝MOZilla正在看著瀏覽器而不是wget 的爬行器

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

沒有使用的命令

-o=/websited/wget1.txt:記碌所有的事情於wget1.txt-不要這樣做因為這樣不會顯示在螢幕上,可以使用nohub和tail -f 輸出來自nohup.out

-b:這是執行於後台並且你看不到過程,使用"nohup<commands>&"會比較好

--domain=xxxxxx.com(類似kossboss.com):不要載入因為如果托管於GOOGLE你可能要進入GOOGLE網域

--restrict-file-names=windows:修改文件名字以便可以在windows工作,似乎不要比較好

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 wealthy 的頭像
    wealthy

    linux另人忘了吃晚飯

    wealthy 發表在 痞客邦 留言(0) 人氣()