WARNING

1、除本頁設置外,同樣受【配置選項】配置影響,這一塊内容參考選項配置。

2、相同配置項,本頁配置覆蓋配置選項配置。

# 通配符

通配符,是介於純文本匹配和正則表達式匹配之間的一種易理解並具有一定操作的匹配符合。
本軟件僅支持兩種通配符:*?,注意通配符必須是英文字符(不是中文字符哦)。

  • * 匹配一個或多個任意字符;
  • ? 匹配一個任意字符。

# 限定網域

注意:此功能僅對頁面網址有效,其他css/js/圖片/字體等網址無效。

  • (必填)匹配域名才被下載,當然您可以新增多組域名匹配,使用“|”分隔,表示“或”的關系。
  • 使用通配符匹配 主機名(域名),即上圖紅色部分。

舉個例子

當下載地址爲https://www.example.com,網站還有子域名https://bj.example.comhttps://sh.example.comhttps://gz.example.comhttps://sz.example.com 等北京/上海/廣州/深圳等子分站。

1、下載主站和所有分站,設置值爲:*.example.com,它匹配所有的域名。如果還要匹配根域名https://example.com,則設置爲:*example.com

2、下載主站和北京站:設置值爲:www.example.com|bj.example.com,兩組域名之間使用“|”分隔

# 限定路徑

注意:此功能僅對頁面網址有效,其他css/js/圖片/字體等網址無效。

  • (選填)匹配鏈成功接才被下載,當然默認留空不做任何限製,使用“|”分隔,表示“或”的關系。
  • 使用通配符匹配 路徑+查詢參數,即上圖綠色部分。

舉個例子

網站地址../../../product/../../../404.html

1、僅下載product目錄下的頁面,輸入值爲:/product/*

2、下載productcontact目錄下的頁面,輸入值爲:/product/*|/contact/*,兩組匹配之間使用“|”分隔

如果需要做更加精準的匹配,請使用正則表達式做匹配:配置選項 > 下載範圍 > 限定路徑

# 排除路徑

注意:此功能僅對頁面網址有效,其他css/js/圖片/字體等網址無效。

  • (選填)與限定路徑相反,匹配鏈接成功不會被下載,當然默認留空不做任何限製,使用“|”分隔,表示“或”的關系。
  • 使用通配符匹配 路徑+查詢參數,即上圖綠色部分。

舉個例子

網站地址../../../product/../../../404.html

1、product目錄下的頁面不下載,輸入值爲:/product/*

2、productcontact目錄下的頁面都不下載,輸入值爲:/product/*|/contact/*,兩組匹配之間使用“|”分隔

# 最大深度

  • (必填)輸入下載的網址深度爲1,這個網址html代碼的鏈接深度爲2,深度爲2頁面的鏈接深度爲3,依次類推。
  • 下載頁面的深度,大於設置深度的頁面不會被下載。
  • 下載順序:按深度從小到大下載
  • 同一網址,從不同頁面進入,深度不一樣是,深度取最小值。

舉個例子

當下載地址爲https://www.example.com

1、首頁深度爲1

2、首頁點擊列表頁列表頁深度爲2

3、列表頁點擊詳情頁詳情頁深度爲3

4、詳情頁點擊下一篇文章下一篇文章深度爲4

# 最大頁數

  • (必填)下載最多頁面數量,已下載頁數大於設置頁數的頁面不會被下載。
  • 一個網址代表一頁
  • 這是設置一個上限值,根據個人需求設置。

舉個例子

比如設置下載頁數設置爲5000

1、假設網站一共有1000頁,那麽這1000頁全部下載。

2、假設網站一共有20000頁,按深度從小到大順序下載5000頁,剩餘的15000頁不會下載。

溫馨提示

  • 下載的頁數越多,要求電腦内存/CPU/硬盤越高。
  • CPU越快處理速度越快。
  • 一般百萬級數據,至少配置16G内存,另外設置足夠的虛拟内存做爲備用。

# 頁面結構

指的是html頁面保存目錄結構。

  • 自動選擇:當所有頁面數量小於3000時,使用"保存到根目錄",否則使用"與原站一緻"
  • 與原站一緻:原站頁面URL是在A目錄,下載後就保存在A目錄下。
  • 保存到根目錄:所有頁面都保存在根目錄。

# 文件結構

這裏指的是除html頁面以外的所有資源文件,例如js、css、image、font、file等。

  • 與原站一緻:原站文件URL是在A目錄,下載後就保存在A目錄下。
  • 保存到配置目錄,可以在配置選項系統設置-文件路徑中配置。

# 編碼改成

  • 下載後自動将編碼修改爲指定的編碼。
  • 現在大多數網站采用utf-8編碼,少數網站采用gbk編碼,我們軟件能99.99%正確識别網站編碼(包含一站多編碼的頁面),軟件自動删除和修改代碼裏的編碼,包含html代碼charset編碼css代碼charset編碼。

# 下載超時

  • 下載一個請求超時時間,第一次超時軟件會重試一次,所以如果一個非常慢的鏈接,第一次請求失敗後再次請求失敗,等待時間爲設置的2倍。
  • 建議:網站很快可以設置時間短些,以減少等待時間;網站很慢或下載大文件,必須設置超時時間大些,不然這些慢頁面和大文件都會下載失敗。
  • 軟件默認爲30秒,這個不是越長越好,也不是越短越好。

# UserAgent

  • 服務器使用此值識别用戶使用的是電腦端還是手機端。
  • 自定義設置參考上面Cookie鏈接裏的方法打開控製台後可以看到有個叫User-Agent的,就是它,複製值到文本框即可。