
# 注意:此页文档仅适用于19.5及以下版本。
WARNING
1、除本页设置外,同样受【配置选项】配置影响,这一块内容参考选项配置。
2、相同配置项,本页配置
覆盖配置选项
配置。
# 域名范围
- (必填)下载范围默认限制在本域名内,当然你可以新增域名。
- 多个域名使用“|”分隔,表示“或”的关系。
举个例子
当下载地址为https://www.example.com
,网站还有子域名https://bj.example.com
、https://sh.example.com
、https://gz.example.com
、https://sz.example.com
等北京/上海/广州/深圳等子分站。
1、下载主站和所有分站,设置值为:example.com
,它匹配所有的域名
2、下载主站和北京站:设置值为:www.example.com|bj.example.com
,两个域名之间使用“|”分隔
# 链接包含
- (选填)链接包含输入的字符串才被下载,当然默认空不做限制。
- 多个使用“|”分隔,表示“或”的关系。
- 与域名范围设置什么关系?域名范围限制域名部分,链接包含限制域名后面部分。
举个例子
网站地址/product/index.html
和/contact/index.html
1、仅下载product
目录下的页面,输入值为:/product/
2、下载product
和contact
目录下的页面,输入值为:/product/|/contact/
,目录名称前后加上“/”让匹配更加准确,两个匹配之间使用“|”分隔
# 排除目录
- (选填)此处与链接包含意思相反。
# 最大深度
- (必填)输入下载的网址深度为1,这个网址html代码的链接深度为2,深度为2页面的链接深度为3,依次类推。
- 下载页面的深度,大于设置深度的页面不会被下载。
- 下载顺序:按深度从小到大下载
- 同一网址,从不同页面进入,深度不一样是,深度取最小值。
举个例子
当下载地址为https://www.example.com
1、首页
深度为1
2、首页
点击列表页
,列表页
深度为2
3、列表页
点击详情页
,详情页
深度为3
4、详情页
点击下一篇文章
,下一篇文章
深度为4
# 最大页数
- (必填)下载最多页面数量,已下载页数大于设置页数的页面不会被下载。
- 一个网址代表一页
- 这是设置一个上限值,根据个人需求设置。
举个例子
比如设置下载页数设置为5000
页
1、假设网站一共有1000
页,那么这1000
页全部下载。
2、假设网站一共有20000
页,按深度从小到大顺序下载5000
页,剩余的15000
页不会下载。
温馨提示
- 下载的页数越多,要求电脑内存/CPU/硬盘越高。
- CPU越快处理速度越快。
- 一般百万级数据,至少配置16G内存,另外设置足够的虚拟内存做为备用。
# 页面结构
- 指的是html页面保存目录结构。
- 与原站一致:原站页面保存在A目录,下载后就保存在A目录下。
- 保存到根目录:所有页面都保存在根目录。
# 文件结构
- 这里指的是除html页面以外的所有资源文件,例如js、css、image、font、file等。
- 如果选择自定义,可以在
配置选项
的系统设置
-文件路径
中配置。
# 编码改成
- 下载后自动将编码修改为指定的编码。
- 现在大多数网站采用utf-8编码,少数网站采用gbk编码,我们软件能99.99%正确识别网站编码(包含一站多编码的页面),软件自动删除和修改代码里的编码,包含html代码charset编码css代码charset编码。
# 下载超时
- 下载一个请求超时时间,第一次超时软件会重试一次,所以如果一个非常慢的链接,第一次请求失败后再次请求失败,等待时间为设置的2倍。
- 建议:网站很快可以设置时间短些,以减少等待时间;网站很慢或下载大文件,必须设置超时时间大些,不然这些慢页面和大文件都会下载失败。
- 软件默认为30秒,这个不是越长越好,也不是越短越好。
# 保留站外链接
- 勾上时,对失效链接或超过设置深度或超过设置数量的页面,软件采用JavaScript:windown.open('原地址链接')的方式打开原站链接;
- 这一项一般是不需要勾选的。
# 下载超链接附件
- 超链接指向的不是一个页面或图片,而是一个下载附件或压缩包zip/rar,对于这类是否需要下载。
# Cookie
- 一般为增强验证页面或登录页面才需要用到,参考网址:https://www.xftsoft.com/news/jiaocheng/cookie-useragent.html
# UserAgent
- 服务器使用此值识别用户使用的是电脑端还是手机端。
- 自定义设置参考上面Cookie链接里的方法打开控制台后可以看到有个叫User-Agent的,就是它,复制值到文本框即可。