Answers:
wget --recursive --level=inf --page-requisites --convert-links --html-extension \
--span-hosts=domainA,domainB url-on-domainA
更新:我记得上面的命令过去对我有用(那是2010年, 那时我在Windows上使用GNU Tools);但是,当我今天想使用它时,必须将其更改为以下内容:
wget --recursive --level=inf --page-requisites --convert-links \
--adjust-extension --span-hosts --domains=domainA,domainB domainA
其简写为: wget -rEDpkH -l inf domainA,domainB domainA
-r
= --recursive
-l <depth>
= --level=<depth>
-E
= --adjust-extension
-p
= --page-requisites
-K
= --backup-converted
-k
= --convert-links
-D <domain-list>
= --domain-list=<domain-list>
-H
= --span-hosts
-np
= --no-parent
-U <agent-string>
= --user-agent=<agent-string>
GNU Wget手册:https://www.gnu.org/software/wget/manual/wget.html
domainA,domainB'; use
开”或“关”。更改为开后,它不起作用。
wget --recursive --level=inf --page-requisites --convert-links --html-extension --span-hosts=example.org,iana.org example.org
我在Debian上使用GNU Wget 1.13.4。
--span-hosts --domains=example.org,iana.org
-我认为--span-hosts
需要为布尔值,然后使用它--domains
来指定要跨越的主机。
wget --recursive --level = inf --page-conditions --convert-links --html-extension -rH -DdomainA,domainB domainA
wget --page-requisites --convert-links --adjust-extension --span-hosts --domains domainA,domainB domainA
您可能需要忽略robots.txt(请注意,这可能违反了某些服务条款,因此您应该下载最低要求)。请参阅https://www.gnu.org/software/wget/manual/wget.html#Robot-Exclusion。