我想反映一个博客,例如www.example.com
,用wget
。
我将wget与以下选项一起使用(shell变量已正确替换):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
该博客包含驻留在其他域上的图像。
即使我指定了-p
选项(下载链接的页面资产),也不会下载这些图像,除非我在-D
选项中明确指定了每个域。
如果我省略该-D
选项,则wget将跟踪外部的每个链接www.example.com
并下载整个Internet。
是否可以wget
仅跟踪每个链接下的内容www.example.com
并下载每个页面所需的资产,而无论这些资产是否驻留在同一域中,而无需我明确指定每个域?
假设您的博客(减去页面资产)未跨越多个域,请尝试同时删除
—
blubberdiblub 2015年
-D $domains
和-H
。如果没有-H
它,则应该保留在您的域内,但即使它们位于不同的域上,仍应检索直接页面资产。
wget -N -E -H -k -K -p
首先使用,然后想出了一个脚本来提取丢失的链接图像。