我怎样才能让wget只下载页面而不下载CSS图像等?


10

我想使用wget下载整个网站,但我不希望wget下载图像,视频等。

我试过了

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

但是当我这样做时,它不会下载.php文件,而只会下载静态.html文件。

wget是否可以解决此问题?

Answers:


6

您已明确告诉wget仅接受.html带有后缀的文件。

假设php页面具有.php,您可以执行以下操作:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

请注意,这将下载渲染的html,而不是php的源代码。如果页面足够动态,则可能无法获得预期的渲染结果。

但是,我建议使用httrack之类的其他工具可能会做得更好-它完全取决于您需要做什么。


3

-A需要一个列表,因此-A.html,.php应该合适。您还应该查看-R(它也带有拒绝列表)。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.