Answers:
您已明确告诉wget仅接受.html
带有后缀的文件。
假设php页面具有.php
,您可以执行以下操作:
wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″
请注意,这将下载渲染的html,而不是php的源代码。如果页面足够动态,则可能无法获得预期的渲染结果。
但是,我建议使用httrack之类的其他工具可能会做得更好-它完全取决于您需要做什么。
是的,这很简单。看看这个SO答案:https : //superuser.com/questions/709702/how-to-crawl-using-wget-to-download-only-html-files-ignore-images-css-js
tl / dr; 使用--follow-tags=a
,它将仅跟随a
标签。