要通过Wayback Machine保存单个页面,我可以转到:
如何通过Wayback Machine递归归档网站?
有一些项目,例如wayback-machine-downloader
,但是我正在寻找一个功能,该功能允许我递归上传网站。
要通过Wayback Machine保存单个页面,我可以转到:
如何通过Wayback Machine递归归档网站?
有一些项目,例如wayback-machine-downloader
,但是我正在寻找一个功能,该功能允许我递归上传网站。
Answers:
由于Wayback Machine不提供此类功能,因此我找到了一些解决方法。
首先,使用镜像网站wget
,例如
wget -m https://example.com/
然后使用curl
来一步一步压缩所有已下载的页面。
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
注意:您可以更改.html
为.php
,或包括某些类型的文件。
-name "*.html"
为-type f
包括所有文件。
如果您希望归档小型网站,则归档团队将维护ArchiveBot(一个IRC机器人),您可以在其中请求抓取网站。然后,存档团队将已爬网的页面提交到Internet存档的Wayback Machine。
Wayback Machine无法提供提交整个网站的方法,只能提供一个页面。他们的Wayback Machine常见问题解答有两点涉及到这一点:
我可以将页面添加到Wayback机器吗?
在https://archive.org/web上,您可以使用“立即保存页面”功能一次保存特定页面。当前,它不会将URL添加到将来的任何爬网中,也不能保存超过一页的内容。它不会保存多个页面,目录或整个站点。
和
如何使我的网站包含在Wayback Machine中?
我们存档的大部分Web数据来自我们自己的爬网或Alexa Internet的爬网。两个组织都没有“立即抓取我的网站!” 提交过程。Internet存档的爬网往往会找到与其他站点链接良好的站点。确保我们找到您的网站的最佳方法是确保它包含在联机目录中,并且类似/相关的网站链接到您。