如何归档整个网站?


Answers:


12

由于Wayback Machine不提供此类功能,因此我找到了一些解决方法。

  1. 首先,使用镜像网站wget,例如

    wget -m https://example.com/
    
  2. 然后使用curl来一步一步压缩所有已下载的页面。

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
    

    注意:您可以更改.html.php,或包括某些类型的文件。


如果该站点不使用扩展名(例如html或php-已设置SE),那么如何调整命令?
db

2
您可以更改-name "*.html"-type f包括所有文件。
kenorb

如何使用查询参数?
神话

6

如果您希望归档小型网站,则归档团队将维护ArchiveBot(一个IRC机器人),您可以在其中请求抓取网站。然后,存档团队将已爬网的页面提交到Internet存档的Wayback Machine。


这是非常有用的。
盖伊,

1

Wayback Machine无法提供提交整个网站的方法,只能提供一个页面。他们的Wayback Machine常见问题解答有两点涉及到这一点:

我可以将页面添加到Wayback机器吗?

https://archive.org/web上,您可以使用“立即保存页面”功能一次保存特定页面。当前,它不会将URL添加到将来的任何爬网中,也不能保存超过一页的内容。它不会保存多个页面,目录或整个站点

如何使我的网站包含在Wayback Machine中?

我们存档的大部分Web数据来自我们自己的爬网或Alexa Internet的爬网。两个组织都没有“立即抓取我的网站!” 提交过程。Internet存档的爬网往往会找到与其他站点链接良好的站点。确保我们找到您的网站的最佳方法是确保它包含在联机目录中,并且类似/相关的网站链接到您。


1
这不是问题的答案。仅仅因为没有官方的方法可以完成任务。实际上,编写一个递归添加链接的脚本应该很容易。
db

@ db,kenorb的答案似乎是您要的。顺便说一句,此刻此刻对我来说更有用,因为我只希望WaybackMachine现在为我捕获一页。
cp.engr

1

archive.org上的这篇文章还建议了一项付费服务​​,该服务将根据您的需要为您执行抓取次数:

  1. 注册一个Archive-It帐户

存档-它是Internet存档提供的一项订阅服务,使您无需任何技术专业知识即可运行自己的爬网项目。告诉我们要进行爬网的内容以及进行爬网的频率,然后我们执行爬网并将结果放入Wayback Machine中。

这可能不是您要追求的,但是对于某些企业而言,此服务可能会有用。我认为这有助于资助archive.org,否则它是免费的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.