我想在archive.org上获取给定网站的所有文件。原因可能包括:
- 原始作者没有存档他自己的网站,并且该网站现在离线,我想从中进行公共缓存
- 我是某个网站的原始作者,丢失了一些内容。我想恢复它
- ...
我怎么做 ?
考虑到archive.org的Wayback机器非常特殊:网页链接不是指向档案本身,而是指向可能不再存在的网页。客户端使用JavaScript来更新链接,但是递归wget之类的技巧将不起作用。
Ruby的Windows用户(对我来说是win8.1 64bit)的逐步帮助,这是我所做的工作:1)我安装rubyinstaller.org/downloads,然后运行“ rubyinstaller-2.2.3-x64 “ .exe”; 2)下载了zip文件github.com/hartator/wayback-machine-downloader/archive/…3)解压缩了我计算机中的zip 4)在Windows开始菜单中搜索“使用Ruby启动命令提示符”(续)
—
Erb 2015年
5)按照github.com/hartator/wayback_machine_downloader的说明进行操作(例如:将此“ gem install wayback_machine_downloader”复制粘贴到提示中。按Enter键,它将安装程序...然后遵循“使用”指南)。6)一旦您的网站被捕获,您将在C:\ Users \ YOURusername \ websites中找到文件
—
Erb
gem install wayback_machine_downloader
。使用要检索的网站的基本URL作为参数运行wayback_machine_downloader:wayback_machine_downloader http://example.com
更多信息:github.com/hartator/wayback_machine_downloader