Answers:
根据有关机器人访问我们页面的信息:
当其他所有操作均失败时,机器人对我们网站的访问权限应作为最后的资源。另外,请记住,古腾堡计划网站拥有版权。
但是,还是有希望的:
更好的选择
- 获取Project Gutenberg网站的脱机版本。
- 获取所有的Gutenberg项目电子书文件。
- 获取Project Gutenberg目录数据。
和:
[...]您可以将机器人指向http://www.gutenberg.org/robot/harvest,以压缩文件的形式获取我们所有的电子书
[...]解压缩zip文件将另外产生70,000个文件。
这是如何使用来获取所有文件的示例
wget
:wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...]如果只需要某些类型的文件,请说:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...]如果只想使用给定语言的文件,请说:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
所以,我想问:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en
--level=0
。但是我想您最好允许中止然后重新启动:try --level 9999 --no-clobber
,它将跳过您已经拥有的文件(假设您仍然位于磁盘上的同一文件夹中)。
-c
期权,但仍然如此。我提供offset=xxx
了要镜像的URL,但仍从第一页下载。
您可以在单个ZIM文件中下载整个Gutenberg的英语书籍和其他语言的完整集合,该文件经过高度压缩,然后可以使用Kiwix在台式机和Android上打开。英文书籍为40 GB。
所选答案正确时,可能会导致两个问题:
wget
命令将无法通过递归检查从外部镜像下载文件。以下解决方案解决了这些问题:
wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"
您可能需要更改引荐来源字符串和用户代理字符串,以提供一些随机性。
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso有很多不错的选择。
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso是一个8GB的文件,应该足以满足您的需求。
这里有更多信息:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP,它提供了下载档案的所有选项,包括FTP和BitTorrent。
另一种选择是http://pgiso.pglaf.org/上的出色工具。
为什么不使用您所有的过于复杂和上面显示的编程技能和知识来制作一个简单的按钮,将所有这些动作链接在一起,并在单击时显示“语言选项”选项卡,并显示“下载所有当前书籍”。
我确信访问该网站的大多数用户都是电子书收藏家,并且手动下载某些与他们感兴趣的主题有关的书对于1或2本书是可以的。但是,手动进行更大的收藏是一件麻烦事。但是,如果他们需要它进行研究,或者只是想在自己的PC上拥有一个庞大的数字图书馆,就可以在图书馆工作。当大多数人意识到必须使用计算机向导来关闭计算机时,他们被关闭了,并离开了站点。因此,“下载所有当前书籍”按钮将使该站点及其项目的用户受益,并且它肯定会产生网站的访问者甚至更多。这样,每个人都很高兴。