将网页转换为一个电子书文件


23

我想下载HTML(例如:http ://www.brpreiss.com/books/opus6/ ),并将其加入一种HTML或其他可以在电子书阅读器上使用的格式。带有免费书籍的网站没有标准的页面调度,它们不是博客或论坛,因此不知道如何进行一些自动爬网和合并。

Answers:


13

您可以使用Calibre来满足电子书转换的需求。通过将单个HTML文件链接到一个HTML文件,您可以将其链接到目录中,从而将其制作成一个包含多个HTML文件的电子书,如下所示


我正在使用Sigil转换为EPUB,但不知道Cailbre可以从一堆链接的html中制作一本电子书。我会尝试的,thanx!
Hrvoje Hudo

1
您可以使用httrack.com下载该网页,然后使用Caliber将其全部转换为ePub格式。
에 이 바

3
我的流程是(使用Chrome)使用Instapaper文本书签进行清理,然后右键单击->另存为,选择另存为单个网页(仅HTML),然后在Calibre中将其打开,转换为EPub,然后使用编辑书功能整理,它们会在拉标记的任何额外的乱位。
埃尔雅博

6

我以前这样做的方式是Calibre。

不过,这变得非常痛苦,因此我构建了Chrome扩展程序以使其变得更容易。

它称为EpubPress(http://epub.press)。

它使您可以从Chrome标签创建电子书。

希望有帮助!


3
您链接中的网站建议打包在第三方服务器上进行,用此方法不能保证隐私。
布尔吉

您是否有一些建议可以使您更加安全?我已竭尽所能,只要求编写本书的最低限度的信息,但我愿意接受进一步的反馈。如果您查看任何可比较的服务,就会发现您要保存的所有内容都已发送到服务器。区别在于这些服务还需要一个帐户,并且所有内容都与您的姓名相关联。他们也不提供其网站的源代码,以允许您查看其收集的内容。该扩展是开源的,我很乐意回答有关该代码的任何问题。
哈罗德·

多么棒的工具!非常感谢您免费提供给社区!
vonjd

5

Pandoc可以链接到页面(或html文件)并将其转换为pdf / epub ...

我不确定它是否会爬行。如果没有,则可以先使用wget或其他内容(或仅收集链接)来抓取页面,然后将其提供给pandoc。


根据手册页,它将:“可以提供一个绝对URI,而不是文件。在这种情况下,pandoc将使用HTTP来获取内容”
jopasserat


1

HTTrack是一个不错的选择-它可以从网站上构建电子书:可以从以下网站下载电子书: https: //www.httrack.com/ HTTrack“允许您从互联网将万维网站点下载到本地目录,以递归方式建立所有目录,从服务器到计算机获取HTML,图像和其他文件。HTTrack安排了原始站点的相对链接结构。”

然后,您可以使用Calibre或其他任何HTML到epub转换软件,将HTML转换为EPUB,AZW3或PDF。

直接转换为EPUB的第二个选项是EpubPress:它具有扩展功能,允许从Firefox(仅v44.0 +)或Chrome使用。要使用此软件,您需要打开浏览器窗口。每个选项卡在您的电子书中实质上都是一个“章节”。按所需的出现顺序排列选项卡,然后激活epubpress-它会以.epub格式下载并按其出现顺序排列选项卡。希望这可以帮助!

*不过,请注意,EpubPress会下载离散的网页-而不是HTTrack的“网站”。要使用EpubPress下载网站,必须将网站上的每个链接作为单独的选项卡打开,然后使用Epubpress将这些链接收集为.epub格式。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.