我希望能够每周制作一个MediaWiki网站的脱机版本。
该DumpHTML扩展其实我想要做什么,因为它转储所有文章和媒体文件,但我无法看到所有它有倾倒的物品的任何指标,所以我不能在转储导航。
阅读MediaWiki具有的XML转储功能时,我想知道是否可以使用程序查看这些文件或将它们转换为html?
还是有其他方法可以制作MediaWiki网站的脱机版本?
我希望能够每周制作一个MediaWiki网站的脱机版本。
该DumpHTML扩展其实我想要做什么,因为它转储所有文章和媒体文件,但我无法看到所有它有倾倒的物品的任何指标,所以我不能在转储导航。
阅读MediaWiki具有的XML转储功能时,我想知道是否可以使用程序查看这些文件或将它们转换为html?
还是有其他方法可以制作MediaWiki网站的脱机版本?
Answers:
您可以-pages-articles.xml.bz2
从Wikimedia转储站点获取,并使用WikiTaxi处理它们(在左上角下载)。Wikitaxi导入工具将从文件中创建一个.taxi
文件(对于Wikipedia约为15Gb).bz2
。WikiTaxi程序将使用该文件搜索文章。体验与浏览器体验非常相似。
或者,您可以使用Kiwix更快地进行设置,因为它还提供了已处理的转储(.zim
文件)。正如评论中指出的那样,为了可以将其他MediaWiki网站用于kiwix,mwoffliner
可以使用它,但由于它们可能具有自定义差异,因此它可能无法与所有人兼容,但这是我遇到的唯一变体。
将Wikimedia内容与之搭配wget
不是一种好习惯。如果太多的人愿意这样做,则会向网站发送大量请求。
如果您想要完整的Wikipedia镜像(包括图像)完整的HTML格式(可在aprox 30小时内下载),请使用:
英文维基百科有很多数据。有13.9+百万个页面,其中20.0+ GB的文本以及3.7+百万个缩略图。
XOWA:
在计算机上进行所有设置将不是一个快速的过程...导入本身将需要80GB的磁盘空间和五个小时的文本版本处理时间。如果还需要图像,则数字会增加到100GB的磁盘空间和30个小时的处理时间。但是,完成后,您将拥有一份完整的英语维基百科的最新副本,其中包含可容纳128GB SD卡的图像。
但是离线版本与在线版本非常相似,包括照片等:( 我完全离线测试了下面的文章)
如果以上都不适用,请稍后编辑:
如果Wiki不是Wikimedia的一部分,或者没有转储,那么github上会有一个项目使用其API下载该Wiki:
Main Page
从这里开始并按照那里的链接。