如何转储MediaWiki以供离线使用?


16

我希望能够每周制作一个MediaWiki网站的脱机版本。

DumpHTML扩展其实我想要做什么,因为它转储所有文章和媒体文件,但我无法看到所有它有倾倒的物品的任何指标,所以我不能在转储导航。

阅读MediaWiki具有的XML转储功能时,我想知道是否可以使用程序查看这些文件或将它们转换为html?

还是有其他方法可以制作MediaWiki网站的脱机版本?


您真的需要索引吗?只需Main Page从这里开始并按照那里的链接。
Ilmari Karonen'4

这是Cam Webb制作MediaWiki网站静态版本的说明。这是我自己的,以防他们帮助任何人。两者都提供了指向静态结果的链接(此处是我的)。
Michael Allan

Answers:


8

您可以使用网络爬虫工具将网站另存为HTML文件。所有链接都将被转换,因此您可以打开主页,然后单击链接进入所有站点。

有许多可用的工具。我使用wget,它是基于命令行的,具有数千个选项,因此不是很友好。但是它非常强大。

例如,这是我用来转储自己的mediawiki网站的命令行。我建议您尽管自己使用每个选项,但请先理解它们:

"c:\program files\wget\wget" -k -p -r -R '*Special*' -R '*Help*' -E http://example.com/wiki

10

您可以-pages-articles.xml.bz2Wikimedia转储站点获取,并使用WikiTaxi处理它们(在左上角下载)。Wikitaxi导入工具将从文件中创建一个.taxi文件(对于Wikipedia约为15Gb).bz2。WikiTaxi程序将使用该文件搜索文章。体验与浏览器体验非常相似。

或者,您可以使用Kiwix更快地进行设置,因为它还提供了已处理的转储(.zim文件)。正如评论中指出的那样,为了可以将其他MediaWiki网站用于kiwix,mwoffliner可以使用它,但由于它们可能具有自定义差异,因此它可能无法与所有人兼容,但这是我遇到的唯一变体。

将Wikimedia内容与之搭配wget不是一种好习惯。如果太多的人愿意这样做,则会向网站发送大量请求。


以后针对您还希望图像脱机的情况进行编辑:

XOWA项目

如果您想要完整的Wikipedia镜像(包括图像)完整的HTML格式(可在aprox 30小时内下载),请使用:

英文维基百科有很多数据。有13.9+百万个页面,其中20.0+ GB的文本以及3.7+百万个缩略图。

XOWA

在计算机上进行所有设置将不是一个快速的过程...导入本身将需要80GB的磁盘空间和五个小时的文本版本处理时间。如果还需要图像,则数字会增加到100GB的磁盘空间和30个小时的处理时间。但是,完成后,您将拥有一份完整的英语维基百科的最新副本,其中包含可容纳128GB SD卡的图像。

但是离线版本与在线版本非常相似,包括照片等:( 我完全离线测试了下面的文章) 在此处输入图片说明


如果以上都不适用,请稍后编辑:

如果Wiki不是Wikimedia的一部分,或者没有转储,那么github上会有一个项目使用其API下载该Wiki:

WikiTeam-我们存档Wiki,从Wikipedia到最小的Wiki。


1
在转储自定义mediawiki安装的情况下,XOWA能够做到这一点(可能存在一些问题),在xowa.org/home/wiki/App/Wiki_types/Wikia.com之后的文章非常有用。Kiwix与自定义Wiki的用法尚待测试(首先需要使用github.com/kiwix/mwoffliner或其他工具来丢弃 Wiki )
自动扶梯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.