将大书转换为数字格式的实用OCR解决方案?


12

上周末我由祖父母住过。我的祖母拿出了这本巨大的家族史书(约1400页),可追溯到1630年左右。我是个巨型书呆子,我认为将所有信息存储在数据库中并可以从Web上获取信息会很麻烦。我可以处理所有的Web编程和正则表达式,但不可以,但是我不知道的是将文本从书本转移到计算机的最佳方法。

从我所做的少量研究中,我知道某种OCR是必要的,似乎我的选择是:

  1. 用相机拍摄每页的图片,然后使用OCR软件处理图片
  2. 使用扫描仪扫描每页,然后使用OCR软件进行处理
  3. 使用某种类型的手持设备,像这样

是否有人对解决此问题的最佳方法有任何想法?我不想销毁这本书,因为据我所知,它不能被替换。这可能是我唯一一次要扫描一本大书,所以我不希望在任何设备上花费超过250美元。我不介意在此进行任何人工操作(我意识到这很可能需要几个月的时间),但是我想找到最有效的方法。

关于这本书的注意事项:它只有大约20年的历史,所以它的状态还不错。它是单色的,页面尚未开始泛黄。由于它太大,所以我担心当文本接近装订时可能会有阴影。

ocr 

1
附带说明一下,如果这本书只有20年历史,而信息可以追溯到1600年代,原始资料在哪里?也可能很好捕捉!
Craig

是的,那也很酷。我将查看是否可以追踪原始作者。

Answers:


8

很久以前,我在Lifehacker上遇到了这个问题,从那以后,这一直是我最重要的DIY项目之一。

在此处输入图片说明

用任何相机或成像设备替换iPhone,您就会获得一堆漂亮的高分辨率jpeg,可以使用任何软件进行OCR了,甚至(恶意软件!)MS Office ...;)

便宜的。有效。自己动手 你不能击败这样的想法。

编辑:注释提出了有关阴影,页面卷曲等的一些要点。对于任何具有照像复印的库文本的人来说,很容易解决。

添加多个光源以照亮书本,并消除阴影。

将书本倾斜到与页面成90度的角度,不要朝中间的装订方向卷曲。它还保留了绑定。

我将看看是否可以举一个例子并自己设置一个。

编辑2:上载了您应该如何拿着这本书的样本,并注意到左侧的光源。

在此处输入图片说明


太酷了!希望我能做到这一点:)
alex

但是,您需要一台真正的相机才能做到这一点,并且质量很高,否则您将得到无法利用的图片,尤其是一本非常古老的书。因此,它远非便宜。
Gnoupi

很有意思。考虑到页面之间可能存在阴影,我不知道这如何与书一起使用。

如果页面弯曲或有阴影,则使OCR软件识别字母时会遇到问题。
亚历克斯

添加多个光源以照亮书本,并消除阴影。将书本倾斜90度,以使页面不会向中间的装订方向卷曲。这是简单的常识,我们从大学开始就一直在拍摄图书馆文字照片。
caliban


1

您将需要以某种方式捕获图像。存在各种服务可以为您完成此任务。您还需要熟悉文本内容的人进行校对,因为OCR尚不完善。尤其是手写的东西。

其他人在这里讨论您的问题:http : //ask.metafilter.com/92506/scan-my-books

一些公司会为您执行此操作: http: //www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http:// www。 ristech.ca/product.html

一些免费软件:http : //download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html




0

我会推荐使用Chris提到的用于书籍扫描的平板扫描仪或整个书籍扫描仪。

如果可以的话,在文档管理系统中,将图像编译成TIFF格式,这是行业标准。

对于OCR,我建议使用tesseract OCR,因为它是Google在其图书项目中阐述的框架。


0

虽然听起来很想自动化该过程,但您可能要花费更多的时间和精力,因为这本特定的书是个人事务。OCR会做大量工作,但您必须逐页校对并与原始内容进行比较。请记住,作者的错误是其中的一部分,请勿更正(如果您愿意,可以创建脚注)。花点时间,不要承受压力,读书是驴子的事,但要付出周全的代价,最终您会得到一份精美的家庭慢性病数字副本。祝您好运:)


实际上,这是一个很好的观点。我没有考虑过以数字方式提供本书的原始内容,但只要有,我也可以提供.pdf版本。

为什么是PDF?考虑HTML。尽管您最终将获得大量数据,但您最好还是保留原始扫描。

我的想法是将所有出生/血统信息都存储在数据库中,因此我可以创建一个使浏览/搜索/更新更加容易的Web前端。我计划使用该版本以外的任何错字。另外,我有一些堂兄弟姐妹不在那儿,添加它们会很好。我在考虑pdf,因为拥有类似原始书的原始页码和完整无缺的东西会很好。我会独自留下那个版本,并保留本书中的所有错字。

0

在工作中,我们使用Plustek Optibook 3600图书扫描仪,价格约为250美元
它基本上是标准的平板扫描仪,但玻璃板正对着扫描仪的边缘,因此可以将书页平放在板上。这样可以消除脊柱阴影,并避免损坏书本。

在此处输入图片说明


您是否曾经尝试将其用于一本非常厚的书?大约3英寸厚。

如果您可以将页面平放90°来打开它,那应该没问题。尝试在桌子边缘。
pelms
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.