将大书转换为数字格式的实用OCR解决方案？

12

上周末我由祖父母住过。我的祖母拿出了这本巨大的家族史书（约1400页），可追溯到1630年左右。我是个巨型书呆子，我认为将所有信息存储在数据库中并可以从Web上获取信息会很麻烦。我可以处理所有的Web编程和正则表达式，但不可以，但是我不知道的是将文本从书本转移到计算机的最佳方法。

从我所做的少量研究中，我知道某种OCR是必要的，似乎我的选择是：

用相机拍摄每页的图片，然后使用OCR软件处理图片
使用扫描仪扫描每页，然后使用OCR软件进行处理
使用某种类型的手持设备，像这样。

是否有人对解决此问题的最佳方法有任何想法？我不想销毁这本书，因为据我所知，它不能被替换。这可能是我唯一一次要扫描一本大书，所以我不希望在任何设备上花费超过250美元。我不介意在此进行任何人工操作（我意识到这很可能需要几个月的时间），但是我想找到最有效的方法。

关于这本书的注意事项：它只有大约20年的历史，所以它的状态还不错。它是单色的，页面尚未开始泛黄。由于它太大，所以我担心当文本接近装订时可能会有阴影。

ocr

1

附带说明一下，如果这本书只有20年历史，而信息可以追溯到1600年代，原始资料在哪里？也可能很好捕捉！

— Craig

是的，那也很酷。我将查看是否可以追踪原始作者。

8

很久以前，我在Lifehacker上遇到了这个问题，从那以后，这一直是我最重要的DIY项目之一。

在此处输入图片说明

用任何相机或成像设备替换iPhone，您就会获得一堆漂亮的高分辨率jpeg，可以使用任何软件进行OCR了，甚至（恶意软件！）MS Office ...;）

便宜的。有效。自己动手你不能击败这样的想法。

编辑：注释提出了有关阴影，页面卷曲等的一些要点。对于任何具有照像复印的库文本的人来说，很容易解决。

添加多个光源以照亮书本，并消除阴影。

将书本倾斜到与页面成90度的角度，不要朝中间的装订方向卷曲。它还保留了绑定。

我将看看是否可以举一个例子并自己设置一个。

编辑2：上载了您应该如何拿着这本书的样本，并注意到左侧的光源。

在此处输入图片说明

— 卡利班
source

太酷了！希望我能做到这一点:)

— alex

但是，您需要一台真正的相机才能做到这一点，并且质量很高，否则您将得到无法利用的图片，尤其是一本非常古老的书。因此，它远非便宜。

— Gnoupi

很有意思。考虑到页面之间可能存在阴影，我不知道这如何与书一起使用。

如果页面弯曲或有阴影，则使OCR软件识别字母时会遇到问题。

— 亚历克斯

添加多个光源以照亮书本，并消除阴影。将书本倾斜90度，以使页面不会向中间的装订方向卷曲。这是简单的常识，我们从大学开始就一直在拍摄图书馆文字照片。

— caliban

3

据我所知，ABBYY是最好的OCR软件，但是它不是免费的。您应该尝试使用ABBYY FineReader的试用版，也许会有所帮助。

— 亚历克斯
source

1

您将需要以某种方式捕获图像。存在各种服务可以为您完成此任务。您还需要熟悉文本内容的人进行校对，因为OCR尚不完善。尤其是手写的东西。

其他人在这里讨论您的问题：http : //ask.metafilter.com/92506/scan-my-books

一些公司会为您执行此操作： http: //www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http：// www。 ristech.ca/product.html

一些免费软件：http : //download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

— 尼克·森托夫斯基
source

1

对于像这样对您和您的家庭项目来说庞大而重要的事情，也许可以采用DIY图书扫描仪，有些设计甚至是体育翻页器-http: //www.diybookscanner.org/ 此产品本身不支持OCR ，但每小时确实可以拍摄600页，您可以在http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/之后通过OCR运行它

— Xaq Fixx
source

0

您可能想看看您附近的一所大学是否有一台完整的图书扫描仪，然后乞求/贿赂一名学生将您的图书放入其中。

— 克里斯·纳瓦
source

0

我会推荐使用Chris提到的用于书籍扫描的平板扫描仪或整个书籍扫描仪。

如果可以的话，在文档管理系统中，将图像编译成TIFF格式，这是行业标准。

对于OCR，我建议使用tesseract OCR，因为它是Google在其图书项目中阐述的框架。

— 格雷格·布勒
source

0

虽然听起来很想自动化该过程，但您可能要花费更多的时间和精力，因为这本特定的书是个人事务。OCR会做大量工作，但您必须逐页校对并与原始内容进行比较。请记住，作者的错误是其中的一部分，请勿更正（如果您愿意，可以创建脚注）。花点时间，不要承受压力，读书是驴子的事，但要付出周全的代价，最终您会得到一份精美的家庭慢性病数字副本。祝您好运:)

实际上，这是一个很好的观点。我没有考虑过以数字方式提供本书的原始内容，但只要有，我也可以提供.pdf版本。

为什么是PDF？考虑HTML。尽管您最终将获得大量数据，但您最好还是保留原始扫描。

我的想法是将所有出生/血统信息都存储在数据库中，因此我可以创建一个使浏览/搜索/更新更加容易的Web前端。我计划使用该版本以外的任何错字。另外，我有一些堂兄弟姐妹不在那儿，添加它们会很好。我在考虑pdf，因为拥有类似原始书的原始页码和完整无缺的东西会很好。我会独自留下那个版本，并保留本书中的所有错字。

0

在工作中，我们使用Plustek Optibook 3600图书扫描仪，价格约为250美元。
它基本上是标准的平板扫描仪，但玻璃板正对着扫描仪的边缘，因此可以将书页平放在板上。这样可以消除脊柱阴影，并避免损坏书本。

在此处输入图片说明

— 果肉
source

您是否曾经尝试将其用于一本非常厚的书？大约3英寸厚。

如果您可以将页面平放90°来打开它，那应该没问题。尝试在桌子边缘。

— pelms