物理文本到数字文本


9

让我首先给这个问题加上前缀,我不知道哪个StackExchange网站最适合这个问题,但是我认为LifeHacks可能有用...

1998年,我妈妈一家人有一个大家庭团聚(我曾祖母有10个孩子,所以那真的是一个大聚会)。我的一个遥远的叔叔为这次聚会写了一本关于我们家庭历史的书,我的妈妈给了我这本书以供阅读。我不敢相信本书有多大,有多少研究。我想找出一种方法,将整本书放在网站上,然后与家人分享,最终将历史保存得比这本脆弱的书更长。

希望我不必逐字输入整个300页的书,有没有办法我可以扫描页面并将其转换为数字文本?显然,我可以拍照,并使用图片制作网站,但我觉得将其作为实际文本会更有益,因为当有人搜索家庭成员姓名或类似名称时,它可能会更好地显示在Google搜索中。而且,如果一家人曾经做过一个关于我们家庭的研究项目,他们将能够复制一些文本并更轻松地进行引用。

那么,有人知道我可以将这本旧家庭书转换成数字文本的最佳方法吗?

书籍首页

指示厚度的书

Answers:


14

使用Android手机和“ Google镜头 ”功能,该功能最近已添加到照片应用程序和相机照片查看工具中。

通过Google Lens进行的OCR远远超出了我曾经使用的任何OCR软件,而且非常准确。

以下是一些屏幕快照,概述了使用便宜的诺基亚诺基亚3(100美元)进行操作的过程这是自从我心爱的Nexus 4放弃鬼魂以来我一直很乐意使用的最好的手机。

我将详细介绍1976年印刷的一部希腊民族学书籍的OCR扫描样本,我不敢拆开进行扫描,该书似乎具有相似的字符密度和字体。

我在不太理想的照明条件下拍摄了这张原始照片,使用了一般的手机摄像头上的所有自动设置,没有使用任何特殊的照片技术或用于增强效果的固定装置,您可以说这只是一张普通的业余电话图片,书页。(只需确保文本聚焦,没有OCR会破译模糊的离焦文本)

在此处输入图片说明

单击拍照后可通过预览使用的Google镜头图标,或使用Google相册应用在照片本身上单击

在此处输入图片说明

这是-Skynet- ^M^M^M^M^M^M我的意思是, Google镜头正在进行魔术扫描(这些点有点令人毛骨悚然,但我必须做些事才能让您知道googley AI正在做它的事情)

在此处输入图片说明

扫描完图像后,您会发现Google Lens在图片上找到的文本区域轮廓清晰,并且其文本已提取到屏幕的下半部分。如果您只想要某些区域而不想要其他区域,只需触摸您的选择以激活/停用它们。

如果您触摸提取的文本,它将被放置在剪贴板中,以便在手机上的任何位置进行复制/粘贴

在此处输入图片说明

然后,只需将文本粘贴到Google文档中文档中即可。在那里,您可以:-在那里或在PC上纠正任何错误;-将文档共享到您内心的内容中;-通过实时更新您的编辑内容将其发布为网页;或-导出到-纯文本-Word文档,-打开办公室文档,- 带有可重排文本的kindle兼容epub电子书,或-良好的非DRMd PDF

可以说这可能是发布的最短途径,可能的输出选择范围最广。

您可以从一台设备(安装了适当应用的Android手机)上完成所有操作,并且基本上可以免费以高准确率立即完成操作。

这是Google文档粘贴的片段
在此处输入图片说明

这是Google文档的URL共享,请随时发表评论。您可能还会有人帮助您远程和同时编辑文档。

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

最后,这里是一个使用上述文档作为链接源发布的Google协作平台网站

https://sites.google.com/h-lo.me/ocrsample

支持https,支持台式机和移动设备,并且视口味而定,通常不会伤眼。15分钟的总工作时间还不错,也不需要任何编码。


还有一个改进,就是在Google文档上创建合适的段落,因为Google Lens在每行提取的文本之后插入一个硬返回,这使得每一行都是它自己的段落,如果要使用它将成为一个问题Google文档功能,例如目录,或将文档导出到与Kindle兼容的电子出版物电子书时(合并重排文本)

您可以通过在每行开头按退格键来加入每行,也可以使用脚本自动执行。

因此,我正在编写一个应用程序脚本插件,我将在不久后发布该插件以自动化该过程。完成后,我会在这里告诉您。


很详细。我喜欢这个免费的解决方案。谢谢!
凯尔·布​​莱恩汀汀

我的荣幸!您甚至可能已经拥有了所需的一切!:)
hlecuanda

对于一本厚厚的书,这确实是一种劳动密集型的方法:您必须手动翻转每页然后拍照。
霍布斯

6

您可以分阶段进行。首先,在页面扫描时将所有内容联机,并在可能的时候进行更新。cerlox™塑料梳子装订使其易于拆开并重新放入装订机中。

由于打印尺寸看起来是普通的衬线字体,因此可以使用光学字符识别软件将扫描数字化。OCR可以为您提供文本文件草稿,您可以对文本文件进行校对并在网站上发布其最终形式。

同时,您可以整理图片和其他图片材料。

您可以在项目的时间/资源可用时执行此操作。


与先前的答案相似,但不详尽。
Trajan Espelien

@TrajanEspelien以前的答案是什么?检查时间戳记。答案是第一,即提交希科达之前两天。
斯坦(Stan

是的,但是没有其他答案那么详细,这就是我为什么接受另一个答案的原因。它不是先到先得的服务器..这是最好的答案。
凯尔·布​​莱恩汀汀

@KyleBridenstine不要在开玩笑!我也赞成hiecuanda。这是一个很好的答案。顺便说一句,如果您没有Android手机或无法访问Glass,该怎么办?我对这个问题给出了通用答案。
斯坦(Stan

1
@KyleBridenstine谢谢您的客气话。我们同意。我认为您通过等待做对了事情。第一个答案不是最好的(除非出于某种原因。毕竟还是有最后期限。)我将链接发送给您的问题,并且将希库安达的出色答案发送给了一个同事,该同事必须使用大量的学校记录来做同样的事情巴西!
斯坦(Stan)

2

您可以自行找到一些好的答案。

我想补充一下我付钱给别人为您做的经历。

我使用了数字化我的书在英国(我自己是英国人)。

我对结果感到非常满意:每本书以PDF格式返回,其中包含可搜索(和可复制)的文本。使用标准的PDF技术,保留了每页的原始图像,但带有文本覆盖层,因此您可以突出显示页面上的原始文本。很好的价值。作为来自英国的海外人士,您仍然可以将书寄给他们。

他们还为书提供了一种可编辑的Word文档格式的选项,但需要额外但非常合理的费用。

如果您不要求退回原件,那么最便宜的选择是选择破坏性扫描。这是从书本中单独取出页面并进行扫描的地方。默认情况下,原书不会退回,尽管我相信您可以要求提供,可能要额外付费(例如,寄回邮资),但这些书页会很松散,已被移除以单独扫描。破坏性扫描是我为所有书籍选择的选项,并且不需要原件退回。

如果您确实需要原件,它们还提供非破坏性复印,但是成本更高。如果您已经自己扫描过一本书,他们也会接受您自己的数字扫描-他们可以将其制作成可搜索,可复制的PDF或Word文档。

看看他们的网站。我真的认为这是最好的选择:花钱节省时间,而不是花时间节省钱。

我不为数字图书我工作,也没有任何财务利益(股东或其他)。

最初,我本人是通过使用DSLR相机照相(照相比平板扫描要快)来进行“扫描”的,每页都用剪贴板夹和Blu-tak保持打开状态。但是我发现这相当费力。

如果您仍然热衷于自己做,ScanTailor是一个开源Windows应用程序,它将格式化,将扫描的双页/成对的页面拆分成单独的页面,拉直和“扭曲”它们。这样,生成的页面就可以根据需要显示为平坦且笔直,但是它不会执行OCR:结果仍然是位图图像。但是至少可以通过某种方式使批处理自动整齐,以消除页面的任何变形,特别是非破坏性复印,在这种情况下,很难将页面完全平整以适应大型书籍。

更新

添加了有关服务提供的扫描选项的更多信息。ScanTailor的更多信息。语法更正。


1

最快的方法是联系您的亲戚,看看他们是否仍然拥有用来创建该书的原始文件。从头版照片上,我会说它是在计算机上制作的。从{在这里插入非常老的文字处理程序包}转换为当前格式就可以完成。

将一堆印刷材料转换为数字文档的第二快的方法:

  1. 删除绑定。
  2. 剪掉页面的左边缘以消除孔洞。孔会干扰文档进纸器。
  3. 仔细阅读本书,找出会干扰文档进纸器的折痕和其他损坏。
  4. 查找具有文档进纸器和扫描功能的任何合理的现代双面打印机。扫描为PDF。

然后使用任何OCR软件包将扫描的页面转换为Word文件。为此,我在完整版的Adobe Acrobat中使用了OCR功能,但是周围有许多OCR引擎。


0

您可能想尝试一种非常便宜的服务:preserve-your-memories.info。自己做时,我使用扫描仪扫描到OCR程序OmniPage,然后另存为可完全搜索的pdf文件。由于出版物是用塑料梳子装订的,因此很容易分解以扫描各个页面然后重新装订。拍摄以上建议中概述的照片也是非常可行的-在许多方法中都是不错的选择。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.