Answers:
Google文档现在正在测试一项新的API功能,该功能在图像和PDF上使用OCR(光学字符识别)。
Google Docs API测试了一项新功能,该功能使您可以对图像执行OCR(光学字符识别)。有一个演示该功能的实时演示:您可以上传小于10 MB的高分辨率JPG,GIF或PNG图像,然后Google Docs提取文本并将其转换为新文档。Google提到“该操作目前最多可能需要40秒钟”,一项小型测试表明该服务尚不可靠:它运行缓慢且经常返回错误。
结果远非完美,您会发现许多错误,但是该服务是免费的,而且还在不断改进。这是此扫描文档的OCR结果:
Google文档文档可以多种不同格式导出,包括HTML,OpenOffice和Word:
根据我对SO的回答,是否有人知道一种以编程方式轻松将PDF转换为docx格式的方法:
将PDF转换为SVG(ghostscript会做到)并将其导入...
……要点是,尽管Word不会嵌入PDF,但会嵌入SVG。
使用光学字符识别程序,例如Omnipage Pro。它支持PDF作为文档输入,并支持Word作为输出。
您也可以尝试OCRTerminal,该服务每月提供20页的免费服务。他们有一个Beta桌面客户端,似乎可以通过邀请使用(您必须与他们联系并表达兴趣)。