操作系统:Ubuntu 18.04
首先,安装tesseract-ocr
:
apt-cache show tesseract-ocr
sudo apt-get update && sudo apt-get upgrade
apt-get install tesseract-ocr --print-uris
apt-get install tesseract-ocr
sudo !!
如果要在tesseract中使用英语以外的语言,则必须安装相应的laguage软件包。例如对于葡萄牙语,您将需要执行以下操作:
sudo apt-get install tesseract-ocr-por
否则,您将得到错误:
Error opening data file /usr/share/tesseract-ocr/4.00/tessdata/por.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your
"tessdata" directory.
Failed loading language 'por'
Tesseract couldn't load any languages!
Could not initialize tesseract.
如果您使用Google“ tesseract PDF”,则可能会发现此帖子有些过时。但是,它为您提供了一些有用的提示。您首先必须将.pdf
文件转换为一个文件.tiff
。跑:
convert -density 125 originalfile.pdf -depth 8 -alpha Off newfile.tiff
如果像过时的帖子中那样忘记添加alpha -Off
,则会出现以下错误:
Tesseract Open Source OCR Engine v4.0.0-beta.1 with Leptonica
Error in pixReadFromTiffStream: spp not in set {1,3,4}
现在,您可以运行最终命令。在您的原始PDF是葡萄牙语的特殊情况下,您将需要以下命令:
tesseract -l por newfile.tiff output pdf
生成的文件将命名为output.pdf
。例如,如果您的PDF是法语的,则在安装相应的之后tesseract-ocr-fra
,将运行:
tesseract -l fra newfile.tiff output pdf
所需的文件将再次是output.pdf
。