将图像转换为文本


8

我从银行获得了扫描的图像文档,我想将其转换为包含Ubuntu中图像的普通文本文档。

有什么工具吗?

Answers:


15

有许多用于Linux 的OCR读取器可以将图像转换为文本。查看以下选项:

除ocropus以外,以上所有内容均以相同名称的软件包存在于Ubuntu存储库中。

不同的阅读器支持不同的图像格式,因此您可能会受到文档所在文件格式的限制。或者,如果您想使用特定的OCR阅读器,则可以使用ImageMagick 的转换工具来更改格式。

从我的回答改编这里


0

您需要首先在Linux机器上安装“ tesseract-ocr”。

sudo apt-get install tesseract-ocr

您可以从CLI手动进行操作,或者我已经为PHP编写了PHP代码,可以根据需要使用它。

注意:要运行此代码,应在php.ini中启用exec命令。

<?php
//IMAGE TO TXT Conversion
    $input_file = $_REQUEST['input_file'];
    $out = explode(".",$input_file);

    $output_file = $out[0]."_".$out[1];
    $output_file_name  =    $output_file.".txt";

    echo "<br />----IMAGE To TXT conversion Started-----</br />";
    echo  exec('tesseract '.$input_file.' '.$output_file);
    echo "<br />----TXT conversion Done-----</br />";

    echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
    echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />"; 
?>

将此代码放在根文件夹中,然后从浏览器访问它,

例如:

http://yourserver.com?input_file=1.png

注意:1.png文件应该存在于当前目录中。

我没有上传图片的权利,我已将该图片用作参考, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.