我有几千页的扫描书页。每个页面分别保存为JPG。文字清晰,但字体不同,页面上确实包含图片和插图。
我需要创建一个出现在每个JPG文件中的所有单词的列表。是否有用于扫描图像的命令行工具,列出出现的单词?它不需要进行完美的扫描,只需进行估算即可。
github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage-这是ocrmypdf的引擎,通常,您可以减少设置步骤。
—
奥卡德
重复项有点旧,可能存在较新的内容。我将投票开放。
—
Archemar