Questions tagged «text-extraction»

13
用于将PDF转换为文本的Python模块
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗? 更新问题,使其成为Stack Overflow 的主题。 5年前关闭。 是否有任何Python模块可将PDF文件转换为文本?我尝试了在Activestate中找到的一段使用pypdf 的代码,但是生成的文本之间没有空格,也没有用。


15
如何从PDF中提取文本?[关闭]
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow 的主题。 5年前关闭。 改善这个问题 谁能推荐一个库/ API来从PDF中提取文本和图像?我们需要能够获取文档的已知区域中包含的文本,因此API需要向我们提供页面上每个元素的位置信息。 我们希望将数据输出到 xml或json格式。我们目前正在看的PdfTextStream看起来不错,但是希望听到其他人的经验和建议。 是否可以通过编程方式从pdf提取文本的替代方法(商业方法或免费方法)?

8
如何使用grep,regex或perl按照模式提取字符串
我有一个看起来像这样的文件: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> 我需要的是遵循引号中提取任何东西name=,即content_analyzer,content_analyzer2和content_analyzer_items。 我在Linux机器上执行此操作,因此使用sed,perl,grep或bash的解决方案很好。

5
使用Python中的PDFMiner从PDF文件提取文本?
我正在寻找有关如何使用PDFMiner和Python从PDF文件提取文本的文档或示例。 看来PDFMiner更新了它们的API,我发现的所有相关示例都包含过时的代码(类和方法已更改)。我发现的那些使从PDF文件提取文本的任务更容易的库正在使用旧的PDFMiner语法,因此我不确定如何执行此操作。 照原样,我只是在查看源代码,以查看是否可以解决。

2
使用Python进行PDF解析-提取格式化和纯文本[关闭]
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow的主题。 5年前关闭。 改善这个问题 我正在寻找一个PDF库,它将允许我从PDF文档中提取文本。我看过PyPDF,它可以很好地从PDF文档中提取文本。这样做的问题是,如果文档中有表格,则表格中的文本将与文档中其余文本一起在线提取。这可能会引起问题,因为它会生成无用的文本部分,看起来有些乱码(例如,许多数字混在一起)。 我想从PDF文档中提取文本,但不包括任何表格和特殊格式。那里有图书馆吗?

4
如何从一系列文本输入中提取常用/重要短语
我有一系列文本项-来自MySQL数据库的原始HTML。我想在这些条目中找到最常用的短语(而不是单个最常用的短语,理想情况下,不强制单词对单词的匹配)。 我的示例是Yelp.com上的任何评论,其中以给定餐厅的数百条评论显示了3个摘要,格式为: “尝试汉堡”(共44条评论) 例如,此页面的“评论重点”部分: http://www.yelp.com/biz/sushi-gen-los-angeles/ 我已经安装了NLTK,并且已经对其进行了一些尝试,但是老实说,这些选择让他们不知所措。这似乎是一个相当普遍的问题,我无法通过在此处搜索找到简单的解决方案。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.