程序设计 text-extraction

13

关闭。此问题不符合堆栈溢出准则。它当前不接受答案。想改善这个问题吗？更新问题，使其成为Stack Overflow 的主题。 5年前关闭。是否有任何Python模块可将PDF文件转换为文本？我尝试了在Activestate中找到的一段使用pypdf 的代码，但是生成的文本之间没有空格，也没有用。

385 python pdf text-extraction pdf-scraping

13

如何使用正则表达式提取子字符串

我有一个字符串，其中有两个单引号，即'字符。在单引号之间是我想要的数据。如何编写正则表达式从以下文本中提取“我想要的数据”？ mydata = "some string with 'the data i want' inside";

382 java regex string text-extraction

15

如何从PDF中提取文本？[关闭]

关闭。此问题不符合堆栈溢出准则。它当前不接受答案。想改善这个问题吗？更新问题，使其成为Stack Overflow 的主题。 5年前关闭。改善这个问题谁能推荐一个库/ API来从PDF中提取文本和图像？我们需要能够获取文档的已知区域中包含的文本，因此API需要向我们提供页面上每个元素的位置信息。我们希望将数据输出到 xml或json格式。我们目前正在看的PdfTextStream看起来不错，但是希望听到其他人的经验和建议。是否可以通过编程方式从pdf提取文本的替代方法（商业方法或免费方法）？

152 pdf text ghostscript extraction text-extraction

8

如何使用grep，regex或perl按照模式提取字符串

我有一个看起来像这样的文件： <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> 我需要的是遵循引号中提取任何东西name=，即content_analyzer，content_analyzer2和content_analyzer_items。我在Linux机器上执行此操作，因此使用sed，perl，grep或bash的解决方案很好。

90 regex perl sed html-parsing text-extraction

5

使用Python中的PDFMiner从PDF文件提取文本？

我正在寻找有关如何使用PDFMiner和Python从PDF文件提取文本的文档或示例。看来PDFMiner更新了它们的API，我发现的所有相关示例都包含过时的代码（类和方法已更改）。我发现的那些使从PDF文件提取文本的任务更容易的库正在使用旧的PDFMiner语法，因此我不确定如何执行此操作。照原样，我只是在查看源代码，以查看是否可以解决。

87 python python-3.x python-2.7 text-extraction pdfminer

2

使用Python进行PDF解析-提取格式化和纯文本[关闭]

关闭。此问题不符合堆栈溢出准则。它当前不接受答案。想改善这个问题吗？更新问题，使其成为Stack Overflow的主题。 5年前关闭。改善这个问题我正在寻找一个PDF库，它将允许我从PDF文档中提取文本。我看过PyPDF，它可以很好地从PDF文档中提取文本。这样做的问题是，如果文档中有表格，则表格中的文本将与文档中其余文本一起在线提取。这可能会引起问题，因为它会生成无用的文本部分，看起来有些乱码（例如，许多数字混在一起）。我想从PDF文档中提取文本，但不包括任何表格和特殊格式。那里有图书馆吗？

82 python pdf parsing text-extraction information-extraction

4

如何从一系列文本输入中提取常用/重要短语

我有一系列文本项-来自MySQL数据库的原始HTML。我想在这些条目中找到最常用的短语（而不是单个最常用的短语，理想情况下，不强制单词对单词的匹配）。我的示例是Yelp.com上的任何评论，其中以给定餐厅的数百条评论显示了3个摘要，格式为： “尝试汉堡”（共44条评论）例如，此页面的“评论重点”部分： http://www.yelp.com/biz/sushi-gen-los-angeles/ 我已经安装了NLTK，并且已经对其进行了一些尝试，但是老实说，这些选择让他们不知所措。这似乎是一个相当普遍的问题，我无法通过在此处搜索找到简单的解决方案。

68 nlp text-extraction nltk text-analysis

Questions tagged «text-extraction»