Questions tagged «information-extraction»

6
苹果如何找到电子邮件中的日期,时间和地址?
在iOS电子邮件客户端中,当电子邮件中包含日期,时间或位置时,文本将成为超链接,并且只需点击链接即可创建约会或查看地图。它不仅适用于英语的电子邮件,还适用于其他语言的电子邮件。我喜欢这个功能,并且想了解他们是如何做到的。 天真的方法是拥有许多正则表达式并全部运行它们。但是我无法很好地扩展,只能用于特定的语言或日期格式等。我认为Apple必须使用某种机器学习的概念来提取实体(8:00 PM、8PM、8:00, 0800、20:00、20h,20h00、2000等)。 知道Apple如何能够在其电子邮件客户端中如此快速地提取实体吗?您将应用哪种机器学习算法来完成此类任务?

2
使用Python进行PDF解析-提取格式化和纯文本[关闭]
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow的主题。 5年前关闭。 改善这个问题 我正在寻找一个PDF库,它将允许我从PDF文档中提取文本。我看过PyPDF,它可以很好地从PDF文档中提取文本。这样做的问题是,如果文档中有表格,则表格中的文本将与文档中其余文本一起在线提取。这可能会引起问题,因为它会生成无用的文本部分,看起来有些乱码(例如,许多数字混在一起)。 我想从PDF文档中提取文本,但不包括任何表格和特殊格式。那里有图书馆吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.