1 是否有一个开放的源/商业软件可以在大量的pdf文档中执行自动内容分析(以产生一厢情愿的摘要),这些文档已经标记了元数据以便于分类?Google使用什么技术来解析网络托管的pdf并对其进行排名? metadata search-engines analysis — 冰人 source
0 我不确定Google使用什么,但可以使用ABCpdf.NET等软件组件在服务器端读取和创建PDF文档。这需要一些有关Microsoft IIS服务器的ASP或ASP.NET(Active Server Pages)编程的知识,或者Apache Web服务器的PHP编程知识。 — AffineMesh source 我正在寻找能够在一个庞大的pdf文件数据库中进行智能文本挖掘的东西。它可以是一个桌面应用程序/脚本等。谷歌可以解析许多不同的文件格式并搜索文本内容 — iceman 2010年