是否有用于抓取论文摘要的API?


13

如果我的论文名列表很长,如何从互联网或任何数据库中获得这些论文的摘要?

论文名称类似于“针对公共卫生领域的Web挖掘中的实用性评估”。

有谁知道可以给我解决方案的任何API?我试图搜寻Google Scholar,但是Google阻止了我的搜寻器。


2
我怀疑是否有任何通用的API。您可以尝试检索各种服务,例如Academia.edu,发布者的网站等等。尽管如此,先建立一个本地文档数据库,然后尝试提取摘要会更容易。
Wojciech Walczak 2014年

感谢您的回答!我已经为此建立了本地数据库。从各种服务中爬网的问题是我必须为每个网站制定解析规则。
Alex Gao

那么,如何将PDF转换为TXT,然后使用正则表达式提取摘要呢?
Wojciech Walczak 2014年

谢谢!但是,合同规定不允许大量下载论文。这造成了一些头痛。
Alex Gao

2
我认为此堆栈溢出答案链接提供了我可以获得的最佳答案。也许遇到此问题的人也可以浏览此页面。
Alex Gao

Answers:


8

查找以下内容:

如果您只获得一个完全匹配的标题,那么您可能已经找到了正确的文章,并可以在此处填写其余信息。两者都提供下载链接和bibtex样式的输出。为了获得完美的元数据,您可能想要做的是下载并解析pdf(如果有),然后查找DOI样式的标识符。

请做到这一点,并限制您的请求的速度。


5

arXiv有一个API和大量下载功能,但是如果您想要付费期刊的东西,那么不付钱给诸如pubmed或elsevier之类的索引器就很难了。


1
非常感谢。但是arXiv确实提供了我需要的论文。
Alex Gao
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.