LinkedIn网络抓取


11

我最近发现了一个新的R包,用于连接到LinkedIn API。不幸的是,LinkedIn API似乎很受限制。例如,您只能获取有关公司的基本数据,而这与有关个人的数据是分离的。我想获取有关给定公司的所有员工的数据,您可以在网站上手动进行操作,但无法通过API进行操作。

如果import.io能够识别LinkedIn分页,则将是完美的选择(请参阅页面末尾)。

有谁知道适用于LinkedIn网站当前格式的任何Web抓取工具或技术,或者如何弯曲API进行更灵活的分析?最好是在R或基于Web的环境中,但当然可以接受其他方法。


2
爬网LinkedIn违反了他们的服务条款。请参阅LinkedIn上的“要做”和“不要” -不要:“使用手动或自动软件,设备,脚本机器人,其他方式或过程来访问,“抓取”,“抓取”或“蜘蛛化”服务或任何相关数据或信息;”
Brian Spiering 2015年

Answers:



3

Scrapy是一个很棒的Python库,可以帮助您更快地抓取不同的站点,并使您的代码结构更好。并非所有站点都可以使用经典工具进行解析,因为它们可以使用动态JS内容构建。对于此任务,最好使用Selenium(这是网站的测试框架,但它也是出色的Web抓取工具)。该库还有一个Python包装器。在Google中,您可以找到一些技巧,这些技巧可以帮助您在Scrapy中使用Selenium 并使代码清晰,井井有条,并且可以使用一些很棒的Scrapy库工具。

我认为Selenium对于Linkedin来说比经典工具更好。有很多JavaScript和动态内容。另外,如果您想在帐户中进行身份验证并抓取所有可用内容,则使用简单的库(例如requesturllib)进行经典身份验证时会遇到很多问题。


1

我喜欢将rvest与SelectorGadget chrome插件结合使用,以选择相关部分。

我使用rvest并构建了一些小的脚本来通过以下方式在论坛中进行分页:

  1. 查找“ Page n Of m”对象
  2. 提取物m
  3. 根据页面结构,建立一个从1到m的链接列表(例如www.sample.com/page1)
  4. 通过完整的链接列表迭代刮板

0

如果您了解python,我也会与beautifulsoup一起使用。如果您宁愿编写javascript / JQuery代码(并且您熟悉node.js),则可能需要检出CoffeeScript(请参阅Tutorial),我已经在多种场合成功使用了它来抓取网页。


0

xml文件是Python中一个不错的Web抓取库。Beautiful Soup是lxml的包装。因此,lxml比易碎和漂亮的汤要快,并且学习起来也容易得多。

是我为个人项目构建的刮板示例,可以在网页上进行迭代。


0

BeautifulSoup在LinkedIn上不起作用。乱码违反政策。Octoparse仅适用于Windows。还有另一种方法吗?我想提取一个人帐户的“相似人”数据。请帮忙!


1
请发表评论或提出新问题
christopherlovell

这是重要的信息,但是如果应该作为答案,请删除其中的问题。
Pithikos

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.