Questions tagged «screen-scraping»

26
如何防止刮擦现场?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 4年前关闭。 改善这个问题 我有一个大型音乐网站,拥有大型艺术家数据库。我一直注意到其他音乐网站正在抓取我们网站的数据(我在这里和那里输入虚拟的艺术家名称,然后用google搜索它们)。 如何防止屏幕刮擦?可能吗

10
使用Python进行网页抓取[关闭]
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使它成为Stack Overflow 的主题。 10个月前关闭。 改善这个问题 我想从网站上获取每天的日出/日落时间。是否可以使用Python抓取Web内容?使用什么模块?有没有可用的教程?

8
可以使用scrapy从使用AJAX的网站中抓取动态内容吗?
我最近一直在学习Python,并全力以赴来构建网络抓取工具。一点都不花哨。其唯一目的是从博彩网站上获取数据,并将此数据放入Excel。 大多数问题都是可以解决的,我周围有些混乱。但是,我在一个问题上遇到了巨大的障碍。如果站点加载一张马表并列出当前的投注价格,则此信息不在任何源文件中。线索是这些数据有时是实时的,而数字显然是从某个远程服务器上更新的。我PC上的HTML只是有一个漏洞,他们的服务器正在推送我需要的所有有趣数据。 现在我对动态Web内容的经验很低,所以这件事使我难以理解。 我认为Java或Javascript是关键,这经常弹出。 刮板只是赔率比较引擎。有些网站有API,但对于那些没有的API则需要。我正在使用python 2.7的scrapy库 如果这个问题过于开放,我深表歉意。简而言之,我的问题是:如何使用scrapy来抓取此动态数据,以便可以使用它?这样我就可以实时抓取该赔率赔率数据?

2
从网站抓取数据的最佳方法是什么?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 6年前关闭。 改善这个问题 我需要从网站中提取内容,但是该应用程序不提供任何应用程序编程接口或其他机制来以编程方式访问该数据。 我找到了一个有用的第三方工具Import.io,该工具提供了用于抓取网页和构建数据集的即点即用功能,唯一的是我想将数据保存在本地,并且我不想订阅任何订阅计划。 该公司使用哪种技术来抓取网页并构建其数据集?我发现一些网页抓取框架pjscrape和Scrapy是否可以提供这样的功能

12
PhantomJS无法打开HTTPS站点
我正在使用以下基于loadspeed.js示例的代码来打开一个https://站点,该站点也需要http服务器身份验证。 var page = require('webpage').create(), system = require('system'), t, address; page.settings.userName = 'myusername'; page.settings.password = 'mypassword'; if (system.args.length === 1) { console.log('Usage: scrape.js <some URL>'); phantom.exit(); } else { t = Date.now(); address = system.args[1]; page.open(address, function (status) { if (status !== 'success') { console.log('FAIL to load the address'); } …

7
像kayak.com这样的网站如何汇总内容?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 4年前关闭。 改善这个问题 问候,我一直在想一个新项目,并且想知道是否有人对像Kayak.com这样的服务如何能够如此快速,准确地聚合来自许多来源的数据有任何想法。更具体地说,您认为Kayak.com正在与API进行交互还是为了满足用户请求而爬行/抓取了航空公司和酒店网站?我知道对这种事情没有一个正确的答案,但我很好奇知道别人认为这是解决此问题的好方法。如果有帮助,请假装明天创建kayak.com ...您的数据来自哪里?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.