Questions tagged «scrapy»

Scrapy是使用Python编写的快速开放源代码的高级屏幕抓取和Web爬网框架,用于对网站进行爬网并从其页面中提取结构化数据。它可以用于从数据挖掘到监视和自动化测试的广泛用途。

3
无头浏览器和抓取-解决方案
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗? 更新问题,使其成为Stack Overflow 的主题。 5年前关闭。 我正在尝试列出适用于浏览器自动测试套装和能够抓取的无头浏览器平台的可能解决方案。 浏览器测试/报废: 硒 - 通晓多国语言的浏览器自动化的旗舰,为Python和Ruby,JavaScript中,C#,Haskell和更多,IDE的Firefox(作为扩展),更快的测试部署绑定。可以充当服务器并具有大量功能。 JAVASCRIPT PhantomJS - JavaScript使用Webkit进行无头测试,包括屏幕捕获和自动化。从1.8版开始,Selenium的WebDriver API已实现,因此您可以使用任何WebDriver绑定,并且测试将与Selenium兼容 SlimerJS-与PhantomJS相似,使用Gecko(Firefox)代替WebKit CasperJS - JavaScript的,建立在两个PhantomJS和SlimerJS,具有额外的功能 幽灵驱动程序 - 的JavaScript执行的webdriver的Wire协议的PhantomJS。 新的 PhantomCSS -CSS回归测试。一个CasperJS模块,用于使用PhantomJS和 Resemble.js自动化视觉回归测试。 新 WebdriverCSS -插件为 Webdriver.io自动化视觉回归测试 新的 PhantomFlow-描述和可视化通过测试的用户流程。Web用户界面测试的实验方法。 新的 trifleJS-移植 PhantomJS API以使用Internet Explorer引擎。 新的 CasperJS IDE (商业) NODE.JS Node- phantom-弥合PhantomJS和node.js之间的鸿沟 WebDriverJs -Selenium Team对node.js的Selenium WebDriver绑定 WD.js …

23
无法在Mac OS X 10.9上安装Lxml
我想安装Lxml,以便随后可以安装Scrapy。 今天更新Mac时,不允许我重新安装lxml,但出现以下错误: In file included from src/lxml/lxml.etree.c:314: /private/tmp/pip_build_root/lxml/src/lxml/includes/etree_defs.h:9:10: fatal error: 'libxml/xmlversion.h' file not found #include "libxml/xmlversion.h" ^ 1 error generated. error: command 'cc' failed with exit status 1 我尝试使用brew安装libxml2和libxslt,两者都安装良好,但仍然无法安装lxml。 上次安装时,我需要在Xcode上启用开发人员工具,但是由于将其更新为Xcode 5,因此不再提供该选项。 有人知道我需要做什么吗?
234 python  xcode  macos  scrapy  lxml 

18
在OSX 10.11(El Capitan)中安装Scrapy(系统完整性保护)时,出现“ OSError:[Errno 1] Operation not allow”
我正在尝试通过pip在OSX 10.11(El Capitan)中安装Scrapy Python框架。安装脚本下载所需的模块,并在某些时候返回以下错误: OSError: [Errno 1] Operation not permitted: '/tmp/pip-nIfswi-uninstall/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/six-1.4.1-py2.7.egg-info' 我尝试使用以下命令停用OSX 10.11中的无根功能: sudo nvram boot-args="rootless=0";sudo reboot 但是当机器重启时,我仍然收到相同的错误。 我的StackExchangers同事有什么线索或想法吗? 如果有帮助,则完整的脚本输出如下: sudo -s pip install scrapy Collecting scrapy Downloading Scrapy-1.0.2-py2-none-any.whl (290kB) 100% |████████████████████████████████| 290kB 345kB/s Requirement already satisfied (use --upgrade to upgrade): cssselect>=0.9 in /Library/Python/2.7/site-packages (from scrapy) Requirement already satisfied (use …

8
可以使用scrapy从使用AJAX的网站中抓取动态内容吗?
我最近一直在学习Python,并全力以赴来构建网络抓取工具。一点都不花哨。其唯一目的是从博彩网站上获取数据,并将此数据放入Excel。 大多数问题都是可以解决的,我周围有些混乱。但是,我在一个问题上遇到了巨大的障碍。如果站点加载一张马表并列出当前的投注价格,则此信息不在任何源文件中。线索是这些数据有时是实时的,而数字显然是从某个远程服务器上更新的。我PC上的HTML只是有一个漏洞,他们的服务器正在推送我需要的所有有趣数据。 现在我对动态Web内容的经验很低,所以这件事使我难以理解。 我认为Java或Javascript是关键,这经常弹出。 刮板只是赔率比较引擎。有些网站有API,但对于那些没有的API则需要。我正在使用python 2.7的scrapy库 如果这个问题过于开放,我深表歉意。简而言之,我的问题是:如何使用scrapy来抓取此动态数据,以便可以使用它?这样我就可以实时抓取该赔率赔率数据?


17
报废:SSL:http://en.wikipedia.org的CERTIFICATE_VERIFY_FAILED错误
我正在练习“使用Python进行网页搜刮”中的代码,但始终遇到此证书问题: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not in pages: #We have encountered a new page newPage = link.attrs['href'] print(newPage) pages.add(newPage) getLinks(newPage) …


10
如何使用PyCharm调试Scrapy项目
我正在使用Python 2.7开发Scrapy 0.20。我发现PyCharm具有良好的Python调试器。我想使用它测试我的Scrapy蜘蛛。有人知道该怎么做吗? 我尝试过的 实际上,我尝试将Spider作为脚本运行。结果,我构建了该脚本。然后,我尝试将Scrapy项目添加到PyCharm中,如下所示: File->Setting->Project structure->Add content root. 但是我不知道我还要做什么


2
硒与scrapy的动态页面
我正在尝试使用scrapy从网页上抓取产品信息。我的待刮网页如下所示: 从包含10个产品的product_list页面开始 单击“下一步”按钮将加载下10个产品(两个页面之间的网址不变) 我使用LinkExtractor跟随每个产品链接进入产品页面,并获取我需要的所有信息 我尝试复制下一个按钮的ajax调用,但是无法正常工作,因此我尝试使用硒。我可以在单独的脚本中运行selenium的webdriver,但我不知道如何与scrapy集成。硒部分应该放在哪里我的蜘蛛网中? 我的蜘蛛非常标准,如下所示: class ProductSpider(CrawlSpider): name = "product_spider" allowed_domains = ['example.com'] start_urls = ['http://example.com/shanghai'] rules = [ Rule(SgmlLinkExtractor(restrict_xpaths='//div[@id="productList"]//dl[@class="t2"]//dt'), callback='parse_product'), ] def parse_product(self, response): self.log("parsing product %s" %response.url, level=INFO) hxs = HtmlXPathSelector(response) # actual data follows 任何想法表示赞赏。谢谢!

8
如何在Python脚本中运行Scrapy
我是Scrapy的新手,我正在寻找一种从Python脚本运行它的方法。我找到2个资料来解释这一点: http://tryolabs.com/Blog/2011/09/27/calling-scrapy-python-script/ http://snipplr.com/view/67006/using-scrapy-from-a-script/ 我不知道应该在哪里放置我的Spider代码以及如何从main函数中调用它。请帮忙。这是示例代码: # This snippet can be used to run scrapy spiders independent of scrapyd or the scrapy command line tool and use it from a script. # # The multiprocessing library is used in order to work around a bug in Twisted, in which you cannot restart …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.