2
硒与scrapy的动态页面
我正在尝试使用scrapy从网页上抓取产品信息。我的待刮网页如下所示: 从包含10个产品的product_list页面开始 单击“下一步”按钮将加载下10个产品(两个页面之间的网址不变) 我使用LinkExtractor跟随每个产品链接进入产品页面,并获取我需要的所有信息 我尝试复制下一个按钮的ajax调用,但是无法正常工作,因此我尝试使用硒。我可以在单独的脚本中运行selenium的webdriver,但我不知道如何与scrapy集成。硒部分应该放在哪里我的蜘蛛网中? 我的蜘蛛非常标准,如下所示: class ProductSpider(CrawlSpider): name = "product_spider" allowed_domains = ['example.com'] start_urls = ['http://example.com/shanghai'] rules = [ Rule(SgmlLinkExtractor(restrict_xpaths='//div[@id="productList"]//dl[@class="t2"]//dt'), callback='parse_product'), ] def parse_product(self, response): self.log("parsing product %s" %response.url, level=INFO) hxs = HtmlXPathSelector(response) # actual data follows 任何想法表示赞赏。谢谢!