编程 Python

使用Scrapy爬取动态数据

Posted in Python onOctober 21, 2018

对于动态数据的爬取，可以选择selenium和PhantomJS两种方式，本文选择的是PhantomJS。

网址：

https://s.taobao.com/search?q=%E7%AC%94%E8%AE%B0%E6%9C%AC%E7%94%B5%E8%84%91&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

1.首先第一步，对中间件的设置。

进入pipelines.py文件中：

from selenium import webdriver
from scrapy.http.response.html import HtmlResponse
from scrapy.http.response import Response
class SeleniumSpiderMiddleware(object):
  def __init__(self):
    self.driver = webdriver.PhantomJS()
  def process_request(self ,request ,spider):
    # 当引擎从调度器中取出request进行请求发送下载器之前
    # 会先执行当前的爬虫中间件 ，在中间件里面使用selenium
    # 请求这个request ，拿到动态网站的数据 然后将请求
    # 返回给spider爬虫对象
    if spider.name == 'taobao':
      # 使用爬虫文件的url地址
      spider.driver.get(request.url)
      for x in range(1 ,12 ,2):
        i = float(x) / 11
        # scrollTop 从上往下的滑动距离
        js = 'document.body.scrollTop=document.body.scrollHeight * %f' % i
        spider.driver.execute_script(js)
      response = HtmlResponse(url=request.url,
                  body=spider.driver.page_source,
                  encoding='utf-8',
                  request=request)
      # 这个地方只能返回response对象，当返回了response对象，那么可以直接跳过下载中间件，将response的值传递给引擎，引擎又传递给 spider进行解析
      return response

在设置中，要将middlewares设置打开。

进入settings.py文件中，将

DOWNLOADER_MIDDLEWARES = {
  'taobaoSpider.middlewares.SeleniumSpiderMiddleware': 543,
}

打开。

2.第二步，爬取数据

回到spider爬虫文件中。

引入：

from selenium import webdriver

自定义属性：

def __init__(self):
  self.driver = webdriver.PhantomJS()

查找数据和分析数据：

def parse(self, response):
  div_info = response.xpath('//div[@class="info-cont"]')
  print(div_info)
  for div in div_info:
    title = div.xpath('.//div[@class="title-row "]/a/text()').extract_first('')
    # title = self.driver.find_element_by_class_name("title-row").text
    print('名称：', title)
    price = div.xpath('.//div[@class="sale-row row"]/div/span[2]/strong/text()').extract_first('')

3.第三步，传送数据到item中：

在item.py文件中：

name = scrapy.Field()
price = scrapy.Field()

回到spider.py爬虫文件中：

引入：

from ..items import TaobaospiderItem

传送数据：

#创建实例化对象。

item = TaobaospiderItem()
item['name'] = title
item['price'] = price
yield item

在设置中，打开：

ITEM_PIPELINES = {
  'taobaoSpider.pipelines.TaobaospiderPipeline': 300,
}

4.第四步，写入数据库：

进入管道文件中。

引入

import sqlite3
写入数据库的代码如下：
class TaobaospiderPipeline(object):
  def __init__(self):
    self.connect = sqlite3.connect('taobaoDB')
    self.cursor = self.connect.cursor()
    self.cursor.execute('create table if not exists taobaoTable (name text,price text)')
  def process_item(self, item, spider):
    self.cursor.execute('insert into taobaoTable (name,price)VALUES ("{}","{}")'.format(item['name'],item['price']))
    self.connect.commit()
    return item
  def close_spider(self):
    self.cursor.close()
    self.connect.close()

在设置中打开：

ITEM_PIPELINES = {
  'taobaoSpider.pipelines.TaobaospiderPipeline': 300,
}

因为在上一步，我们已经将管道传送设置打开，所以这一步可以不用重复操作。

然后运行程序，打开数据库查看数据。

使用Scrapy爬取动态数据

至此，程序结束。

下附spider爬虫文件所有代码：

# -*- coding: utf-8 -*-
import scrapy
from selenium import webdriver
from ..items import TaobaospiderItem
class TaobaoSpider(scrapy.Spider):
  name = 'taobao'
  allowed_domains = ['taobao.com']
  start_urls = ['https://s.taobao.com/search?q=%E7%AC%94%E8%AE%B0%E6%9C%AC%E7%94%B5%E8%84%91&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306']
  def __init__(self):
    self.driver = webdriver.PhantomJS()
  def parse(self, response):
    div_info = response.xpath('//div[@class="info-cont"]')
    print(div_info)
    for div in div_info:
      title = div.xpath('.//div[@class="title-row "]/a/text()').extract_first('')
      print('名称：', title)
      price = div.xpath('.//div[@class="sale-row row"]/div/span[2]/strong/text()').extract_first('')
      item = TaobaospiderItem()
      item['name'] = title
      item['price'] = price
      yield item
  def close(self,reason):
    print('结束了',reason)
    self.driver.quit()

关于scrapy的中文文档：http://scrapy-chs.readthedocs.io/zh_CN/latest/faq.html

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

使用Scrapy爬取动态数据

- Author -

回忆不说话

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python使用scrapy抓取网站sitemap信息的方法

Apr 08 Python

Python实现提取文章摘要的方法

Apr 21 Python

python通过ssh-powershell监控windows的方法

Jun 02 Python

Python制作数据导入导出工具

Jul 31 Python

利用Python如何实现数据驱动的接口自动化测试

May 11 Python

详解python里的命名规范

Jul 16 Python

python的继承知识点总结

Dec 10 Python

PYQT5设置textEdit自动滚屏的方法

Jun 14 Python

pandas DataFrame 交集并集补集的实现

Jun 24 Python

python多项式拟合之np.polyfit 和 np.polyld详解

Feb 18 Python

基于python实现对文件进行切分行

Apr 26 Python

jenkins+python自动化测试持续集成教程

May 12 Python

python使用正则表达式来获取文件名的前缀方法

Oct 21 #Python

python遍历文件夹找出文件夹后缀为py的文件方法

Oct 21 #Python

python os.listdir按文件存取时间顺序列出目录的实例

Oct 21 #Python

python查找指定文件夹下所有文件并按修改时间倒序排列的方法

Oct 21 #Python

Python3中关于cookie的创建与保存

Oct 21 #Python

Python3中在Anaconda环境下安装basemap包

Oct 21 #Python

解决安装python库时windows error5 报错的问题

Oct 21 #Python

You might like

深入分析php之面向对象

2013/05/15 PHP

PHP使用pear自带的mail类库发邮件的方法

2015/07/08 PHP

Laravel 自动生成验证的实例讲解:login / logout

2019/10/14 PHP

JavaScript 判断指定字符串是否为有效数字

2010/05/11 Javascript

如何让div span等元素能响应键盘事件操作指南

2012/11/13 Javascript

Javascript中的几种URL编码方法比较

2015/01/23 Javascript

Javascript实现的简单右键菜单类

2015/09/23 Javascript

js获取时间精确到秒（年月日）

2016/03/16 Javascript

简单实现js浮动框

2016/12/13 Javascript

jQuery 控制文本框自动缩小字体填充

2017/06/16 jQuery

详解node nvm进行node多版本管理

2017/10/21 Javascript

vue 添加vux的代码讲解

2017/11/30 Javascript

使用vue-router为每个路由配置各自的title

2018/07/30 Javascript

vue-cli3搭建项目的详细步骤

2018/12/05 Javascript

JavaScript 替换所有匹配内容及正则替换方法

2020/02/12 Javascript

vue中touch和click共存的解决方式

2020/07/28 Javascript

[01:31:03]DOTA2完美盛典全回顾见证十五项大奖花落谁家

2017/11/28 DOTA

Python中bisect的用法

2014/09/23 Python

Python入门篇之字符串

2014/10/17 Python

Python计算三维矢量幅度的方法

2015/06/15 Python

详解Django之auth模块（用户认证）

2018/04/17 Python

pyqt5 lineEdit设置密码隐藏,删除lineEdit已输入的内容等属性方法

2019/06/24 Python

django3.02模板中的超链接配置实例代码

2020/02/04 Python

基于Python 的语音重采样函数解析

2020/07/06 Python

修复iPhone的safari浏览器上submit按钮圆角bug

2012/12/24 HTML / CSS

纯CSS实现聊天框小尖角、气泡效果

2014/04/04 HTML / CSS

Mavi牛仔裤美国官网：土耳其著名牛仔品牌

2016/09/24 全球购物

企业面试题试卷附带答案

2015/12/20 面试题

银行批评与自我批评

2014/02/10 职场文书

报纸媒体创意广告词

2014/03/17 职场文书

军事理论课感想

2015/08/11 职场文书

2016七夕情人节感言

2015/12/09 职场文书

人力资源部工作计划

2019/05/14 职场文书

Html5调用企业微信的实现

2021/04/16 HTML / CSS

HTML中实现音乐或视频自动播放案例详解

2022/05/30 HTML / CSS

CSS使用SVG实现动态分布的圆环发散路径动画

2022/12/24 HTML / CSS