编程 Python

python爬虫库scrapy简单使用实例详解

Posted in Python onFebruary 10, 2020

最近因为项目需求，需要写个爬虫爬取一些题库。在这之前爬虫我都是用node或者php写的。一直听说python写爬虫有一手，便入手了python的爬虫框架scrapy.

下面简单的介绍一下scrapy的目录结构与使用：

首先我们得安装scrapy框架

pip install scrapy

接着使用scrapy命令创建一个爬虫项目：

scrapy startproject questions

相关文件简介：

scrapy.cfg: 项目的配置文件

questions/: 该项目的python模块。之后您将在此加入代码。

questions/items.py: 项目中的item文件.

questions/pipelines.py: 项目中的pipelines文件.

questions/settings.py: 项目的设置文件.

questions/spiders/: 放置spider代码的目录.

questions/spiders/xueersi.py: 实现爬虫的主体代码.

xueersi.py 爬虫主体

# -*- coding: utf-8 -*-
import scrapy
import time
import numpy
import re
from questions.items import QuestionsItem
class xueersiSpider(scrapy.Spider):
  name = "xueersi" # 爬虫名字
  allowed_domains = ["tiku.xueersi.com"] # 目标的域名
# 爬取的目标地址
  start_urls = [
    "http://tiku.xueersi.com/shiti/list_1_1_0_0_4_0_1",
    "http://tiku.xueersi.com/shiti/list_1_2_0_0_4_0_1",
    "http://tiku.xueersi.com/shiti/list_1_3_0_0_4_0_1",
  ]
  levels = ['偏易','中档','偏难']
  subjects = ['英语','语文','数学']

 # 爬虫开始的时候，自动调用该方法，如果该方法不存在会自动调用parse方法
  # def start_requests(self):
  #   yield scrapy.Request('http://tiku.xueersi.com/shiti/list_1_2_0_0_4_0_39',callback=self.getquestion)

# start_requests方法不存在时，parse方法自动被调用
  def parse(self, response):


　# xpath的选择器语法不多介绍，可以直接查看官方文档
    arr = response.xpath("//ul[@class='pagination']/li/a/text()").extract()
    total_page = arr[3]


　# 获取分页
    for index in range(int(total_page)):
      yield scrapy.Request(response.url.replace('_0_0_4_0_1',"_0_0_4_0_"+str(index)),callback=self.getquestion) # 发出新的请求，获取每个分页所有题目
  # 获取题目
  def getquestion(self,response):
    for res in response.xpath('//div[@class="main-wrap"]/ul[@class="items"]/li'):
      item = QuestionsItem() # 实例化Item类
      # 获取问题
      questions = res.xpath('./div[@class="content-area"]').re(r'<div class="content-area">?([\s\S]+?)<(table|\/td|div|br)')
      if len(questions):
        # 获取题目
        question = questions[0].strip()
        item['source'] = question
        dr = re.compile(r'<[^>]+>',re.S)
        question = dr.sub('',question)
        content = res.extract()
        item['content'] = question
        # 获取课目
        subject = re.findall(ur'http:\/\/tiku\.xueersi\.com\/shiti\/list_1_(\d+)',response.url)
        item['subject'] = self.subjects[int(subject[0])-1]
        # 获取难度等级
        levels = res.xpath('//div[@class="info"]').re(ur'难度：([\s\S]+?)<')
        item['level'] = self.levels.index(levels[0])+1
        
        # 获取选项
        options = re.findall(ur'[A-D][\.．]([\s\S]+?)<(\/td|\/p|br)',content)
        item['options'] = options
        if len(options):
          url = res.xpath('./div[@class="info"]/a/@href').extract()[0]
          request = scrapy.Request(url,callback=self.getanswer)
          request.meta['item'] = item # 缓存item数据，传递给下一个请求
          yield request
      #for option in options:
  # 获取答案      
  def getanswer(self,response):
    
    res = response.xpath('//div[@class="part"]').re(ur'<td>([\s\S]+?)<\/td>')
    con = re.findall(ur'([\s\S]+?)<br>[\s\S]+?([A-D])',res[0]) # 获取含有解析的答案
    if con:
      answer = con[0][1]
      analysis = con[0][0] # 获取解析
    else:
      answer = res[0]
      analysis = ''
    if answer:
      item = response.meta['item'] # 获取item
      item['answer'] = answer.strip()
      item['analysis'] = analysis.strip()
      item['answer_url'] = response.url
      yield item # 返回item,输出管道（pipelines.py）会自动接收该数据

items.py 数据结构定义:

# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class QuestionsItem(scrapy.Item):
  content = scrapy.Field()
  subject = scrapy.Field()
  level = scrapy.Field()
  answer = scrapy.Field()
  options = scrapy.Field()
  analysis = scrapy.Field()
  source = scrapy.Field()
  answer_url = scrapy.Field()
  pass

pipelines.py 输出管道（本例子输出的数据写入本地数据库）：

# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymysql
import md5
class QuestionsPipeline(object):
  def __init__(self): 
    # 建立数据库连接 
    self.connect = pymysql.connect('localhost','root','','question',use_unicode=True,charset='utf8') 
    # 获取游标 
    self.cursor = self.connect.cursor() 
    print("connecting mysql success!") 
    self.answer = ['A','B','C','D']
  def process_item(self, item, spider):
    content = pymysql.escape_string(item['content'])

 # 获取题目hash值，使用该字段过滤重复的题目
    m1 = md5.new()  
    m1.update(content)
    hash = m1.hexdigest()
    selectstr = "select id from question where hash='%s'"%(hash)
    self.cursor.execute(selectstr)
    res = self.cursor.fetchone()
    # 过滤相同的题目
    if not res:



　# 插入题目
      sqlstr = "insert into question(content,source,subject,level,answer,analysis,hash,answer_url) VALUES('%s','%s','%s','%s','%s','%s','%s','%s')"%(content,pymysql.escape_string(item['source']),item['subject'],item['level'],item['answer'],pymysql.escape_string(item['analysis']),hash,item['answer_url'])
      self.cursor.execute(sqlstr)
      qid = self.cursor.lastrowid



　# 插入选项
      for index in range(len(item['options'])):
        option = item['options'][index]
        answer = self.answer.index(item['answer'])
        if answer==index:
          ans = '2'
        else:
          ans = '1'
        sqlstr = "insert into options(content,qid,answer) VALUES('%s','%s','%s')"%(pymysql.escape_string(option[0]),qid,ans)
        self.cursor.execute(sqlstr)
      self.connect.commit() 
      #self.connect.close() 
    return item

爬虫构建完毕后，在项目的根目录下运行

scrapy crawl xueersi # scrapy crawl 爬虫的名称

更多关于python爬虫库scrapy使用方法请查看下面的相关链接

python爬虫库scrapy简单使用实例详解

- Author -

Ricky

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中列表(list)操作方法汇总

Aug 18 Python

Python中运行并行任务技巧

Feb 26 Python

Python中zfill()方法的使用教程

May 20 Python

在Django的视图(View)外使用Session的方法

Jul 23 Python

用Python将动态GIF图片倒放播放的方法

Nov 02 Python

python_opencv用线段画封闭矩形的实例

Dec 05 Python

Python实现SQL注入检测插件实例代码

Feb 02 Python

python-Web-flask-视图内容和模板知识点西宁街

Aug 23 Python

python抓取多种类型的页面方法实例

Nov 20 Python

np.newaxis 实现为 numpy.ndarray(多维数组)增加一个轴

Nov 30 Python

使用keras实现孪生网络中的权值共享教程

Jun 11 Python

Django视图类型总结

Feb 17 Python

tensorflow 实现从checkpoint中获取graph信息

Feb 10 #Python

Python3 集合set入门基础

Feb 10 #Python

Django的CVB实例详解

Feb 10 #Python

TensorFlow实现checkpoint文件转换为pb文件

Feb 10 #Python

Django关于admin的使用技巧和知识点

Feb 10 #Python

Python实现括号匹配方法详解

Feb 10 #Python

Python re正则表达式元字符分组()用法分享

Feb 10 #Python

You might like

PHP函数utf8转gb2312编码

2006/12/21 PHP

纯php打造的tab选项卡效果代码(不用js)

2010/12/29 PHP

PHP学习笔记之二 php入门知识

2011/01/12 PHP

php实现支持中文的文件下载功能示例

2017/08/30 PHP

详解PHP中mb_strpos的使用

2018/02/04 PHP

jQuery实现伸展与合拢panel的方法

2015/04/30 Javascript

浅谈jquery中delegate()与live()

2015/06/22 Javascript

功能强大的Bootstrap组件（结合js）

2016/08/03 Javascript

JS简单实现tab切换效果的多窗口显示功能

2016/09/07 Javascript

原生js实现可爱糖果数字时间特效

2016/12/30 Javascript

EasyUI框架使用Ajax提交注册信息的实现代码

2017/09/27 Javascript

JS中Promise函数then的奥秘探究

2018/07/30 Javascript

浅谈js闭包理解

2019/04/01 Javascript

React学习之JSX与react事件实例分析

2020/01/06 Javascript

JS document内容及样式操作完整示例

2020/01/14 Javascript

详解Vue+elementUI build打包部署后字体图标丢失问题

2020/07/13 Javascript

AngularJs的$http发送POST请求,php无法接收Post的数据问题及解决方案

2020/08/13 Javascript

[01:03:51]2018DOTA2亚洲邀请赛 4.7 淘汰赛 VP vs LGD 第三场

2018/04/09 DOTA

Python的collections模块中namedtuple结构使用示例

2016/07/07 Python

关于numpy中eye和identity的区别详解

2019/11/29 Python

Pytorch Tensor 输出为txt和mat格式方式

2020/01/03 Python

在Python中实现字典反转案例

2020/12/05 Python

一些Unix笔试题和面试题

2012/09/25 面试题

优秀员工自荐书范文

2013/12/08 职场文书

行政部主管岗位职责

2013/12/28 职场文书

自荐信需注意事项

2014/01/25 职场文书

军训鉴定表自我鉴定

2014/02/13 职场文书

班主任个人工作反思

2014/04/28 职场文书

青安岗事迹材料

2014/05/14 职场文书

十八大标语口号

2014/10/09 职场文书

地震捐款简报

2015/07/21 职场文书

2019大学毕业晚会主持词

2019/06/21 职场文书

Nginx服务器添加Systemd自定义服务过程解析

2021/03/31 Servers

Java生成读取条形码和二维码的简单示例

2021/07/09 Java/Android

Python matplotlib绘制条形统计图处理多个实验多组观测值

2022/04/21 Python

Go本地测试解耦任务拆解及沟通详解Go本地测试的思路沟通的重要性总结

2022/06/21 Golang