python网络爬虫 CrawlSpider使用详解


Posted in Python onSeptember 27, 2019

CrawlSpider

  • 作用:用于进行全站数据爬取
  • CrawlSpider就是Spider的一个子类
  • 如何新建一个基于CrawlSpider的爬虫文件
    • scrapy genspider -t crawl xxx www.xxx.com
  • 例:choutiPro

LinkExtractor连接提取器:根据指定规则(正则)进行连接的提取

Rule规则解析器:将连接提取器提取到的连接进行请求发送,然后对获取的页面进行指定规则【callback】的解析

一个链接提取器对应唯一一个规则解析器

例:crawlspider深度(全栈)爬取【sunlinecrawl例】

分布式(通常用不到,爬取数据量级巨大、时间少时用分布式)

概念:可将一组程序执行在多态机器上(分布式机群),使其进行数据的分布爬取

原生的scrapy框架是否可以实现分布式?

不能

抽屉

# spider文件

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class ChoutiSpider(CrawlSpider):
  name = 'chouti'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['https://dig.chouti.com/1']

  # 连接提取器:从起始url对应的页面中提取符合规则的所有连接;allow=正则表达式
  # 正则为空的话,提取页面中所有连接
  link = LinkExtractor(allow=r'\d+')
  rules = (
    # 规则解析器:将连接提取器提取到的连接对应的页面源码进行指定规则的解析
    # Rule自动发送对应链接的请求
    Rule(link, callback='parse_item', follow=True),
    # follow:True 将连接提取器 继续 作用到 连接提取器提取出来的连接 对应的页面源码中
  )
  def parse_item(self, response):
    item = {}
    #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
    #item['name'] = response.xpath('//div[@id="name"]').get()
    #item['description'] = response.xpath('//div[@id="description"]').get()
    return item

阳光热线网

# 1.spider文件
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from sunLineCrawl.items import SunlinecrawlItem,ContentItem
class SunSpider(CrawlSpider):
  name = 'sun'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['http://wz.sun0769.com/index.php/question/questionType?type=4&page=']

  link = LinkExtractor(allow=r'type=4&page=\d+') # 提取页码连接
  link1 = LinkExtractor(allow=r'question/2019\d+/\d+\.shtml') # 提取详情页连接
  rules = (
    Rule(link, callback='parse_item', follow=False),
    Rule(link1, callback='parse_detail'),
  )
  # 解析出标题和网友名称数据
  def parse_item(self, response):
    tr_list = response.xpath('//*[@id="morelist"]/div/table[2]//tr/td/table//tr')
    for tr in tr_list:
      title = tr.xpath('./td[2]/a[2]/text()').extract_first()
      net_friend = tr.xpath('./td[4]/text()').extract_first()
      item = SunlinecrawlItem()
      item['title'] = title
      item['net_friend'] = net_friend

      yield item

  # 解析出新闻的内容
  def parse_detail(self,response):
    content = response.xpath('/html/body/div[9]/table[2]//tr[1]/td/div[2]//text()').extract()
    content = ''.join(content)
    item = ContentItem()
    item['content'] = content

    yield item
--------------------------------------------------------------------------------
# 2.items文件

import scrapy

class SunlinecrawlItem(scrapy.Item):
  title = scrapy.Field()
  net_friend = scrapy.Field()

class ContentItem(scrapy.Item):
  content = scrapy.Field()
--------------------------------------------------------------------------------
# 3.pipelines文件

class SunlinecrawlPipeline(object):
  def process_item(self, item, spider):
    # 确定接受到的item是什么类型(Content/Sunlinecrawl)
    if item.__class__.__name__ == 'SunlinecrawlItem':
      print(item['title'],item['net_friend'])

    else:
      print(item['content'])

    return item
--------------------------------------------------------------------------------
# 4.setting文件

BOT_NAME = 'sunLineCrawl'

SPIDER_MODULES = ['sunLineCrawl.spiders']
NEWSPIDER_MODULE = 'sunLineCrawl.spiders'

LOG_LEVEL = 'ERROR'

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {
  'sunLineCrawl.pipelines.SunlinecrawlPipeline': 300,
}

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
初步介绍Python中的pydoc模块和distutils模块
Apr 13 Python
python统计文本字符串里单词出现频率的方法
May 26 Python
在Linux系统上安装Python的Scrapy框架的教程
Jun 11 Python
Python+Socket实现基于UDP协议的局域网广播功能示例
Aug 31 Python
对python列表里的字典元素去重方法详解
Jan 21 Python
python批量修改文件夹及其子文件夹下的文件内容
Mar 15 Python
centos+nginx+uwsgi+Django实现IP+port访问服务器
Nov 15 Python
PyCharm刷新项目(文件)目录的实现
Feb 14 Python
python使用PIL剪切和拼接图片
Mar 23 Python
Python实现初始化不同的变量类型为空值
Jun 02 Python
Python中Selenium库使用教程详解
Jul 23 Python
Jupyter安装链接aconda实现过程图解
Nov 02 Python
python numpy存取文件的方式
Apr 01 #Python
100行Python代码实现每天不同时间段定时给女友发消息
Sep 27 #Python
使用Fabric自动化部署Django项目的实现
Sep 27 #Python
Win10+GPU版Pytorch1.1安装的安装步骤
Sep 27 #Python
opencv调整图像亮度对比度的示例代码
Sep 27 #Python
详解Django将秒转换为xx天xx时xx分
Sep 27 #Python
pytorch多GPU并行运算的实现
Sep 27 #Python
You might like
PHP脚本的10个技巧(4)
2006/10/09 PHP
PHP函数http_build_query使用详解
2014/08/20 PHP
解决nginx不支持thinkphp中pathinfo的问题
2015/07/21 PHP
大家都应该掌握的PHP关联数组使用技巧
2015/12/25 PHP
Yii框架上传图片用法总结
2016/03/28 PHP
PHP实现按之字形顺序打印二叉树的方法
2018/01/16 PHP
PHPExcel实现的读取多工作表操作示例
2020/04/14 PHP
简洁短小的 JavaScript IE 浏览器判定代码
2010/03/21 Javascript
jquery中的$(document).ready()使用小结
2014/02/14 Javascript
javascript操作Cookie(设置、读取、删除)方法详解
2015/03/18 Javascript
JavaScript保留关键字汇总
2015/12/01 Javascript
正则表达式优化JSON字符串的技巧
2015/12/24 Javascript
jQuery移动端日期(datedropper)和时间(timedropper)选择器附源码下载
2016/04/19 Javascript
jQuery 局部div刷新和全局刷新方法总结
2016/10/05 Javascript
jQuery手风琴的简单制作
2017/05/12 jQuery
vue 中自定义指令改变data中的值
2017/06/02 Javascript
微信小程序开发之map地图实现教程
2017/06/08 Javascript
使用vue点击li,获取当前点击li父辈元素的属性值方法
2018/09/12 Javascript
如何在基于vue-cli的项目自定义打包环境
2018/11/10 Javascript
[01:29:46]DOTA2上海特级锦标赛C组资格赛#1 OG VS LGD第二局
2016/02/27 DOTA
Python进阶_关于命名空间与作用域(详解)
2017/05/29 Python
Python3之字节串bytes与字节数组bytearray的使用详解
2019/08/27 Python
Python提取PDF内容的方法(文本、图像、线条等)
2019/09/25 Python
python 19个值得学习的编程技巧
2020/08/15 Python
总结html5自定义属性有哪些
2020/04/01 HTML / CSS
美国花园雕像和家居装饰网上商店:Design Toscano
2019/03/09 全球购物
世界各地的当地人的食物体验:Eatwith
2019/07/26 全球购物
护士自我鉴定总结
2014/03/24 职场文书
学校师德承诺书
2014/05/23 职场文书
活动费用申请报告
2015/05/15 职场文书
2015年高校保卫处工作总结
2015/07/23 职场文书
学习弘扬焦裕禄精神心得体会
2016/01/23 职场文书
mysql查询的控制语句图文详解
2021/04/11 MySQL
Python&Matlab实现灰狼优化算法的示例代码
2022/03/21 Python
【海涛dota】偶遇拉娜娅 质量局德鲁伊第一视角解说
2022/04/01 DOTA
Shell中的单中括号和双中括号的用法详解
2022/12/24 Servers