编程 Python

Python scrapy爬取小说代码案例详解

Posted in Python onJuly 09, 2020

scrapy是目前python使用的最广泛的爬虫框架

架构图如下

解释：

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.
DownloaderMiddlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests

一。安装

pip install Twisted.whl

pip install Scrapy

Twisted的版本要与安装的python对应，https://jingyan.baidu.com/article/1709ad8027be404634c4f0e8.html

二。代码

本实例采用xpaths解析页面数据

按住shift-右键-在此处打开命令窗口

输入scrapy startproject qiushibaike 创建项目

输入scrapy genspiderqiushibaike 创建爬虫

1>结构

Python scrapy爬取小说代码案例详解

2>qiushibaike.py爬虫文件

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders.crawl import Rule, CrawlSpider

class BaiduSpider(CrawlSpider):
  name = 'qiushibaike'
  allowed_domains = ['qiushibaike.com']
  start_urls = ['https://www.qiushibaike.com/text/']#启始页面
#        
  rules= (
    Rule(LinkExtractor(restrict_xpaths=r'//a[@class="contentHerf"]'),callback='parse_item',follow=True),
    Rule(LinkExtractor(restrict_xpaths=r'//ul[@class="pagination"]/li/a'),follow=True)
  )

  def parse_item(self, response):
    title=response.xpath('//h1[@class="article-title"]/text()').extract_first().strip() #标题
    time=response.xpath(' //span[@class="stats-time"]/text()').extract_first().strip() #发布时间
    content=response.xpath('//div[@class="content"]/text()').extract_first().replace('','\n') #内容
    score=response.xpath('//i[@class="number"]/text()').extract_first().strip() #好笑数

    yield({"title":title,"content":content,"time":time,"score":score});

3>pipelines.py 数据管道[code]class QiushibaikePipeline:

class QiushibaikePipeline:
  def open_spider(self,spider):#启动爬虫中调用
    self.f=open("xiaoshuo.txt","w",encoding='utf-8')
  def process_item(self, item, spider):
    info=item.get("title")+"\n"+ item.get("time")+" 好笑数"+item.get("score")+"\n"+ item.get("content")+'\n'
    self.f.write(info+"\n")
    self.f.flush()
  def close_spider(self,spider):#关闭爬虫中调用
    self.f.close()

4>settings.py

开启ZhonghengPipeline

ITEM_PIPELINES = {
  'qiushibaike.pipelines.QiushibaikePipeline': 300,
}

5>0main.py运行

from scrapy.cmdline import execute
execute('scrapy crawl qiushibaike'.split())

6>结果：

生成xiaohua.txt，里面有下载的笑话文字

Python scrapy爬取小说代码案例详解

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python scrapy爬取小说代码案例详解

- Author -

咔咔kk

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

详解python基础之while循环及if判断

Aug 24 Python

python利用paramiko连接远程服务器执行命令的方法

Oct 16 Python

python实现对excel进行数据剔除操作实例

Dec 07 Python

Python实现感知机（PLA）算法

Dec 20 Python

python中的内置函数max()和min()及mas()函数的高级用法

Mar 29 Python

Python3 修改默认环境的方法

Feb 16 Python

Python3环境安装Scrapy爬虫框架过程及常见错误

Jul 12 Python

python 列表、字典和集合的添加和删除操作

Dec 16 Python

python+opencv实现车牌定位功能(实例代码)

Dec 24 Python

详解Tensorflow不同版本要求与CUDA及CUDNN版本对应关系

Aug 04 Python

Python用K-means聚类算法进行客户分群的实现

Aug 23 Python

python 自动化偷懒的四个实用操作

Apr 11 Python

使用Python实现微信拍一拍功能的思路代码

Jul 09 #Python

pytorch 多分类问题,计算百分比操作

Jul 09 #Python

详解Python 循环嵌套

Jul 09 #Python

keras分类之二分类实例(Cat and dog)

Jul 09 #Python

python中tkinter窗口位置\坐标\大小等实现示例

Jul 09 #Python

Python2.x与3.x版本有哪些区别

Jul 09 #Python

浅谈keras中Dropout在预测过程中是否仍要起作用

Jul 09 #Python