python爬虫scrapy图书分类实例讲解


Posted in Python onNovember 23, 2020

我们去图书馆的时候,会直接去自己喜欢的分类栏目找寻书籍。如果其中的分类不是很细致的话,想找某一本书还是有一些困难的。同样的如果我们获取了一些图书的数据,原始的文件里各种数据混杂在一起,非常不利于我们的查找和使用。所以今天小编教大家如何用python爬虫中scrapy给图书分类,大家一起学习下:

spider抓取程序:

在贴上代码之前,先对抓取的页面和链接做一个分析:

python爬虫scrapy图书分类实例讲解

网址:http://category.dangdang.com/pg4-cp01.25.17.00.00.00.html

这个是当当网图书的链接,经过分析发现:大种类的id号对应 cp01.25 中的25,小种类对应id号中的第三个 17,pg4代表大种类 —>小种类下图书的第17页信息。

为了在抓取图书信息的同时找到这本图书属于哪一大种类下的小种类的归类信息,我们需要分三步走,第一步:大种类划分,在首页找到图书各大种类名称和对应的id号;第二步,根据大种类id号生成的链接,找到每个大种类下的二级子种类名称,及对应的id号;第三步,在大种类 —>小种类的归类下抓取每本图书信息。

分步骤介绍下:

1、我们继承RedisSpider作为父类,start_urls作为初始链接,用于请求首页图书数据

# -*- coding: utf-8 -*-
import scrapy
import requests
from scrapy import Selector
from lxml import etree
from ..items import DangdangItem
from scrapy_redis.spiders import RedisSpider
 
class DangdangSpider(RedisSpider):
  name = 'dangdangspider'
  redis_key = 'dangdangspider:urls'
  allowed_domains = ["dangdang.com"]
  start_urls = 'http://category.dangdang.com/cp01.00.00.00.00.00.html'
  def start_requests(self):
    user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 \
           Safari/537.36 SE 2.X MetaSr 1.0'
    headers = {'User-Agent': user_agent}
    yield scrapy.Request(url=self.start_urls, headers=headers, method='GET', callback=self.parse)

2、在首页中抓取大种类的名称和id号,其中yield回调函数中传入的meta值为本次匹配出的大种类的名称和id号

def parse(self, response):
    user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 \
           Safari/537.36 SE 2.X MetaSr 1.0'
    headers = {'User-Agent': user_agent}
    lists = response.body.decode('gbk')
    selector = etree.HTML(lists)
    goodslist = selector.xpath('//*[@id="leftCate"]/ul/li')
    for goods in goodslist:
      try:
        category_big = goods.xpath('a/text()').pop().replace('  ','') # 大种类
        category_big_id = goods.xpath('a/@href').pop().split('.')[1]  # id
        category_big_url = "http://category.dangdang.com/pg1-cp01.{}.00.00.00.00.html".\
                 format(str(category_big_id))
        # print("{}:{}".format(category_big_url,category_big))
        yield scrapy.Request(url=category_big_url, headers=headers,callback=self.detail_parse,
                   meta={"ID1":category_big_id,"ID2":category_big})
      except Exception:
        Pass

3、根据传入的大种类的id号抓取每个大种类下的小种类图书标签,yield回调函数中传入的meta值为大种类id号和小种类id号

def detail_parse(self, response):
    ID1:大种类ID  ID2:大种类名称  ID3:小种类ID ID4:小种类名称
    url = 'http://category.dangdang.com/pg1-cp01.{}.00.00.00.00.html'.format(response.meta["ID1"])
    category_small = requests.get(url)
    contents = etree.HTML(category_small.content.decode('gbk'))
    goodslist = contents.xpath('//*[@class="sort_box"]/ul/li[1]/div/span')
    for goods in goodslist:
      try:
        category_small_name = goods.xpath('a/text()').pop().replace(" ","").split('(')[0]
        category_small_id = goods.xpath('a/@href').pop().split('.')[2]
        category_small_url = "http://category.dangdang.com/pg1-cp01.{}.{}.00.00.00.html".\
                 format(str(response.meta["ID1"]),str(category_small_id))
        yield scrapy.Request(url=category_small_url, callback=self.third_parse, meta={"ID1":response.meta["ID1"],\
            "ID2":response.meta["ID2"],"ID3":category_small_id,"ID4":category_small_name})
 
        # print("============================ {}".format(response.meta["ID2"])) # 大种类名称
        # print(goods.xpath('a/text()').pop().replace(" ","").split('(')[0])  # 小种类名称
        # print(goods.xpath('a/@href').pop().split('.')[2])  # 小种类ID
      except Exception:
        Pass

4、抓取各大种类——>小种类下的图书信息

def third_parse(self,response):
    for i in range(1,101):
      url = 'http://category.dangdang.com/pg{}-cp01.{}.{}.00.00.00.html'.format(str(i),response.meta["ID1"],\
                                           response.meta["ID3"])
      try:
        contents = requests.get(url)
        contents = etree.HTML(contents.content.decode('gbk'))
        goodslist = contents.xpath('//*[@class="list_aa listimg"]/li')
        for goods in goodslist:
          item = DangdangItem()
          try:
            item['comments'] = goods.xpath('div/p[2]/a/text()').pop()
            item['title'] = goods.xpath('div/p[1]/a/text()').pop()
            item['time'] = goods.xpath('div/div/p[2]/text()').pop().replace("/", "")
            item['price'] = goods.xpath('div/p[6]/span[1]/text()').pop()
            item['discount'] = goods.xpath('div/p[6]/span[3]/text()').pop()
            item['category1'] = response.meta["ID4"]    # 种类(小)
            item['category2'] = response.meta["ID2"]    # 种类(大)
          except Exception:
            pass
          yield item
      except Exception:
        pass

到此这篇关于python爬虫scrapy图书分类实例讲解的文章就介绍到这了,更多相关python爬虫中scrapy如何给图书分类内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python+opencv实现的简单人脸识别代码示例
Nov 14 Python
python实现协同过滤推荐算法完整代码示例
Dec 15 Python
Python实现的自定义多线程多进程类示例
Mar 23 Python
Python 实现异步调用函数的示例讲解
Oct 14 Python
对pandas数据判断是否为NaN值的方法详解
Nov 06 Python
python运行时强制刷新缓冲区的方法
Jan 14 Python
Python opencv实现人眼/人脸识别以及实时打码处理
Apr 29 Python
Python发展史及网络爬虫
Jun 19 Python
Python3+PyInstall+Sciter解决报错缺少dll、html等文件问题
Jul 15 Python
导入tensorflow:ImportError: libcublas.so.9.0 报错
Jan 06 Python
django模型类中,null=True,blank=True用法说明
Jul 09 Python
No module named ‘win32gui‘ 的解决方法(踩坑之旅)
Feb 18 Python
scrapy处理python爬虫调度详解
Nov 23 #Python
利用Python将多张图片合成视频的实现
Nov 23 #Python
Python系统公网私网流量监控实现流程
Nov 23 #Python
Python 调用 ES、Solr、Phoenix的示例代码
Nov 23 #Python
10个示例带你掌握python中的元组
Nov 23 #Python
详解anaconda安装步骤
Nov 23 #Python
Python可以用来做什么
Nov 23 #Python
You might like
CodeIgniter中使用Smarty3基本配置
2015/06/29 PHP
PHP简单获取多个checkbox值的方法
2016/06/13 PHP
PHP基于openssl实现的非对称加密操作示例
2019/01/11 PHP
php中字符串和整数比较的操作方法
2019/06/06 PHP
php用户名的密码加密更安全的方法
2019/06/21 PHP
JavaScript 新手24条实用建议[TUTS+]
2009/06/21 Javascript
jQuery ul标签下拉菜单演示代码
2010/12/11 Javascript
javascript跨域的4种方法和原理详解
2014/04/08 Javascript
jQuery仿Flash上下翻动的中英文导航菜单实例
2015/03/10 Javascript
每日十条JavaScript经验技巧(一)
2016/06/23 Javascript
JavaScript中自带的 reduce()方法使用示例详解
2016/08/10 Javascript
AngularJS 与百度地图的结合实例
2016/10/20 Javascript
基于Bootstrap和jQuery构建前端分页工具实例代码
2016/11/23 Javascript
原生JavaScrpit中异步请求Ajax实现方法
2017/11/03 Javascript
Express之托管静态文件的方法
2018/06/01 Javascript
详解使用mpvue开发github小程序总结
2018/07/25 Javascript
Javascript格式化并高亮xml字符串的方法及注意事项
2018/08/13 Javascript
nodejs初始化init的示例代码
2018/10/10 NodeJs
详解vue-element Tree树形控件填坑路
2019/03/26 Javascript
express如何解决ajax跨域访问session失效问题详解
2019/06/20 Javascript
Vue v-for中的 input 或 select的值发生改变时触发事件操作
2020/08/31 Javascript
[17:36]VG战队纪录片
2014/08/21 DOTA
关于Tensorflow中的tf.train.batch函数的使用
2018/04/24 Python
python通过微信发送邮件实现电脑关机
2018/06/20 Python
Python+selenium点击网页上指定坐标的实例
2019/07/05 Python
python判断一个对象是否可迭代的例子
2019/07/22 Python
Django中使用session保持用户登陆连接的例子
2019/08/06 Python
如何在Django配置文件里配置session链接
2019/08/06 Python
详解Python并发编程之从性能角度来初探并发编程
2019/08/23 Python
Python多进程multiprocessing、进程池用法实例分析
2020/03/24 Python
Python写捕鱼达人的游戏实现
2020/03/31 Python
Python基于模块Paramiko实现SSHv2协议
2020/04/28 Python
建筑专业自我鉴定
2013/10/22 职场文书
大二法学专业职业生涯规划范文
2014/02/12 职场文书
大一新生检讨书
2014/10/29 职场文书
2015年网管个人工作总结
2015/05/22 职场文书