编程 Python

python scrapy爬虫代码及填坑

Posted in Python onAugust 12, 2019

涉及到详情页爬取

目录结构:

kaoshi_bqg.py

import scrapy
from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from ..items import BookBQGItem
class KaoshiBqgSpider(scrapy.Spider):
 name = 'kaoshi_bqg'
 allowed_domains = ['biquge5200.cc']
 start_urls = ['https://www.biquge5200.cc/xuanhuanxiaoshuo/']
 rules = (
  # 编写匹配文章列表的规则
  Rule(LinkExtractor(allow=r'https://www.biquge5200.cc/xuanhuanxiaoshuo/'), follow=True),
  # 匹配文章详情
  Rule(LinkExtractor(allow=r'.+/[0-9]{1-3}_[0-9]{2-6}/'), callback='parse_item', follow=False),
 )
 # 小书书名
 def parse(self, response):
  a_list = response.xpath('//*[@id="newscontent"]/div[1]/ul//li//span[1]/a')
  for li in a_list:
   name = li.xpath(".//text()").get()
   detail_url = li.xpath(".//@href").get()
   yield scrapy.Request(url=detail_url, callback=self.parse_book, meta={'info': name})
 # 单本书所有的章节名
 def parse_book(self, response):
  name = response.meta.get('info')
  list_a = response.xpath('//*[@id="list"]/dl/dd[position()>20]//a')
  for li in list_a:
   chapter = li.xpath(".//text()").get()
   url = li.xpath(".//@href").get()
   yield scrapy.Request(url=url, callback=self.parse_content, meta={'info': (name, chapter)})
 # 每章节内容
 def parse_content(self, response):
  name, chapter = response.meta.get('info')
  content = response.xpath('//*[@id="content"]//p/text()').getall()
  item = BookBQGItem(name=name, chapter=chapter, content=content)
  yield item

xmly.py

# -*- coding: utf-8 -*-
import scrapy
from ..items import BookXMLYItem, BookChapterItem
class XmlySpider(scrapy.Spider):
 name = 'xmly'
 allowed_domains = ['ximalaya.com']
 start_urls = ['https://www.ximalaya.com/youshengshu/wenxue/']

 def parse(self, response):
  div_details = response.xpath('//*[@id="root"]/main/section/div/div/div[3]/div[1]/div/div[2]/ul/li/div')
  # details = div_details[::3]
  for details in div_details:
   book_id = details.xpath('./div/a/@href').get().split('/')[-2]
   book_name = details.xpath('./a[1]/@title').get()
   book_author = details.xpath('./a[2]/text()').get() # 作者
   book_url = details.xpath('./div/a/@href').get()
   url = 'https://www.ximalaya.com' + book_url
   # print(book_id, book_name, book_author, url)
   item = BookXMLYItem(book_id=book_id, book_name=book_name, book_author=book_author, book_url=url)
   yield item
   yield scrapy.Request(url=url, callback=self.parse_details, meta={'info': book_id})

 def parse_details(self, response):
  book_id = response.meta.get('info')
  div_details = response.xpath('//*[@id="anchor_sound_list"]/div[2]/ul/li/div[2]')
  for details in div_details:
   chapter_id = details.xpath('./a/@href').get().split('/')[-1]
   chapter_name = details.xpath('./a/text()').get()
   chapter_url = details.xpath('./a/@href').get()
   url = 'https://www.ximalaya.com' + chapter_url
   item = BookChapterItem(book_id=book_id, chapter_id=chapter_id, chapter_name=chapter_name, chapter_url=url)
   yield item

item.py

import scrapy
# 笔趣阁字段
class BookBQGItem(scrapy.Item):
 name = scrapy.Field()
 chapter = scrapy.Field()
 content = scrapy.Field()
# 喜马拉雅 字段
class BookXMLYItem(scrapy.Item):
 book_name = scrapy.Field()
 book_id = scrapy.Field()
 book_url = scrapy.Field()
 book_author = scrapy.Field()
# 喜马拉雅详情字段
class BookChapterItem(scrapy.Item):
 book_id = scrapy.Field()
 chapter_id = scrapy.Field()
 chapter_name = scrapy.Field()
 chapter_url = scrapy.Field()

pipelines.py

from scrapy.exporters import JsonLinesItemExporter
import os
class BqgPipeline(object):
 def process_item(self, item, spider):
  xs = '小说集'
  name = item['name']
  xs_path = os.path.join(os.path.dirname(os.path.dirname(__file__)), xs)
  fiction_path = os.path.join(xs_path, name)
  # print(os.path.dirname(__file__)) D:/Users/Administrator/PycharmProjects/wh1901/biquge.com
  # print(os.path.dirname(os.path.dirname(__file__))) D:/Users/Administrator/PycharmProjects/wh1901
  if not os.path.exists(xs_path): # 如果目录不存在
   os.mkdir(xs_path)
  if not os.path.exists(fiction_path):
   os.mkdir(fiction_path) # 创建目录
  chapter = item['chapter']
  content = item['content']
  file_path = os.path.join(fiction_path, chapter) + '.txt' # 在 该目录下面创建 xx .txt 文件
  with open(file_path, 'w', encoding='utf-8') as fp:
   fp.write(content + '\n')
   print('保存成功')

# class XmlyPipeline(object):
#  def __init__(self):
#   self.fp = open("xmly.json", 'wb')
#   # JsonLinesItemExporter 调度器
#   self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False)
#
#  def process_item(self, item, spider):
#   self.exporter.export_item(item)
#   return item
#
#  def close_item(self):
#   self.fp.close()
#   print("爬虫结束")

starts.py

from scrapy import cmdline
cmdline.execute("scrapy crawl kaoshi_bqg".split())
# cmdline.execute("scrapy crawl xmly".split())

然后是爬取到的数据

小说

python scrapy爬虫代码及填坑

xmly.json

python scrapy爬虫代码及填坑

记录一下爬取过程中遇到的一点点问题:

在爬取详情页的的时候, 刚开始不知道怎么获取详情页的 url 以及上一个页面拿到的字段

python scrapy爬虫代码及填坑

也就是 yield 返回请求详情页里面的参数没有很好地理解
meta：从其他请求传过来的meta属性，可以用来保持多个请求之间的数据连接。
url：这个request对象发送请求的url。
callback：在下载器下载完相应的数据后执行的回调函数。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python scrapy爬虫代码及填坑

- Author -

返小白龙i

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python提示No module named images的解决方法

Sep 29 Python

python使用arp欺骗伪造网关的方法

Apr 24 Python

Python3爬虫学习入门教程

Dec 11 Python

Python如何实现转换URL详解

Jul 02 Python

python列表，字典，元组简单用法示例

Jul 11 Python

基于sklearn实现Bagging算法（python）

Jul 11 Python

简单了解python gevent 协程使用及作用

Jul 22 Python

用Python抢火车票的简单小程序实现解析

Aug 14 Python

python中的RSA加密与解密实例解析

Nov 18 Python

Python使用扩展库pywin32实现批量文档打印实例

Apr 09 Python

基于Python的接口自动化读写excel文件的方法

Jan 15 Python

python index() 与 rindex() 方法的使用示例详解

Dec 24 Python

Python 中的 global 标识对变量作用域的影响

Aug 12 #Python

Python中pymysql 模块的使用详解

Aug 12 #Python

python中类的输出或类的实例输出为这种形式的原因

Aug 12 #Python

对Django 中request.get和request.post的区别详解

Aug 12 #Python

python文字和unicode/ascll相互转换函数及简单加密解密实现代码

Aug 12 #Python

Python简易版停车管理系统

Aug 12 #Python

Python代码实现http/https代理服务器的脚本

Aug 12 #Python

You might like

php学习笔记之函数声明(二)

2011/06/09 PHP

PHP的PDO预处理语句与存储过程

2019/01/27 PHP

使用onbeforeunload属性后的副作用

2007/03/08 Javascript

理解JavaScript的caller,callee,call,apply

2009/04/28 Javascript

JS过滤url参数特殊字符的实现方法

2013/12/24 Javascript

JavaScript学习笔记之基础语法

2015/01/22 Javascript

JavaScript实现的SHA-1加密算法完整实例

2016/02/02 Javascript

Bootstrap 实现查询的完美方法

2016/10/26 Javascript

js实现鼠标左右移动，图片也跟着移动效果

2017/01/25 Javascript

node.js文件上传重命名以及移动位置的示例代码

2018/01/19 Javascript

详解vue填坑之解决部分浏览器不支持pushState方法

2018/07/12 Javascript

angular的输入和输出的使用方法

2018/09/22 Javascript

JS函数动态传递参数的方法分析【基于arguments对象】

2019/06/05 Javascript

微信小程序实现收货地址左滑删除

2020/11/18 Javascript

angularjs1.X 重构controller 的方法小结

2019/08/15 Javascript

[01:45]DOTA2众星出演！DSPL刀塔次级职业联赛宣传片

2014/11/21 DOTA

在Django框架中设置语言偏好的教程

2015/07/27 Python

解析Python中while true的使用

2015/10/13 Python

日常整理python执行系统命令的常见方法(全)

2015/10/22 Python

你所不知道的Python奇技淫巧13招【实用】

2016/12/14 Python

Python中eval带来的潜在风险代码分析

2017/12/11 Python

python turtle 绘制太极图的实例

2019/12/18 Python

树莓派4B安装Tensorflow的方法步骤

2020/07/16 Python

Python学习工具jupyter notebook安装及用法解析

2020/10/23 Python

selenium+python实现基本自动化测试的示例代码

2021/01/27 Python

建龙钢铁面试总结

2014/04/15 面试题

Shell脚本如何向终端输出信息

2014/04/25 面试题

给物业的表扬信

2014/01/21 职场文书

汇源肾宝广告词

2014/03/20 职场文书

保密承诺书范文

2014/03/27 职场文书

运动会入场口号

2014/06/07 职场文书

物业管理专业自荐信

2014/07/01 职场文书

2014市国税局对照检查材料思想汇报

2014/09/23 职场文书

小学教师先进事迹材料

2014/12/15 职场文书

拔河比赛队名及霸气口号

2015/12/24 职场文书

MySQL常见优化方案汇总

2022/01/18 MySQL