编程 Python

python爬虫框架scrapy实战之爬取京东商城进阶篇

Posted in Python onApril 24, 2017

前言

之前的一篇文章已经讲过怎样获取链接，怎样获得参数了，详情请看python爬取京东商城普通篇，本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城，下面话不多说了，来看看详细的介绍吧。

代码详解

1、首先应该构造请求，这里使用scrapy.Request,这个方法默认调用的是start_urls构造请求，如果要改变默认的请求，那么必须重载该方法，这个方法的返回值必须是一个可迭代的对象，一般是用yield返回。

代码如下：

def start_requests(self):
 for i in range(1,101):
 page=i*2-1 #这里是构造请求url的page,表示奇数
 url=self.start_url+str(page)
 yield scrapy.Request(url,meta={'search_page':page+1},callback=self.parse_url) #这里使用meta想回调函数传入数据，回调函数使用response.meta['search-page']接受数据

下面就是解析网页了，从上面看出这里的解析回调函数是parse_url,因此在此函数中解析网页。这里还是和上面说的一样，这个url得到的仅仅是前一半的信息，如果想要得到后一半的信息还有再次请求，这里还有注意的就是一个技巧：一般先解析出一个数据的数组，不急着取出第一个数，先要用if语句判断，因为如果得到的是[]，那么直接取出[0]是会报错的，这只是一个避免报错的方法吧。

代码如下:

def parse_url(self,response):
 if response.status==200: #判断是否请求成功
 # print response.url
 pids = set() #这个集合用于过滤和保存得到的id,用于作为后面的ajax请求的url构成
 try:
 all_goods = response.xpath("//div[@id='J_goodsList']/ul/li") #首先得到所有衣服的整个框架，然后从中抽取每一个框架
 for goods in all_goods: #从中解析每一个
 # scrapy.shell.inspect_response(response,self) #这是一个调试的方法，这里会直接打开调试模式
 items = JdSpiderItem() #定义要抓取的数据
 img_url_src = goods.xpath("div/div[1]/a/img/@src").extract() # 如果不存在就是一个空数组[]，因此不能在这里取[0]
 img_url_delay = goods.xpath(
  "div/div[1]/a/img/@data-lazy-img").extract() # 这个是没有加载出来的图片，这里不能写上数组取第一个[0]
 price = goods.xpath("div/div[3]/strong/i/text()").extract() #价格
 cloths_name = goods.xpath("div/div[4]/a/em/text()").extract()
 shop_id = goods.xpath("div/div[7]/@ data-shopid").extract()
 cloths_url = goods.xpath("div/div[1]/a/@href").extract()
 person_number = goods.xpath("div/div[5]/strong/a/text()").extract()
 pid = goods.xpath("@data-pid").extract()
 # product_id=goods.xpath("@data-sku").extract()
 if pid:
  pids.add(pid[0])
 if img_url_src: # 如果img_url_src存在
  print img_url_src[0]
  items['img_url'] = img_url_src[0]
 if img_url_delay: # 如果到了没有加载完成的图片，就取这个url
  print img_url_delay[0]
  items['img_url'] = img_url_delay[0] # 这里如果数组不是空的，就能写了
 if price:
  items['price'] = price[0]
 if cloths_name:
  items['cloths_name'] = cloths_name[0]
 if shop_id:
  items['shop_id'] = shop_id[0]
  shop_url = "https://mall.jd.com/index-" + str(shop_id[0]) + ".html"
  items['shop_url'] = shop_url
 if cloths_url:
  items['cloths_url'] = cloths_url[0]
 if person_number:
  items['person_number'] = person_number[0]
 # if product_id:
 # print "************************************csdjkvjfskvnk***********************"
 # print self.comments_url.format(str(product_id[0]),str(self.count))
 # yield scrapy.Request(url=self.comments_url.format(str(product_id[0]),str(self.count)),callback=self.comments)
 #yield scrapy.Request写在这里就是每解析一个键裤子就会调用回调函数一次
 yield items
 except Exception:
 print "********************************************ERROR**********************************************************************"
 yield scrapy.Request(url=self.search_url.format(str(response.meta['search_page']),",".join(pids)),callback=self.next_half_parse) #再次请求，这里是请求ajax加载的数据，必须放在这里，因为只有等到得到所有的pid才能构成这个请求，回调函数用于下面的解析

2、从上面代码的最后可以看出最后就是解析ajax加载的网页了，这里调用的next_half_parse函数，和解析前面一个网页一样，这里需要的注意的是，如果前面定义的数据没有搜索完毕是不能使用yield items的，必须将items通过meta传入下一个回调函数继续完善后才能yield items,这里就不需要了。

代码如下：

#分析异步加载的网页
 def next_half_parse(self,response):
 if response.status==200:
 print response.url
 items=JdSpiderItem()
 #scrapy.shell.inspect_response(response,self) #y用来调试的
 try:
 lis=response.xpath("//li[@class='gl-item']")
 for li in lis:
  cloths_url=li.xpath("div/div[1]/a/@href").extract()
  img_url_1=li.xpath("div/div[1]/a/img/@src").extract()
  img_url_2=li.xpath("div/div[1]/a/img/@data-lazy-img").extract()
  cloths_name=li.xpath("div/div[4]/a/em/text()").extract()
  price=li.xpath("div/div[3]/strong/i/text()").extract()
  shop_id=li.xpath("div/div[7]/@data-shopid").extract()
  person_number=li.xpath("div/div[5]/strong/a/text()").extract()
  if cloths_url:
  print cloths_url[0]
  items['cloths_url']=cloths_url[0]
  if img_url_1:
  print img_url_1[0]
  items['img_url']=img_url_1
  if img_url_2:
  print img_url_2[0]
  items['img_url']=img_url_2[0]
  if cloths_name:
  items['cloths_name']=cloths_name[0]
  if price:
  items['price']=price[0]
  if shop_id:
  items['shop_id']=shop_id[0]
  items['shop_url']="https://mall.jd.com/index-" + str(shop_id[0]) + ".html"
  if person_number:
  items['person_number']=person_number[0]
  yield items #又一次的生成，这里是完整的数据，因此可以yield items
 except Exception:
 print "**************************************************"

3、当然这里还用到了设置请求池，mysql存储，没有使用到ip代理，这个在我前面的博客中又讲到，这里就不再赘述了。

想看源代码的朋友请

小技巧

人们会抱怨为什么自己的爬虫在中途断开就要重头开始爬，为什么不能从断开那里开始爬呢，这里提供一个方法：在配置文件settings.py中加入JOBDIR=file_name,这里的file_name是一个文件的名字
设置下载延迟防止被ban:DOWNLOAD_DELAY = 2:设置每一次的间隔时间 RANDOMIZE_DOWNLOAD_DELAY = True:这个是随机设置延迟时间在设置的时间的0.5-1.5倍之间，这样可以更有效的防止被ban,一般是配套使用的
ROBOTSTXT_OBEY = False :这里是表示不遵循robots.txt文件，默认是True表示遵循，这里将之改成False
CONCURRENT_REQUESTS :设置最大请求数，这里默认的时16，我们可以根据自己电脑的配置改的大一点来加快请求的速度

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者使用python能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对三水点靠木的支持。

python爬虫框架scrapy实战之爬取京东商城进阶篇

- Author -

Chenjiabing

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现微信接口(itchat)详细介绍

Oct 23 Python

matplotlib简介,安装和简单实例代码

Dec 26 Python

Python实现将MySQL数据库表中的数据导出生成csv格式文件的方法

Jan 11 Python

pip安装py_zipkin时提示的SSL问题对应

Dec 29 Python

python射线法判断检测点是否位于区域外接矩形内

Jun 28 Python

Django项目中实现使用qq第三方登录功能

Aug 13 Python

python global关键字的用法详解

Sep 05 Python

python global和nonlocal用法解析

Feb 03 Python

使用 Python 读取电子表格中的数据实例详解

Apr 17 Python

pycharm远程连接vagrant虚拟机中mariadb数据库

Jun 05 Python

解决Pycharm 运行后没有输出的问题

Feb 05 Python

使用qt quick-ListView仿微信好友列表和聊天列表的示例代码

Jun 13 Python

python爬虫实战之爬取京东商城实例教程

Apr 24 #Python

python中urllib.unquote乱码的原因与解决方法

Apr 24 #Python

Python面向对象特殊成员

Apr 24 #Python

Python解惑之整数比较详解

Apr 24 #Python

Python解惑之True和False详解

Apr 24 #Python

Python新手入门最容易犯的错误总结

Apr 24 #Python

Python正则抓取新闻标题和链接的方法示例

Apr 24 #Python

You might like

PHP读取XML值的代码(推荐)

2011/01/01 PHP

phpMyAdmin自动登录和取消自动登录的配置方法

2014/05/12 PHP

ThinkPHP实现将SESSION存入MYSQL的方法

2014/07/22 PHP

php结合web uploader插件实现分片上传文件

2016/05/10 PHP

Apache PHP MySql安装配置图文教程

2016/08/27 PHP

繁简字转换功能

2006/07/19 Javascript

JavaScript的面向对象(二)

2006/11/09 Javascript

原型方法的不同写法居然会影响调试的解决方法

2007/03/08 Javascript

JavaScript CSS修改学习第六章拖拽

2010/02/19 Javascript

基于Jquery的简单图片切换效果

2011/01/06 Javascript

js输入框邮箱自动提示功能代码实现

2013/12/10 Javascript

javascript数组去重方法终极总结

2014/06/05 Javascript

javascript计时器编写过程与实现方法

2016/02/29 Javascript

Node.js实现兼容IE789的文件上传进度条

2016/09/02 Javascript

JS解决position:sticky的兼容性问题的方法

2017/10/17 Javascript

JS浮点数运算结果不精确的Bug解决

2019/08/01 Javascript

vue 实现cli3.0中使用proxy进行代理转发

2019/10/30 Javascript

深入理解webpack process.env.NODE_ENV配置

2020/02/23 Javascript

vue-cli4.0多环境配置变量与模式详解

2020/12/30 Vue.js

[02:18]DOTA2英雄基础教程育母蜘蛛

2014/01/20 DOTA

python基础之入门必看操作

2017/07/26 Python

Python输出由1,2,3,4组成的互不相同且无重复的三位数

2018/02/01 Python

python 利用浏览器 Cookie 模拟登录的用户访问知乎的方法

2019/07/11 Python

Python多叉树的构造及取出节点数据(treelib)的方法

2019/08/09 Python

Python 写入训练日志文件并控制台输出解析

2019/08/13 Python

Python中常用的高阶函数实例详解

2020/02/21 Python

Python selenium爬取微信公众号文章代码详解

2020/08/12 Python

Python logging模块handlers用法详解

2020/08/14 Python

Python爬取股票信息，并可视化数据的示例

2020/09/26 Python

Famous Footwear加拿大：美国多品牌运动休闲鞋店

2018/12/05 全球购物

测绘工程个人的自我评价

2013/11/23 职场文书

求职自荐信范文格式

2013/11/29 职场文书

留学推荐信怎么写

2014/01/25 职场文书

连锁超市项目计划书

2014/09/15 职场文书

2015年前台接待工作总结

2015/05/04 职场文书

书法社团活动总结

2015/05/07 职场文书