编程 Python

python爬虫获取京东手机图片的图文教程

Posted in Python onDecember 29, 2017

如题，首先当然是要打开京东的手机页面

因为要获取不同页面的所有手机图片，所以我们要跳转到不同页面观察页面地址的规律，这里观察第二页页面

python爬虫获取京东手机图片的图文教程

由观察可以得到，第二页的链接地址很有可能是

https://list.jd.com/list.html?cat=9987,653,655&page=2

那么对应第n页的地址就是

https://list.jd.com/list.html?cat=9987,653,655&page=n

我们就可以利用这个规律在编程的时候打开自己想要获取的页面了

接着我们查看页面的源代码，观察图片链接的规律

python爬虫获取京东手机图片的图文教程

我们使用在源代码的页面使用ctrl+f查找，然后在查找框里面输入页面第一台手机的名字 “vivo X9s 全网通 4GB+64GB 玫瑰金移动” 快速定位到图片链接附近的代码，便于后面编程对图片范围进行筛选

python爬虫获取京东手机图片的图文教程

可以看到，上图的画红线的三个部分，<div id="plist" 在这一页中是唯一出现的一个元素，而且离图片链接比较近，所以可以作为筛选页面的开头位置

<img width=“220”……这个是手机图片的信息，我们要获取的是后面

//img14.360buyimg.com/n7/jfs/t6088/107/5539077608/409616/7f98b2bb/596c2edaN9792cd20.jpg

这个链接，但是观察发现后面也有一个图片链接

img data-sku="5291744" width="25" height="25" class="loading-style2" src="//img14.360buyimg.com/n9/jfs/t6088/107/5539077608/409616/7f98b2bb/596c2edaN9792cd20.jpg"

这个很明显不是我们要找的手机图片链接

所以我们要使用正则表达式将真正的图片链接筛选出来，观察发现这两个图片链接的区别在于手机图片链接里面含有n7元素，而另外一个图片链接含有n9元素，这样子我们的正则表达式就可以表示为pat2 = '//.+?/n7/.+?\.jpg'

接着我们要找到这个页面最后一张手机图片的位置，方便找出可以作为筛选页面的结束位置，方法和上面类似，在源代码搜索框输入小米（MI）红米Note4X 手机香槟金全网通 3GB+32GB 定位到页面最后一张图片位置

python爬虫获取京东手机图片的图文教程

可以看到，下面<div class="page clearfix">在该页面中是唯一的，而且比较接近最后一张手机图片附近的链接，所以可以作为筛选结尾位置的元素，其实筛选的元素只要满足唯一并且接近我们要获取的目标，那么也可以作为我们要选取的元素

经过上面准备之后，我们得出了大概的思路

1首先进行第一次筛选，使用正则表达式pat1 = '<div id="plist".+<div class="page clearfix">'将图片链接的范围大概筛选出来

2然后进行第二次筛选，使用正则表达式pat2 = '//.+?/n7/.+?\.jpg'将手机图片链接筛选出来

3使用urllib.urlretrieve保存链接图片到本地

下面给出python代码

# -*- coding: UTF-8 -*- 
import re 
import urllib2 
import urllib 
 
def craw(url, page): 
 html1 = urllib2.urlopen(url).read() 
 html1 = str(html1) 
 pat1 = '<div id="plist".+<div class="page clearfix">' 
 result1 = re.compile(pat1, re.DOTALL).findall(html1) 
 #获取第一次筛选结果 
 result1 = result1[0] 
 #*匹配0个或者多个前面表达式 
 #.匹配任意字符，加上re.dotall包括换行符 
 #+匹配1个或者多个前面表达式 
 #?非贪婪匹配，就是只匹配一组 
 #筛选出图片链接列表 
 pat2 = '//.+?/n7/.+?\.jpg' 
 imagelist = re.compile(pat2).findall(result1) 
 #x作为图片文件的顺序 
 x=1 
 
 for imageurl in imagelist: 
 imagename = "C:/Users/Administrator/Desktop/jdphone_img/" + str(page) + str(x) + ".jpg" 
 imageurl = "http:" + imageurl 
 try: 
  #保存图片 
  urllib.urlretrieve(imageurl, filename=imagename) 
 except urllib2.URLError as e: 
  #hasattr判断对象里面是否有name属性 
  if hasattr(e, "code"): 
  x+=1 
  if hasattr(e, "reason"): 
  x+=1 
 x+=1 
 
for i in range(1, 3): 
 url = "https://list.jd.com/list.html?cat=9987,653,655&page=" + str(i) 
 craw(url, i)

注意：我这里只保存了第一二页的手机图片，在进行第二次筛选的时候正则表达式之所以会加了一个"?"进行非贪婪匹配，也就是一次只筛选出一张手机图片链接，如果不加这个非贪婪匹配那么我们会把第一个含有“//”到最后一个结尾含有.jpg之间的所有内容都会筛选出来，显示是不符合的，在这里建议可以把正则表达式的?去掉，然后看一下输出结果，去体会一下非贪婪匹配是怎么样的。

python爬虫获取京东手机图片的图文教程

- Author -

丢你刘某

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现测试磁盘性能的方法

Mar 12 Python

Python测试人员需要掌握的知识

Feb 08 Python

Python实现的端口扫描功能示例

Apr 08 Python

Python实现的微信好友数据分析功能示例

Jun 21 Python

Python定义二叉树及4种遍历方法实例详解

Jul 05 Python

python中报错"json.decoder.JSONDecodeError: Expecting value:"的解决

Apr 29 Python

Django实现文件上传下载功能

Oct 06 Python

Python中remove漏删和索引越界问题的解决

Mar 18 Python

Jupyter Notebook打开任意文件夹操作

Apr 14 Python

Python爬虫中Selenium实现文件上传

Dec 04 Python

用Python编写简单的gRPC服务的详细过程

Jul 04 Python

利用Python判断整数是否是回文数的3种方法总结

Jul 07 Python

python通过getopt模块如何获取执行的命令参数详解

Dec 29 #Python

基于并发服务器几种实现方法(总结)

Dec 29 #Python

Python matplotlib画图实例之绘制拥有彩条的图表

Dec 28 #Python

python操作列表的函数使用代码详解

Dec 28 #Python

Python读csv文件去掉一列后再写入新的文件实例

Dec 28 #Python

python3.6连接MySQL和表的创建与删除实例代码

Dec 28 #Python

python3使用scrapy生成csv文件代码示例

Dec 28 #Python

You might like

PHP基于array_unique实现二维数组去重

2020/07/14 PHP

Javascript 陷阱 window全局对象

2008/11/26 Javascript

jQuery中使用了document和window哪些属性和方法小结

2011/09/13 Javascript

Jquery实现弹出层分享微博插件具备动画效果

2013/04/03 Javascript

Jquery的hover方法让鼠标经过li时背景变色

2013/09/06 Javascript

jquery实现不同大小浏览器使用不同的css样式表的方法

2014/04/02 Javascript

Javascript中call和apply函数的比较和使用实例

2015/02/03 Javascript

JavaScript制作颜色反转小游戏

2016/09/25 Javascript

微信小程序网络请求(GET请求)详解

2016/11/16 Javascript

Vue 2.0学习笔记之使用$refs访问Vue中的DOM

2017/12/19 Javascript

2020淘宝618理想生活列车自动领喵币js脚本的代码

2020/06/02 Javascript

js实现带有动画的返回顶部

2020/08/09 Javascript

vue表单验证之禁止input输入框输入空格

2020/12/03 Vue.js

详解Vue中的自定义指令

2020/12/07 Vue.js

[52:02]DOTA2-DPC中国联赛正赛 Phoenix vs Dragon BO3 第二场 2月26日

2021/03/11 DOTA

Python实现获取域名所用服务器的真实IP

2015/10/25 Python

玩转python爬虫之URLError异常处理

2016/02/17 Python

Python实现动态加载模块、类、函数的方法分析

2017/07/18 Python

用Python实现KNN分类算法

2017/12/22 Python

Python中flatten( )函数及函数用法详解

2018/11/02 Python

在python中实现将一张图片剪切成四份的方法

2018/12/05 Python

python 实现得到当前时间偏移day天后的日期方法

2018/12/31 Python

Python 调用 zabbix api的方法示例

2019/01/06 Python

对python过滤器和lambda函数的用法详解

2019/01/21 Python

Python实现的对一个数进行因式分解操作示例

2019/06/27 Python

Python数据可视化:饼状图的实例讲解

2019/12/07 Python

Python 实现向word(docx)中输出

2020/02/13 Python

Python 连接 MySQL 的几种方法

2020/09/09 Python

有趣、实用和鼓舞人心的产品：Inspire Uplift

2019/11/05 全球购物

自我介绍演讲稿

2014/01/15 职场文书

护士试用期自我鉴定

2014/02/08 职场文书

暑期培训随笔感言

2014/03/10 职场文书

2015年党支部公开承诺书

2015/01/22 职场文书

挂职个人工作总结

2015/03/05 职场文书

陶瓷类经典广告语集锦

2019/10/25 职场文书

Redis唯一ID生成器的实现

2022/07/07 Redis