Python爬虫之爬取淘女郎照片示例详解


Posted in Python onJuly 28, 2020

本篇目标

  1. 抓取淘宝MM的姓名,头像,年龄
  2. 抓取每一个MM的资料简介以及写真图片
  3. 把每一个MM的写真图片按照文件夹保存到本地
  4. 熟悉文件保存的过程 

1.URL的格式

在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1,问号前面是基地址,后面的参数page是代表第几页,可以随意更换地址。点击开之后,会发现有一些淘宝MM的简介,并附有超链接链接到个人详情页面。

我们需要抓取本页面的头像地址,MM姓名,MM年龄,MM居住地,以及MM的个人详情页面地址。

2.抓取简要信息

相信大家经过上几次的实战,对抓取和提取页面的地址已经非常熟悉了,这里没有什么难度了,我们首先抓取本页面的MM详情页面地址,姓名,年龄等等的信息打印出来,直接贴代码如下

import urllib
import urllib2
import re

class Spider:

 def __init__(self):
  self.siteURL = 'http://mm.taobao.com/json/request_top_list.htm'

 def getPage(self,pageIndex):
  url = self.siteURL + "?page=" + str(pageIndex)
  print url
  request = urllib2.Request(url)
  response = urllib2.urlopen(request)
  return response.read().decode('gbk')

 def getContents(self,pageIndex):
  page = self.getPage(pageIndex)
  pattern = re.compile('<div class="list-item".*?pic-word.*?<a href="(.*?)" rel="external nofollow" rel="external nofollow" .*?![]((.*?))(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)
  items = re.findall(pattern,page)
  for item in items:
   print item[0],item[1],item[2],item[3],item[4]

spider = Spider()
spider.getContents(1)

运行结果如下

Python爬虫之爬取淘女郎照片示例详解

3.文件写入简介

在这里,我们有写入图片和写入文本两种方式

1)写入图片

#传入图片地址,文件名,保存单张图片
def saveImg(self,imageURL,fileName):
  u = urllib.urlopen(imageURL)
  data = u.read()
  f = open(fileName, 'wb')
  f.write(data)
  f.close()

2)写入文本

def saveBrief(self,content,name):
 fileName = name + "/" + name + ".txt"
 f = open(fileName,"w+")
 print u"正在偷偷保存她的个人信息为",fileName
 f.write(content.encode('utf-8'))

3)创建新目录

#创建新目录
def mkdir(self,path):
 path = path.strip()
 # 判断路径是否存在
 # 存在  True
 # 不存在 False
 isExists=os.path.exists(path)
 # 判断结果
 if not isExists:
  # 如果不存在则创建目录
  # 创建目录操作函数
  os.makedirs(path)
  return True
 else:
  # 如果目录存在则不创建,并提示目录已存在
  return False

4.代码完善

主要的知识点已经在前面都涉及到了,如果大家前面的章节都已经看了,完成这个爬虫不在话下,具体的详情在此不再赘述,直接帖代码啦。

spider.py

import urllib
import urllib2
import re
import tool
import os

#抓取MM
class Spider:

 #页面初始化
 def __init__(self):
  self.siteURL = 'http://mm.taobao.com/json/request_top_list.htm'
  self.tool = tool.Tool()

 #获取索引页面的内容
 def getPage(self,pageIndex):
  url = self.siteURL + "?page=" + str(pageIndex)
  request = urllib2.Request(url)
  response = urllib2.urlopen(request)
  return response.read().decode('gbk')

 #获取索引界面所有MM的信息,list格式
 def getContents(self,pageIndex):
  page = self.getPage(pageIndex)
  pattern = re.compile('<div class="list-item".*?pic-word.*?<a href="(.*?)" rel="external nofollow" rel="external nofollow" .*?![]((.*?))(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)
  items = re.findall(pattern,page)
  contents = []
  for item in items:
   contents.append([item[0],item[1],item[2],item[3],item[4]])
  return contents

 #获取MM个人详情页面
 def getDetailPage(self,infoURL):
  response = urllib2.urlopen(infoURL)
  return response.read().decode('gbk')

 #获取个人文字简介
 def getBrief(self,page):
  pattern = re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S)
  result = re.search(pattern,page)
  return self.tool.replace(result.group(1))

 #获取页面所有图片
 def getAllImg(self,page):
  pattern = re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S)
  #个人信息页面所有代码
  content = re.search(pattern,page)
  #从代码中提取图片
  patternImg = re.compile('<img.*?src="(.*?)"',re.S)
  images = re.findall(patternImg,content.group(1))
  return images


 #保存多张写真图片
 def saveImgs(self,images,name):
  number = 1
  print u"发现",name,u"共有",len(images),u"张照片"
  for imageURL in images:
   splitPath = imageURL.split('.')
   fTail = splitPath.pop()
   if len(fTail) > 3:
    fTail = "jpg"
   fileName = name + "/" + str(number) + "." + fTail
   self.saveImg(imageURL,fileName)
   number += 1

 # 保存头像
 def saveIcon(self,iconURL,name):
  splitPath = iconURL.split('.')
  fTail = splitPath.pop()
  fileName = name + "/icon." + fTail
  self.saveImg(iconURL,fileName)

 #保存个人简介
 def saveBrief(self,content,name):
  fileName = name + "/" + name + ".txt"
  f = open(fileName,"w+")
  print u"正在偷偷保存她的个人信息为",fileName
  f.write(content.encode('utf-8'))


 #传入图片地址,文件名,保存单张图片
 def saveImg(self,imageURL,fileName):
   u = urllib.urlopen(imageURL)
   data = u.read()
   f = open(fileName, 'wb')
   f.write(data)
   print u"正在悄悄保存她的一张图片为",fileName
   f.close()

 #创建新目录
 def mkdir(self,path):
  path = path.strip()
  # 判断路径是否存在
  # 存在  True
  # 不存在 False
  isExists=os.path.exists(path)
  # 判断结果
  if not isExists:
   # 如果不存在则创建目录
   print u"偷偷新建了名字叫做",path,u'的文件夹'
   # 创建目录操作函数
   os.makedirs(path)
   return True
  else:
   # 如果目录存在则不创建,并提示目录已存在
   print u"名为",path,'的文件夹已经创建成功'
   return False

 #将一页淘宝MM的信息保存起来
 def savePageInfo(self,pageIndex):
  #获取第一页淘宝MM列表
  contents = self.getContents(pageIndex)
  for item in contents:
   #item[0]个人详情URL,item[1]头像URL,item[2]姓名,item[3]年龄,item[4]居住地
   print u"发现一位模特,名字叫",item[2],u"芳龄",item[3],u",她在",item[4]
   print u"正在偷偷地保存",item[2],"的信息"
   print u"又意外地发现她的个人地址是",item[0]
   #个人详情页面的URL
   detailURL = item[0]
   #得到个人详情页面代码
   detailPage = self.getDetailPage(detailURL)
   #获取个人简介
   brief = self.getBrief(detailPage)
   #获取所有图片列表
   images = self.getAllImg(detailPage)
   self.mkdir(item[2])
   #保存个人简介
   self.saveBrief(brief,item[2])
   #保存头像
   self.saveIcon(item[1],item[2])
   #保存图片
   self.saveImgs(images,item[2])

 #传入起止页码,获取MM图片
 def savePagesInfo(self,start,end):
  for i in range(start,end+1):
   print u"正在偷偷寻找第",i,u"个地方,看看MM们在不在"
   self.savePageInfo(i)


#传入起止页码即可,在此传入了2,10,表示抓取第2到10页的MM
spider = Spider()
spider.savePagesInfo(2,10)

tool.py

import re

#处理页面标签类
class Tool:
 #去除img标签,1-7位空格, 
 removeImg = re.compile('<img.*?>| {1,7}| ')
 #删除超链接标签
 removeAddr = re.compile('<a.*?>|</a>')
 #把换行的标签换为\n
 replaceLine = re.compile('<tr>|<div>|</div>|</p>')
 #将表格制表<td>替换为\t
 replaceTD= re.compile('<td>')
 #将换行符或双换行符替换为\n
 replaceBR = re.compile('<br><br>|<br>')
 #将其余标签剔除
 removeExtraTag = re.compile('<.*?>')
 #将多行空行删除
 removeNoneLine = re.compile('\n+')
 def replace(self,x):
  x = re.sub(self.removeImg,"",x)
  x = re.sub(self.removeAddr,"",x)
  x = re.sub(self.replaceLine,"\n",x)
  x = re.sub(self.replaceTD,"\t",x)
  x = re.sub(self.replaceBR,"\n",x)
  x = re.sub(self.removeExtraTag,"",x)
  x = re.sub(self.removeNoneLine,"\n",x)
  #strip()将前后多余内容删除
  return x.strip()

以上两个文件就是所有的代码内容,运行一下试试看,那叫一个酸爽啊

Python爬虫之爬取淘女郎照片示例详解

Python爬虫之爬取淘女郎照片示例详解

到此这篇关于Python爬虫之爬取淘女郎照片示例详解的文章就介绍到这了,更多相关Python 爬取淘女郎照片内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python使用在线API查询IP对应的地理位置信息实例
Jun 01 Python
利用ctypes提高Python的执行速度
Sep 09 Python
python实现Zabbix-API监控
Sep 17 Python
python查看模块,对象的函数方法
Oct 16 Python
Django REST framework视图的用法
Jan 16 Python
在python下读取并展示raw格式的图片实例
Jan 24 Python
python将类似json的数据存储到MySQL中的实例
Jul 12 Python
python过滤中英文标点符号的实例代码
Jul 15 Python
Python全局锁中如何合理运用多线程(多进程)
Nov 06 Python
Python3常用内置方法代码实例
Nov 18 Python
python交互模式基础知识点学习
Jun 18 Python
python re模块常见用法例举
Mar 01 Python
Python selenium键盘鼠标事件实现过程详解
Jul 28 #Python
用python写爬虫简单吗
Jul 28 #Python
公认8个效率最高的爬虫框架
Jul 28 #Python
python如何爬取网页中的文字
Jul 28 #Python
Python同时处理多个异常的方法
Jul 28 #Python
Python远程方法调用实现过程解析
Jul 28 #Python
Python 实现一个计时器
Jul 28 #Python
You might like
用PHP+java实现自动新闻滚动窗口
2006/10/09 PHP
PHP4和PHP5性能测试和对比 测试代码与环境
2007/08/17 PHP
php获取数组长度的方法(有实例)
2013/10/27 PHP
在html文件中也可以执行php语句的方法
2015/04/09 PHP
超清晰的document对象详解
2007/02/27 Javascript
Mootools 1.2教程 输入过滤第一部分(数字)
2009/09/15 Javascript
js导出table数据到excel即导出为EXCEL文档的方法
2013/10/10 Javascript
容易造成JavaScript内存泄露几个方面
2014/09/04 Javascript
javascript中parseInt()函数的定义和用法分析
2014/12/20 Javascript
jquery插件pagination实现无刷新ajax分页
2015/09/30 Javascript
基于jQuery实现的扇形定时器附源码下载
2015/10/20 Javascript
微信小程序开发之选项卡(窗口底部TabBar)页面切换
2017/04/12 Javascript
JavaScript Canvas实现验证码
2020/08/02 Javascript
JS中实现一个下载进度条及播放进度条的代码
2019/06/10 Javascript
微信小程序错误this.setData报错及解决过程
2019/09/18 Javascript
Node.js API详解之 timer模块用法实例分析
2020/05/07 Javascript
[43:48]Ti4正赛第一天 VG vs NEWBEE 2
2014/07/19 DOTA
python用reduce和map把字符串转为数字的方法
2016/12/19 Python
python 使用pandas计算累积求和的方法
2019/02/08 Python
Python Django切换MySQL数据库实例详解
2019/07/16 Python
Django admin禁用编辑链接和添加删除操作详解
2019/11/15 Python
关于Flask项目无法使用公网IP访问的解决方式
2019/11/19 Python
python代码实现TSNE降维数据可视化教程
2020/02/28 Python
pycharm下配置pyqt5的教程(anaconda虚拟环境下+tensorflow)
2020/03/25 Python
面向新手解析python Beautiful Soup基本用法
2020/07/11 Python
美国非常受欢迎的Spa品牌:Bliss必列斯
2018/04/10 全球购物
波兰在线香水店:Perfumy.pl
2019/08/12 全球购物
团支书的期末学习总结自我评价
2013/11/01 职场文书
经销商培训邀请函
2014/01/21 职场文书
一名老师的自我评价
2014/02/07 职场文书
奥巴马的演讲稿
2014/05/15 职场文书
工程技术负责人岗位职责
2015/04/13 职场文书
nginx配置proxy_pass中url末尾带/与不带/的区别详解
2021/03/31 Servers
Mysql基础之常见函数
2021/04/22 MySQL
Jupyter Notebook 如何修改字体和大小以及更改字体样式
2021/06/03 Python
python程序的组织结构详解
2021/12/06 Python