编程 Python

使用Python爬取小姐姐图片（beautifulsoup法）

Posted in Python onFebruary 11, 2021

Python有许多强大的库用于爬虫，如beautifulsoup、requests等，本文将以网站https://www.xiurenji.cc/XiuRen/为例（慎点！！），讲解网络爬取图片的一般步骤。
为什么选择这个网站？其实与网站的内容无关。主要有两项技术层面的原因：①该网站的页面构造较有规律，适合新手对爬虫的技巧加强认识。②该网站没有反爬虫机制，可以放心使用爬虫。

第三方库需求

beautifulsoup
requests

步骤

打开网站，点击不同的页面：
发现其首页是https://www.xiurenji.cc/XiuRen/，而第二页是https://www.xiurenji.cc/XiuRen/index2.html，第三页第四页以此类推。为了爬虫代码的普适性，我们不妨从第二页以后进行构造url。

使用Python爬取小姐姐图片（beautifulsoup法）

选中封面图片，点击检查：

使用Python爬取小姐姐图片（beautifulsoup法）

可以发现，图片的信息，都在'div',class_='dan'里，而链接又在a标签下的href里。据此我们可以写一段代码提取出每一个封面图片的url：

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
  res=requests.get(url)#发送请求
  res.encoding="gbk"#设置编码方式为gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#寻找每一个封面对应的网址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素，达到扩充列表的目的，注意要把网址扩充完整
  return urls#返回该主页每一个封面对应的网址

点击封面图片，打开不同的页面，可以发现，首页的网址是https://www.xiurenji.cc/XiuRen/xxxx.html，而第二页的网址是https://www.xiurenji.cc/XiuRen/xxxx_1.html，第三第四页同理。同样为了普适性，我们从第二页开始爬取。

使用Python爬取小姐姐图片（beautifulsoup法）

右键，点击“检查”：

使用Python爬取小姐姐图片（beautifulsoup法）

可以发现所有的图片信息都储存在'div',class_='img'中，链接、标题分别在img标签中的src和alt中，我们同样也可以将它们提取出来。

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
  res=requests.get(url)#发送请求
  res.encoding="gbk"#设置编码方式为gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#寻找每一个封面对应的网址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素，达到扩充列表的目的，注意要把网址扩充完整
  return urls#返回该主页每一个封面对应的网址

完整代码

import requests
from bs4 import BeautifulSoup

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
  res=requests.get(url)#发送请求
  res.encoding="gbk"#设置编码方式为gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#寻找每一个封面对应的网址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素，达到扩充列表的目的，注意要把网址扩充完整
  return urls#返回该主页每一个封面对应的网址

def download(urls):
 for url1 in urls:
  print("prepare to download pictures in "+url1)
  getEveryPage(url1)#下载页面内的图片
  print("all pictures in "+url1+"are downloaded")
  
def getEveryPage(url1):
 total=0#total的作用：对属于每一个封面内的图片一次编号
 for n in range (1,11):#每一个封面对应下载10张图，可自行调整
  temp=url1.replace('.html','')
  url2=temp+'_'+str(n)+'.html'#获得每一内部页面的网址
  res=requests.get(url2)
  res.encoding="gbk"
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists1=soup.find_all('div',class_='img')#储存图片的路径
  
  for item in lists1:
   url=item.find('img').get('src')
   title=item.find('img').get('alt')#获取图片及其标题
   picurl='https://www.xiurenji.cc'+url#获取完整的图片标题
   picture=requests.get(picurl).content#下载图片
   address='D:\pythonimages'+'\\'#自定义保存图片的路径
   with open(address+title+str(total)+'.jpg','wb') as file:#保存图片
    print("downloading"+title+str(total))
    total=total+1
    file.write(picture)
    

if __name__ == "__main__":
 page=int(input('input the page you want:'))
 urls=getFirstPage(page)
 download(urls)

本文仅供学习参考，切勿用作其他用途！

到此这篇关于Python爬取小姐姐图片（beautifulsoup法）的文章就介绍到这了,更多相关Python爬取小姐姐图片内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

使用Python爬取小姐姐图片（beautifulsoup法）

- Author -

割韭菜的喵酱

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Tornado Web服务器多进程启动的2个方法

Aug 04 Python

Python最长公共子串算法实例

Mar 07 Python

详解Python2.x中对Unicode编码的使用

Apr 03 Python

python通过imaplib模块读取gmail里邮件的方法

May 08 Python

收藏整理的一些Python常用方法和技巧

May 18 Python

python删除过期文件的方法

May 29 Python

使用Python内置的模块与函数进行不同进制的数的转换

Mar 12 Python

python实现K最近邻算法

Jan 29 Python

实例讲解Python中整数的最大值输出

Mar 17 Python

Python坐标线性插值应用实现

Nov 13 Python

Python基于模块Paramiko实现SSHv2协议

Apr 28 Python

基于PyQT实现区分左键双击和单击

May 19 Python

详解python日志输出使用配置文件格式

Feb 10 #Python

python 获取域名到期时间的方法步骤

Feb 10 #Python

Numpy ndarray 多维数组对象的使用

Feb 10 #Python

Python将QQ聊天记录生成词云的示例代码

Feb 10 #Python

python利用文件时间批量重命名照片和视频

Feb 09 #Python

python opencv实现图像配准与比较

Feb 09 #Python

python urllib和urllib3知识点总结

Feb 08 #Python

You might like

PHP 中检查或过滤IP地址的实现代码

2011/11/27 PHP

为你总结一些php信息函数

2015/10/21 PHP

WordPress中限制非管理员用户在文章后只能评论一次

2015/12/31 PHP

php操作redis数据库常见方法实例总结

2020/02/20 PHP

Laravel6.18.19如何优雅的切换发件账户

2020/06/14 PHP

js同时按下两个方向键

2007/12/01 Javascript

JavaScript的变量作用域深入理解

2009/10/25 Javascript

分享一道笔试题[有n个直线最多可以把一个平面分成多少个部分]

2012/10/12 Javascript

Js(JavaScript)中,弹出是或否的选择框示例(confirm用法的实例分析)

2013/07/09 Javascript

jQuery事件绑定和委托实例

2014/11/25 Javascript

jQuery向后台传入json格式数据的方法

2015/02/13 Javascript

nodejs中的fiber（纤程）库详解

2015/03/24 NodeJs

Javascript 高阶函数使用介绍

2015/06/15 Javascript

clipboard.js无需Flash无需依赖任何JS库实现文本复制与剪切

2015/10/10 Javascript

js限制input只能输入有效的数字(第一个不能是小数点)

2018/09/28 Javascript

JavaScript实现图片伪异步上传过程解析

2020/04/10 Javascript

微信小程序 button样式设置为图片的方法

2020/06/19 Javascript

[01:02:38]DOTA2-DPC中国联赛定级赛 LBZS vs Phoenix BO3第二场 1月10日

2021/03/11 DOTA

Python引用（import）文件夹下的py文件的方法

2014/08/26 Python

python实现带声音的摩斯码翻译实现方法

2015/05/20 Python

Python多继承原理与用法示例

2018/08/23 Python

设置python3为默认python的方法

2018/10/31 Python

在Pycharm中使用GitHub的方法步骤

2019/06/13 Python

python plotly绘制直方图实例详解

2019/07/22 Python

python多线程扫描端口(线程池)

2019/09/04 Python

python中的socket实现ftp客户端和服务器收发文件及md5加密文件

2020/04/01 Python

Django model.py表单设置默认值允许为空的操作

2020/05/19 Python

8种常用的Python工具

2020/08/05 Python

HTML5+CSS3绘制锯齿状的矩形

2016/03/01 HTML / CSS

会计专业自荐信范文

2013/12/02 职场文书

生产部主管岗位职责

2014/01/06 职场文书

日语专业个人求职信范文

2014/02/02 职场文书

幼儿园小班评语

2014/04/18 职场文书

交通事故赔偿协议书怎么写

2014/10/04 职场文书

个人委托书范文

2015/01/28 职场文书

民事诉讼答辩状范文

2015/05/21 职场文书