Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例


Posted in Python onApril 26, 2018

本文实例讲述了Python实现爬取百度贴吧帖子所有楼层图片的爬虫。分享给大家供大家参考,具体如下:

下载百度贴吧帖子图片,好好看

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

python2.7版本:

#coding=utf-8
import re
import requests
import urllib
from bs4 import BeautifulSoup
import time
time1=time.time()
def getHtml(url):
  page = requests.get(url)
  html =page.text
  return html
def getImg(html):
  soup = BeautifulSoup(html, 'html.parser')
  img_info = soup.find_all('img', class_='BDE_Image')
  global index
  for index,img in enumerate(img_info,index+1):
    print ("正在下载第{}张图片".format(index))
    urllib.urlretrieve(img.get("src"),'C:/pic4/%s.jpg' % index)
def getMaxPage(url):
  html = getHtml(url)
  reg = re.compile(r'max-page="(\d+)"')
  page = re.findall(reg,html)
  page = int(page[0])
  return page
if __name__=='__main__':
  url  = "https://tieba.baidu.com/p/5113603072"
  page = getMaxPage(url)
  index = 0
  for i in range(1,page):
    url = "%s%s" % ("https://tieba.baidu.com/p/5113603072?pn=",str(i))
    html = getHtml(url)
    getImg(html)
  print ("OK!All DownLoad!")
  time2=time.time()
  print u'总共耗时:' + str(time2 - time1) + 's'
Python 相关文章推荐
python下函数参数的传递(参数带星号的说明)
Sep 19 Python
给Python中的MySQLdb模块添加超时功能的教程
May 05 Python
python 2.6.6升级到python 2.7.x版本的方法
Oct 09 Python
使用Python做定时任务及时了解互联网动态
May 15 Python
Python 常用模块 re 使用方法详解
Jun 06 Python
Python爬虫图片懒加载技术 selenium和PhantomJS解析
Sep 18 Python
导入tensorflow时报错:cannot import name 'abs'的解决
Oct 10 Python
基于Python实现船舶的MMSI的获取(推荐)
Oct 21 Python
Tensorflow 自定义loss的情况下初始化部分变量方式
Jan 06 Python
Python基于内置函数type创建新类型
Oct 22 Python
python-opencv 中值滤波{cv2.medianBlur(src, ksize)}的用法
Jun 05 Python
Python进行区间取值案例讲解
Aug 02 Python
Python实现的计算器功能示例
Apr 26 #Python
python email smtplib模块发送邮件代码实例
Apr 26 #Python
Python利用正则表达式实现计算器算法思路解析
Apr 25 #Python
Python实现随机生成手机号及正则验证手机号的方法
Apr 25 #Python
Python实现按中文排序的方法示例
Apr 25 #Python
Python实现的基于优先等级分配糖果问题算法示例
Apr 25 #Python
python自动登录12306并自动点击验证码完成登录的实现源代码
Apr 25 #Python
You might like
APACHE的AcceptPathInfo指令使用介绍
2013/01/18 PHP
php二分查找二种实现示例
2014/03/12 PHP
2个Codeigniter文件批量上传控制器写法例子
2014/07/25 PHP
PHP设置进度条的方法
2015/07/08 PHP
PHP使用GD库输出汉字的方法【测试可用】
2016/11/10 PHP
PHP判断访客是否手机端(移动端浏览器)访问的方法总结【4种方法】
2019/03/27 PHP
PHP实现长轮询消息实时推送功能代码实例讲解
2021/02/26 PHP
用JavaScrpt实现文件夹简单轻松加密的实现方法图文
2008/09/08 Javascript
Javascript函数的参数
2015/07/16 Javascript
js实现tab选项卡切换功能
2017/01/13 Javascript
Vue 2.0中生命周期与钩子函数的一些理解
2017/05/09 Javascript
js实现城市级联菜单的2种方法
2017/06/23 Javascript
基于jquery实现左右上下移动效果
2018/05/02 jQuery
vue动态绑定组件子父组件多表单验证功能的实现代码
2018/05/14 Javascript
少女风vue组件库的制作全过程
2019/05/15 Javascript
uniapp实现可滑动选项卡
2020/10/21 Javascript
浅析Python中else语句块的使用技巧
2016/06/16 Python
浅谈Django自定义模板标签template_tags的用处
2017/12/20 Python
Python爬虫实例扒取2345天气预报
2018/03/04 Python
windows下python和pip安装教程
2018/05/25 Python
python 自动去除空行的实例
2018/07/24 Python
python开发准备工作之配置虚拟环境(非常重要)
2019/02/11 Python
Python 调用 Windows API COM 新法
2019/08/22 Python
Selenium基于PIL实现拼接滚动截图
2020/04/10 Python
django models里数据表插入数据id自增操作
2020/07/15 Python
Ubuntu权限不足无法创建文件夹解决方案
2020/11/14 Python
一文读懂python Scrapy爬虫框架
2021/02/24 Python
HTML5 WebGL 实现民航客机飞行监控系统
2019/07/25 HTML / CSS
英国Zoro工具:手动工具,电动工具和个人防护用品
2016/11/02 全球购物
美国领先的家居装饰和礼品商店:Kirkland’s
2017/01/30 全球购物
Waterford美国官网:爱尔兰水晶制品品牌
2017/04/26 全球购物
Otticanet意大利:最顶尖的世界名牌眼镜, 能得到打折季的价格
2019/03/10 全球购物
2016党校学习心得体会范文
2016/01/07 职场文书
关于React Native使用axios进行网络请求的方法
2021/08/02 Javascript
多人盗宝《绿林侠盗》第三赛季4.5上线 跨平台实装
2022/04/03 其他游戏
mysql 乱码 字符集latin1转UTF8
2022/04/19 MySQL