Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例


Posted in Python onApril 26, 2018

本文实例讲述了Python实现爬取百度贴吧帖子所有楼层图片的爬虫。分享给大家供大家参考,具体如下:

下载百度贴吧帖子图片,好好看

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

python2.7版本:

#coding=utf-8
import re
import requests
import urllib
from bs4 import BeautifulSoup
import time
time1=time.time()
def getHtml(url):
  page = requests.get(url)
  html =page.text
  return html
def getImg(html):
  soup = BeautifulSoup(html, 'html.parser')
  img_info = soup.find_all('img', class_='BDE_Image')
  global index
  for index,img in enumerate(img_info,index+1):
    print ("正在下载第{}张图片".format(index))
    urllib.urlretrieve(img.get("src"),'C:/pic4/%s.jpg' % index)
def getMaxPage(url):
  html = getHtml(url)
  reg = re.compile(r'max-page="(\d+)"')
  page = re.findall(reg,html)
  page = int(page[0])
  return page
if __name__=='__main__':
  url  = "https://tieba.baidu.com/p/5113603072"
  page = getMaxPage(url)
  index = 0
  for i in range(1,page):
    url = "%s%s" % ("https://tieba.baidu.com/p/5113603072?pn=",str(i))
    html = getHtml(url)
    getImg(html)
  print ("OK!All DownLoad!")
  time2=time.time()
  print u'总共耗时:' + str(time2 - time1) + 's'
Python 相关文章推荐
python 正则式使用心得
May 07 Python
Django学习笔记之Class-Based-View
Feb 15 Python
关于python pyqt5安装失败问题的解决方法
Aug 08 Python
运动检测ViBe算法python实现代码
Jan 09 Python
numpy使用fromstring创建矩阵的实例
Jun 15 Python
python3实现名片管理系统
Nov 29 Python
Python网络爬虫之爬取微博热搜
Apr 18 Python
python opencv捕获摄像头并显示内容的实现
Jul 11 Python
python  文件的基本操作 菜中菜功能的实例代码
Jul 17 Python
Python绘制股票移动均线的实例
Aug 24 Python
Python 实现判断图片格式并转换,将转换的图像存到生成的文件夹中
Jan 13 Python
Python timer定时器两种常用方法解析
Jan 20 Python
Python实现的计算器功能示例
Apr 26 #Python
python email smtplib模块发送邮件代码实例
Apr 26 #Python
Python利用正则表达式实现计算器算法思路解析
Apr 25 #Python
Python实现随机生成手机号及正则验证手机号的方法
Apr 25 #Python
Python实现按中文排序的方法示例
Apr 25 #Python
Python实现的基于优先等级分配糖果问题算法示例
Apr 25 #Python
python自动登录12306并自动点击验证码完成登录的实现源代码
Apr 25 #Python
You might like
德生PL990,目前市面上唯一一款便携式插卡蓝牙全波段高性能收音机
2021/03/02 无线电
php截取字符串并保留完整xml标签的函数代码
2013/02/06 PHP
PHP反射类ReflectionClass和ReflectionObject的使用方法
2013/11/13 PHP
php把session写入数据库示例
2014/02/26 PHP
PHP实现Soap通讯的方法
2014/11/03 PHP
php异步多线程swoole用法实例
2014/11/14 PHP
PHP扩展开发教程(总结)
2015/11/04 PHP
PHP获取input输入框中的值去数据库比较显示出来
2016/11/16 PHP
浅谈php中的访问修饰符private、protected、public的作用范围
2016/11/20 PHP
laravel 查询数据库获取结果实现判断是否为空
2019/10/24 PHP
执行iframe中的javascript方法
2008/10/07 Javascript
jquery isType() 类型判断代码
2011/02/14 Javascript
关于Javascript与iframe的那些事儿
2013/07/04 Javascript
JS之Date对象和获取系统当前时间详解
2014/01/13 Javascript
jQuery响应鼠标事件并隐藏与显示input默认值
2014/08/24 Javascript
分享JavaScript与Java中MD5使用两个例子
2015/12/23 Javascript
详解js实现线段交点的三种算法
2016/08/09 Javascript
Bootstrap基本组件学习笔记之列表组(11)
2016/12/07 Javascript
Bootstrap输入框组件使用详解
2017/06/09 Javascript
layer.open 子页面弹出层向父页面传输数据的例子
2019/09/26 Javascript
微信小程序实现菜单左右联动
2020/05/19 Javascript
[02:03]完美世界DOTA2联赛10月30日赛事集锦
2020/10/31 DOTA
Python语法快速入门指南
2015/10/12 Python
python笔记:mysql、redis操作方法
2017/06/28 Python
Django框架创建mysql连接与使用示例
2019/07/29 Python
Python 获取指定文件夹下的目录和文件的实现
2019/08/30 Python
python实现上传文件到linux指定目录的方法
2020/01/03 Python
最新pycharm安装教程
2020/11/18 Python
HTML5中使用postMessage实现Ajax跨域请求的方法
2016/04/19 HTML / CSS
ProBikeKit澳大利亚:自行车套件,跑步和铁人三项装备
2016/11/30 全球购物
加拿大最大的体育用品、鞋类和服装零售商:Sport Chek
2018/11/29 全球购物
财务工作者先进事迹材料
2014/01/17 职场文书
小学毕业家长寄语
2014/01/19 职场文书
医学生自荐信范文(2016精选篇)
2016/01/28 职场文书
小学科学课教学反思
2016/02/23 职场文书
CSS实现隐藏搜索框功能(动画正反向序列)
2021/07/21 HTML / CSS