Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例


Posted in Python onApril 26, 2018

本文实例讲述了Python实现爬取百度贴吧帖子所有楼层图片的爬虫。分享给大家供大家参考,具体如下:

下载百度贴吧帖子图片,好好看

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

python2.7版本:

#coding=utf-8
import re
import requests
import urllib
from bs4 import BeautifulSoup
import time
time1=time.time()
def getHtml(url):
  page = requests.get(url)
  html =page.text
  return html
def getImg(html):
  soup = BeautifulSoup(html, 'html.parser')
  img_info = soup.find_all('img', class_='BDE_Image')
  global index
  for index,img in enumerate(img_info,index+1):
    print ("正在下载第{}张图片".format(index))
    urllib.urlretrieve(img.get("src"),'C:/pic4/%s.jpg' % index)
def getMaxPage(url):
  html = getHtml(url)
  reg = re.compile(r'max-page="(\d+)"')
  page = re.findall(reg,html)
  page = int(page[0])
  return page
if __name__=='__main__':
  url  = "https://tieba.baidu.com/p/5113603072"
  page = getMaxPage(url)
  index = 0
  for i in range(1,page):
    url = "%s%s" % ("https://tieba.baidu.com/p/5113603072?pn=",str(i))
    html = getHtml(url)
    getImg(html)
  print ("OK!All DownLoad!")
  time2=time.time()
  print u'总共耗时:' + str(time2 - time1) + 's'
Python 相关文章推荐
Python函数中定义参数的四种方式
Nov 30 Python
在Python中使用swapCase()方法转换大小写的教程
May 20 Python
python技能之数据导出excel的实例代码
Aug 11 Python
朴素贝叶斯Python实例及解析
Nov 19 Python
Python构建图像分类识别器的方法
Jan 12 Python
使用Python批量修改文件名的代码实例
Jan 24 Python
Python爬虫实战之12306抢票开源
Jan 24 Python
浅谈python图片处理Image和skimage的区别
Aug 04 Python
selenium+PhantomJS爬取豆瓣读书
Aug 26 Python
python异步Web框架sanic的实现
Apr 27 Python
基于Python第三方插件实现西游记章节标注汉语拼音的方法
May 22 Python
Jupyter notebook 更改文件打开的默认路径操作
May 21 Python
Python实现的计算器功能示例
Apr 26 #Python
python email smtplib模块发送邮件代码实例
Apr 26 #Python
Python利用正则表达式实现计算器算法思路解析
Apr 25 #Python
Python实现随机生成手机号及正则验证手机号的方法
Apr 25 #Python
Python实现按中文排序的方法示例
Apr 25 #Python
Python实现的基于优先等级分配糖果问题算法示例
Apr 25 #Python
python自动登录12306并自动点击验证码完成登录的实现源代码
Apr 25 #Python
You might like
php中实现记住密码自动登录的代码
2011/03/02 PHP
PHP中变量引用与变量销毁机制分析
2014/11/15 PHP
PHP SPL标准库之数据结构堆(SplHeap)简单使用实例
2015/05/12 PHP
详解PHP中的状态模式编程
2015/08/11 PHP
TP5(thinkPHP5)框架基于ajax与后台数据交互操作简单示例
2018/09/03 PHP
TP5框架实现自定义分页样式的方法示例
2020/04/05 PHP
ExtJS下grid的一些属性说明
2009/12/13 Javascript
基于JQuery的6个Tab选项卡插件
2010/09/03 Javascript
7个JS基础知识总结
2014/03/05 Javascript
js中的for如何实现foreach中的遍历
2014/05/31 Javascript
什么是Node.js?Node.js详细介绍
2014/06/01 Javascript
Javascript与jQuery方法的隐藏与显示
2015/01/19 Javascript
JavaScript中的包装对象介绍
2015/01/27 Javascript
JavaScript设计模式学习之“类式继承”
2015/03/12 Javascript
多个js毫秒倒计时同时进行效果
2016/01/05 Javascript
weUI应用之JS常用信息提示弹层的封装
2016/11/21 Javascript
JS正则获取HTML元素的方法
2017/03/31 Javascript
jQuery选择器_动力节点Java学院整理
2017/07/05 jQuery
js学习心得_一个简单的动画库封装tween.js
2017/07/14 Javascript
JavaScript数组去重的多种方法(四种)
2017/09/19 Javascript
jquery中done和then的区别(详解)
2017/12/19 jQuery
Vue父子组件双向绑定传值的实现方法
2018/07/31 Javascript
mpvue+vuex搭建小程序详细教程(完整步骤)
2018/09/30 Javascript
15 分钟掌握vue-next响应式原理
2019/10/13 Javascript
python正则表达式抓取成语网站
2013/11/20 Python
Python内建模块struct实例详解
2018/02/02 Python
python实现对求解最长回文子串的动态规划算法
2018/06/02 Python
python SVM 线性分类模型的实现
2019/07/19 Python
浅析Windows 嵌入python解释器的过程
2019/07/26 Python
python3 反射的四种基本方法解析
2019/08/26 Python
详解Html5页面实现下载文件(apk、txt等)的三种方式
2018/10/22 HTML / CSS
广州地球村科技数据库题目
2016/04/25 面试题
单位在职证明范本
2014/01/09 职场文书
鼓励运动员的广播稿
2014/02/08 职场文书
团结就是力量演讲稿
2014/05/21 职场文书
python实现简单的三子棋游戏
2022/04/28 Python