Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例


Posted in Python onApril 26, 2018

本文实例讲述了Python实现爬取百度贴吧帖子所有楼层图片的爬虫。分享给大家供大家参考,具体如下:

下载百度贴吧帖子图片,好好看

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

python2.7版本:

#coding=utf-8
import re
import requests
import urllib
from bs4 import BeautifulSoup
import time
time1=time.time()
def getHtml(url):
  page = requests.get(url)
  html =page.text
  return html
def getImg(html):
  soup = BeautifulSoup(html, 'html.parser')
  img_info = soup.find_all('img', class_='BDE_Image')
  global index
  for index,img in enumerate(img_info,index+1):
    print ("正在下载第{}张图片".format(index))
    urllib.urlretrieve(img.get("src"),'C:/pic4/%s.jpg' % index)
def getMaxPage(url):
  html = getHtml(url)
  reg = re.compile(r'max-page="(\d+)"')
  page = re.findall(reg,html)
  page = int(page[0])
  return page
if __name__=='__main__':
  url  = "https://tieba.baidu.com/p/5113603072"
  page = getMaxPage(url)
  index = 0
  for i in range(1,page):
    url = "%s%s" % ("https://tieba.baidu.com/p/5113603072?pn=",str(i))
    html = getHtml(url)
    getImg(html)
  print ("OK!All DownLoad!")
  time2=time.time()
  print u'总共耗时:' + str(time2 - time1) + 's'
Python 相关文章推荐
王纯业的Python学习笔记 下载
Feb 10 Python
python 七种邮件内容发送方法实例
Apr 22 Python
python中去空格函数的用法
Aug 21 Python
python迭代器与生成器详解
Mar 10 Python
python3.5 tkinter实现页面跳转
Jan 30 Python
python使用pygame模块实现坦克大战游戏
Mar 25 Python
在PyCharm的 Terminal(终端)切换Python版本的方法
Aug 02 Python
基于Python中的yield表达式介绍
Nov 19 Python
PyTorch中permute的用法详解
Dec 30 Python
如何写python的配置文件
Jun 07 Python
python numpy实现rolling滚动案例
Jun 08 Python
python模块如何查看
Jun 16 Python
Python实现的计算器功能示例
Apr 26 #Python
python email smtplib模块发送邮件代码实例
Apr 26 #Python
Python利用正则表达式实现计算器算法思路解析
Apr 25 #Python
Python实现随机生成手机号及正则验证手机号的方法
Apr 25 #Python
Python实现按中文排序的方法示例
Apr 25 #Python
Python实现的基于优先等级分配糖果问题算法示例
Apr 25 #Python
python自动登录12306并自动点击验证码完成登录的实现源代码
Apr 25 #Python
You might like
无JS,完全php面向过程数据分页实现代码
2012/08/27 PHP
邮箱正则表达式实现代码(针对php)
2013/06/21 PHP
PHP中$_SERVER的详细参数与说明介绍
2013/10/26 PHP
Yii2框架dropDownList下拉菜单用法实例分析
2016/07/18 PHP
laravel框架邮箱认证实现方法详解
2019/11/22 PHP
List the Codec Files on a Computer
2007/06/11 Javascript
JavaScript和CSS通过expression实现Table居中显示
2013/06/28 Javascript
jquery ajax实现下拉框三级无刷新联动,且保存保持选中值状态
2013/10/29 Javascript
javascript实现ecshop搜索框键盘上下键切换控制
2015/03/18 Javascript
JQuery实现的图文自动轮播效果插件
2015/06/19 Javascript
Bootstrap每天必学之按钮
2015/11/26 Javascript
js运动应用实例解析
2015/12/28 Javascript
jQuery 局部div刷新和全局刷新方法总结
2016/10/05 Javascript
基于JS分页控件实现简单美观仿淘宝分页按钮效果
2016/11/07 Javascript
详解React Native顶|底部导航使用小技巧
2017/09/14 Javascript
JS字符串去除连续或全部重复字符的实例
2018/03/08 Javascript
vue :src 文件路径错误问题的解决方法
2018/05/15 Javascript
解决Vue+Element ui开发中碰到的IE问题
2018/09/03 Javascript
angularJs自定义过滤器实现手机号信息隐藏的方法
2018/10/08 Javascript
微信小程序与webview交互实现支付功能
2019/06/07 Javascript
使用 node.js 模仿 Apache 小部分功能
2019/07/07 Javascript
Vue中import from的来源及省略后缀与加载文件夹问题
2020/02/09 Javascript
详解Python 2.6 升级至 Python 2.7 的实践心得
2017/04/27 Python
Python实现1-9数组形成的结果为100的所有运算式的示例
2017/11/03 Python
Python爬虫实现全国失信被执行人名单查询功能示例
2018/05/03 Python
对python模块中多个类的用法详解
2019/01/10 Python
Python 通过爬虫实现GitHub网页的模拟登录的示例代码
2020/08/17 Python
英国领先的高街书籍专家:Waterstones
2018/02/01 全球购物
Arti-shopping中文官网:大型海外商品一站式直邮平台
2020/03/23 全球购物
自荐信的五个重要部分
2013/10/29 职场文书
机电职业生涯规划书范文
2014/03/08 职场文书
社区维稳工作方案
2014/06/06 职场文书
《钓鱼的启示》教学反思
2016/02/18 职场文书
实习报告怎么写
2019/06/20 职场文书
Python编写可视化界面的全过程(Python+PyCharm+PyQt)
2021/05/17 Python
vue配置型表格基于el-table拓展之table-plus组件
2022/04/12 Vue.js