Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例


Posted in Python onApril 26, 2018

本文实例讲述了Python实现爬取百度贴吧帖子所有楼层图片的爬虫。分享给大家供大家参考,具体如下:

下载百度贴吧帖子图片,好好看

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

python2.7版本:

#coding=utf-8
import re
import requests
import urllib
from bs4 import BeautifulSoup
import time
time1=time.time()
def getHtml(url):
  page = requests.get(url)
  html =page.text
  return html
def getImg(html):
  soup = BeautifulSoup(html, 'html.parser')
  img_info = soup.find_all('img', class_='BDE_Image')
  global index
  for index,img in enumerate(img_info,index+1):
    print ("正在下载第{}张图片".format(index))
    urllib.urlretrieve(img.get("src"),'C:/pic4/%s.jpg' % index)
def getMaxPage(url):
  html = getHtml(url)
  reg = re.compile(r'max-page="(\d+)"')
  page = re.findall(reg,html)
  page = int(page[0])
  return page
if __name__=='__main__':
  url  = "https://tieba.baidu.com/p/5113603072"
  page = getMaxPage(url)
  index = 0
  for i in range(1,page):
    url = "%s%s" % ("https://tieba.baidu.com/p/5113603072?pn=",str(i))
    html = getHtml(url)
    getImg(html)
  print ("OK!All DownLoad!")
  time2=time.time()
  print u'总共耗时:' + str(time2 - time1) + 's'
Python 相关文章推荐
Python中实现常量(Const)功能
Jan 28 Python
Python 冒泡,选择,插入排序使用实例
Feb 05 Python
剖析Django中模版标签的解析与参数传递
Jul 21 Python
python中的格式化输出用法总结
Jul 28 Python
Python2实现的LED大数字显示效果示例
Sep 04 Python
pymysql模块的使用(增删改查)详解
Sep 09 Python
python修改FTP服务器上的文件名
Sep 11 Python
Python Django框架模板渲染功能示例
Nov 08 Python
Numpy之reshape()使用详解
Dec 26 Python
Python中常用的os操作汇总
Nov 05 Python
如何利用python 读取配置文件
Jan 06 Python
pytorch 中autograd.grad()函数的用法说明
May 12 Python
Python实现的计算器功能示例
Apr 26 #Python
python email smtplib模块发送邮件代码实例
Apr 26 #Python
Python利用正则表达式实现计算器算法思路解析
Apr 25 #Python
Python实现随机生成手机号及正则验证手机号的方法
Apr 25 #Python
Python实现按中文排序的方法示例
Apr 25 #Python
Python实现的基于优先等级分配糖果问题算法示例
Apr 25 #Python
python自动登录12306并自动点击验证码完成登录的实现源代码
Apr 25 #Python
You might like
PHP树的代码,可以嵌套任意层
2006/10/09 PHP
PHP中nowdoc和heredoc使用需要注意的一点
2014/03/21 PHP
PHP获取时间排除周六、周日的两个方法
2014/06/30 PHP
PHP把MSSQL数据导入到MYSQL的方法
2014/12/27 PHP
yii框架无限极分类的实现方法
2017/04/08 PHP
PHP+原生态ajax实现的省市联动功能详解
2017/08/15 PHP
使用TextRange获取输入框中光标的位
2006/10/14 Javascript
Jquery下attr和removeAttr的使用方法
2010/12/28 Javascript
基于jQuery的图片左右无缝滚动插件
2012/05/23 Javascript
基于JavaScript 数据类型之Boolean类型分析介绍
2013/04/19 Javascript
onkeyup,onkeydown和onkeypress的区别介绍
2013/10/21 Javascript
JS的数组迭代方法
2015/02/05 Javascript
js鼠标点击图片切换效果实现代码
2015/11/19 Javascript
JS鼠标拖拽实例分析
2015/11/23 Javascript
AngularJS实现动态编译添加到dom中的方法
2016/11/04 Javascript
简单实现Bootstrap标签页
2020/08/09 Javascript
一个Vue视频媒体多段裁剪组件的实现示例
2018/08/09 Javascript
深入理解Angularjs 脏值检测
2018/10/12 Javascript
Vue中的验证登录状态的实现方法
2019/03/09 Javascript
[44:40]Serenity vs Pain 2018国际邀请赛小组赛BO2 第一场 8.19
2018/08/21 DOTA
在Python的Django框架中编写错误提示页面
2015/07/22 Python
Python3下错误AttributeError: ‘dict’ object has no attribute’iteritems‘的分析与解决
2017/07/06 Python
Python实现随机选择元素功能
2017/09/14 Python
django-rest-swagger的优化使用方法
2019/08/29 Python
python实现静态web服务器
2019/09/03 Python
Pycharm安装Qt Design快捷工具的详细教程
2020/11/18 Python
美国独家设计师眼镜在线光学商店:Glasses Gallery
2017/12/28 全球购物
教师推荐信范文
2013/11/24 职场文书
供货协议书
2014/04/22 职场文书
革命英雄事迹演讲稿
2014/09/13 职场文书
世界水日宣传活动总结
2015/02/09 职场文书
销售业务员岗位职责
2015/02/13 职场文书
领导新年致辞2016
2015/07/29 职场文书
Python Numpy之linspace用法说明
2021/04/17 Python
上帝为你开了一扇窗之Tkinter常用函数详解
2021/06/02 Python
微信小程序中使用vant框架的具体步骤
2022/02/18 Javascript