Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例


Posted in Python onApril 26, 2018

本文实例讲述了Python实现爬取百度贴吧帖子所有楼层图片的爬虫。分享给大家供大家参考,具体如下:

下载百度贴吧帖子图片,好好看

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

python2.7版本:

#coding=utf-8
import re
import requests
import urllib
from bs4 import BeautifulSoup
import time
time1=time.time()
def getHtml(url):
  page = requests.get(url)
  html =page.text
  return html
def getImg(html):
  soup = BeautifulSoup(html, 'html.parser')
  img_info = soup.find_all('img', class_='BDE_Image')
  global index
  for index,img in enumerate(img_info,index+1):
    print ("正在下载第{}张图片".format(index))
    urllib.urlretrieve(img.get("src"),'C:/pic4/%s.jpg' % index)
def getMaxPage(url):
  html = getHtml(url)
  reg = re.compile(r'max-page="(\d+)"')
  page = re.findall(reg,html)
  page = int(page[0])
  return page
if __name__=='__main__':
  url  = "https://tieba.baidu.com/p/5113603072"
  page = getMaxPage(url)
  index = 0
  for i in range(1,page):
    url = "%s%s" % ("https://tieba.baidu.com/p/5113603072?pn=",str(i))
    html = getHtml(url)
    getImg(html)
  print ("OK!All DownLoad!")
  time2=time.time()
  print u'总共耗时:' + str(time2 - time1) + 's'
Python 相关文章推荐
用Python编写简单的微博爬虫
Mar 04 Python
详解Python命令行解析工具Argparse
Apr 20 Python
Python正则表达式非贪婪、多行匹配功能示例
Aug 08 Python
Python3实现的爬虫爬取数据并存入mysql数据库操作示例
Jun 06 Python
python实现根据指定字符截取对应的行的内容方法
Oct 23 Python
Python多进程方式抓取基金网站内容的方法分析
Jun 03 Python
python编程进阶之异常处理用法实例分析
Feb 21 Python
Python中os模块功能与用法详解
Feb 26 Python
python实现飞机大战项目
Mar 11 Python
python 简单的调用有道翻译
Nov 25 Python
教你用python控制安卓手机
May 13 Python
用python实现监控视频人数统计
May 21 Python
Python实现的计算器功能示例
Apr 26 #Python
python email smtplib模块发送邮件代码实例
Apr 26 #Python
Python利用正则表达式实现计算器算法思路解析
Apr 25 #Python
Python实现随机生成手机号及正则验证手机号的方法
Apr 25 #Python
Python实现按中文排序的方法示例
Apr 25 #Python
Python实现的基于优先等级分配糖果问题算法示例
Apr 25 #Python
python自动登录12306并自动点击验证码完成登录的实现源代码
Apr 25 #Python
You might like
用PHP书写安全的脚本代码
2012/02/05 PHP
Zend Framework实现多文件上传功能实例
2016/03/21 PHP
Javascript开发包大全整理
2006/12/22 Javascript
jquery $(this).attr $(this).val方法使用介绍
2013/10/08 Javascript
IE8下String的Trim()方法失效的解决方法
2013/11/08 Javascript
js 处理数组重复元素示例代码
2013/12/27 Javascript
什么是 AngularJS?AngularJS简介
2014/12/06 Javascript
node.js中的fs.symlink方法使用说明
2014/12/15 Javascript
javascript动画算法实例分析
2015/07/31 Javascript
jQuery焦点图切换特效代码分享
2015/09/15 Javascript
jQuery实现表格行和列的动态添加与删除方法【测试可用】
2016/08/01 Javascript
全面解析Bootstrap表单样式的使用
2016/09/09 Javascript
Cookies 和 Session的详解及区别
2017/04/21 Javascript
vue开发调试神器vue-devtools使用详解
2017/07/13 Javascript
javascript将list转换成树状结构的实例
2017/09/08 Javascript
node.js中ws模块创建服务端和客户端,网页WebSocket客户端
2019/03/06 Javascript
js实现类似iphone的网页滑屏解锁功能示例【附源码下载】
2019/06/10 Javascript
解决vue单页面修改样式无法覆盖问题
2019/08/05 Javascript
在项目vue中使用echarts的操作步骤
2020/09/07 Javascript
Python 学习笔记
2008/12/27 Python
python使用正则表达式提取网页URL的方法
2015/05/26 Python
python实现把二维列表变为一维列表的方法分析
2019/10/08 Python
有针对性的求职自荐信
2013/11/14 职场文书
施工资料员的岗位职责
2013/12/22 职场文书
最新党员思想汇报
2014/01/01 职场文书
家长给学校的建议书
2014/05/15 职场文书
廉洁自律演讲稿
2014/05/22 职场文书
交通安全责任书范本
2014/07/24 职场文书
党员教师个人对照检查材料范文
2014/09/25 职场文书
党的群众路线教育实践活动领导班子整改措施
2014/10/28 职场文书
2014年社区个人工作总结
2014/12/02 职场文书
2015年项目工作总结
2015/04/29 职场文书
海洋天堂观后感
2015/06/05 职场文书
认识实习感想
2015/08/10 职场文书
golang goroutine顺序输出方式
2021/04/29 Golang
httpclient调用远程接口的方法
2022/08/14 Java/Android