Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例


Posted in Python onApril 26, 2018

本文实例讲述了Python实现爬取百度贴吧帖子所有楼层图片的爬虫。分享给大家供大家参考,具体如下:

下载百度贴吧帖子图片,好好看

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

python2.7版本:

#coding=utf-8
import re
import requests
import urllib
from bs4 import BeautifulSoup
import time
time1=time.time()
def getHtml(url):
  page = requests.get(url)
  html =page.text
  return html
def getImg(html):
  soup = BeautifulSoup(html, 'html.parser')
  img_info = soup.find_all('img', class_='BDE_Image')
  global index
  for index,img in enumerate(img_info,index+1):
    print ("正在下载第{}张图片".format(index))
    urllib.urlretrieve(img.get("src"),'C:/pic4/%s.jpg' % index)
def getMaxPage(url):
  html = getHtml(url)
  reg = re.compile(r'max-page="(\d+)"')
  page = re.findall(reg,html)
  page = int(page[0])
  return page
if __name__=='__main__':
  url  = "https://tieba.baidu.com/p/5113603072"
  page = getMaxPage(url)
  index = 0
  for i in range(1,page):
    url = "%s%s" % ("https://tieba.baidu.com/p/5113603072?pn=",str(i))
    html = getHtml(url)
    getImg(html)
  print ("OK!All DownLoad!")
  time2=time.time()
  print u'总共耗时:' + str(time2 - time1) + 's'
Python 相关文章推荐
跟老齐学Python之折腾一下目录
Oct 24 Python
python对指定目录下文件进行批量重命名的方法
Apr 18 Python
Python访问纯真IP数据库脚本分享
Jun 29 Python
Python中遇到的小问题及解决方法汇总
Jan 11 Python
Python 列表(List) 的三种遍历方法实例 详解
Apr 15 Python
python2.x实现人民币转大写人民币
Jun 20 Python
Python中BeautifuSoup库的用法使用详解
Nov 15 Python
python错误调试及单元文档测试过程解析
Dec 19 Python
Python3操作读写CSV文件使用包过程解析
Apr 10 Python
python 解决Fatal error in launcher:错误问题
May 21 Python
python实现斗地主分牌洗牌
Jun 22 Python
Python实战之疫苗研发情况可视化
May 18 Python
Python实现的计算器功能示例
Apr 26 #Python
python email smtplib模块发送邮件代码实例
Apr 26 #Python
Python利用正则表达式实现计算器算法思路解析
Apr 25 #Python
Python实现随机生成手机号及正则验证手机号的方法
Apr 25 #Python
Python实现按中文排序的方法示例
Apr 25 #Python
Python实现的基于优先等级分配糖果问题算法示例
Apr 25 #Python
python自动登录12306并自动点击验证码完成登录的实现源代码
Apr 25 #Python
You might like
受疫情影响 动画《Re从零开始的异世界生活》第二季延期至7月
2020/03/10 日漫
PHP无法访问远程mysql的问题分析及解决
2013/05/16 PHP
PHP5.3以上版本安装ZendOptimizer扩展
2015/03/27 PHP
thinkphp微信开发(消息加密解密)
2015/12/02 PHP
Laravel 登录后清空COOKIE的操作方法
2019/10/14 PHP
jquery Mobile入门—外部链接切换示例代码
2013/01/08 Javascript
GridView中获取被点击行中的DropDownList和TextBox中的值
2013/07/18 Javascript
cookie.js 加载顺序问题怎么才有效
2013/07/31 Javascript
解析JavaScript中instanceof对于不同的构造器或许都返回true
2013/12/03 Javascript
js简单的表格添加行和删除行操作示例
2014/03/31 Javascript
jQuery实现tag便签去重效果的方法
2015/01/20 Javascript
javascript日期格式化方法汇总
2015/10/04 Javascript
hovertree插件实现二级树形菜单(简单实用)
2016/12/28 Javascript
简单实现js进度条加载效果
2020/03/25 Javascript
BACKBONE.JS 简单入门范例
2017/10/17 Javascript
Nodejs连接mysql并实现增、删、改、查操作的方法详解
2018/01/04 NodeJs
使用javascript函数编写简单银行取钱存钱流程
2018/05/26 Javascript
vue打包相关细节整理(小结)
2018/09/28 Javascript
[01:28]国服启动器接入蒸汽平台操作流程视频
2021/03/11 DOTA
Python中asyncore的用法实例
2014/09/29 Python
python按综合、销量排序抓取100页的淘宝商品列表信息
2018/02/24 Python
Python实现简单求解给定整数的质因数算法示例
2018/03/25 Python
详解python读取image
2019/04/03 Python
使用python脚本自动创建pip.ini配置文件代码实例
2019/09/20 Python
pandas 对group进行聚合的例子
2019/12/27 Python
Python爬取365好书中小说代码实例
2020/02/28 Python
Jupyter notebook快速入门教程(推荐)
2020/05/18 Python
Python命令行参数argv和argparse该如何使用
2021/02/08 Python
美国隐形眼镜销售网站:ContactsDirect
2017/10/28 全球购物
Petmate品牌官方网站:宠物用品
2018/11/25 全球购物
函数只定义了一次, 调用了一次, 但编译器提示非法重定义了-什么问题?
2014/10/03 面试题
地理科学专业毕业生求职信
2013/10/15 职场文书
财务会计专业求职信
2014/06/09 职场文书
2015届大学生就业推荐表自我评价
2014/09/27 职场文书
谢师宴家长答谢词
2015/09/30 职场文书
企业版Windows 11有哪些新功能? Win11适用于企业的功能介绍
2021/11/21 数码科技