Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
python模拟登录百度贴吧(百度贴吧登录)实例
Dec 18 Python
python使用urllib模块开发的多线程豆瓣小站mp3下载器
Jan 16 Python
Python多线程、异步+多进程爬虫实现代码
Feb 17 Python
Python 获取当前所在目录的方法详解
Aug 02 Python
机器学习python实战之手写数字识别
Nov 01 Python
Python 类的私有属性和私有方法实例分析
Sep 29 Python
Spring实战之使用util:命名空间简化配置操作示例
Dec 09 Python
简单了解python filter、map、reduce的区别
Jan 14 Python
Python 实现网课实时监控自动签到、打卡功能
Mar 12 Python
python opencv进行图像拼接
Mar 27 Python
200行python代码实现贪吃蛇游戏
Apr 24 Python
Python如何执行系统命令
Sep 23 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
先进的自动咖啡技术,真的可以取代咖啡师吗?
2021/03/06 冲泡冲煮
php短域名转换为实际域名函数
2011/01/17 PHP
js wmp操作代码小结(音乐连播功能)
2008/11/08 Javascript
JS 密码强度验证(兼容IE,火狐,谷歌)
2010/03/15 Javascript
jQuery 位置函数offset,innerWidth,innerHeight,outerWidth,outerHeight,scrollTop,scrollLeft
2010/03/23 Javascript
用JavaScript实现动画效果的方法
2013/07/20 Javascript
html5 canvas js(数字时钟)实例代码
2013/12/23 Javascript
14款NodeJS Web框架推荐
2014/07/11 NodeJs
关于vue-router路径计算问题
2017/05/10 Javascript
基于JavaScript实现数码时钟效果
2020/03/30 Javascript
webpack4+Vue搭建自己的Vue-cli项目过程分享
2018/08/29 Javascript
微信小程序实现带缩略图轮播效果
2018/11/04 Javascript
Vue使用Canvas绘制图片、矩形、线条、文字,下载图片
2019/04/26 Javascript
layui table表格数据的新增,修改,删除,查询,双击获取行数据方式
2019/11/14 Javascript
[51:17]Mineski vs Secret 2019国际邀请赛淘汰赛 败者组 BO3 第一场 8.22
2019/09/05 DOTA
python去除空格和换行符的实现方法(推荐)
2017/01/04 Python
python使用正则表达式替换匹配成功的组并输出替换的次数
2017/11/22 Python
不知道这5种下划线的含义,你就不算真的会Python!
2018/10/09 Python
python之yield和Generator深入解析
2019/09/18 Python
tensorflow 固定部分参数训练,只训练部分参数的实例
2020/01/20 Python
安装python3.7编译器后如何正确安装opnecv的方法详解
2020/06/16 Python
Python爬虫之Selenium警告框(弹窗)处理
2020/12/04 Python
python实现启动一个外部程序,并且不阻塞当前进程
2020/12/05 Python
Python抖音快手代码舞(字符舞)的实现方法
2021/02/07 Python
利用SVG和CSS3来实现一个炫酷的边框动画
2015/07/22 HTML / CSS
ktv收银员岗位职责
2013/12/16 职场文书
自我鉴定 电子商务专业
2014/01/30 职场文书
班班通项目实施方案
2014/02/25 职场文书
财务管理职业生涯规划书
2014/02/26 职场文书
医学求职自荐信
2014/06/21 职场文书
初中生旷课检讨书范文
2014/10/06 职场文书
应届生求职自荐信范文
2015/03/04 职场文书
力克胡哲观后感
2015/06/10 职场文书
居安思危观后感
2015/06/11 职场文书
2015年“我们的节日·中秋节”活动总结
2015/07/30 职场文书
基于CSS制作创意端午节专属加载特效
2022/06/01 HTML / CSS