Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
Python实现的HTTP并发测试完整示例
Apr 23 Python
Python调用ctypes使用C函数printf的方法
Aug 23 Python
python如何让类支持比较运算
Mar 20 Python
Python实现随机生成手机号及正则验证手机号的方法
Apr 25 Python
python 删除字符串中连续多个空格并保留一个的方法
Dec 22 Python
Python如何爬取实时变化的WebSocket数据的方法
Mar 09 Python
python对绑定事件的鼠标、按键的判断实例
Jul 17 Python
使用Python自动生成HTML的方法示例
Aug 06 Python
Python析构函数__del__定义原理解析
Nov 20 Python
Django后端按照日期查询的方法教程
Feb 28 Python
python实战之90行代码写个猜数字游戏
Apr 22 Python
Python实现自动玩连连看的脚本分享
Apr 04 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
一个php作的文本留言本的例子(五)
2006/10/09 PHP
PHP 创建文件(文件夹)以及目录操作代码
2010/03/04 PHP
php上传图片存入数据库示例分享
2014/03/11 PHP
php实现用于计算执行时间的类实例
2015/04/18 PHP
PHP版QQ互联OAuth示例代码分享
2015/07/05 PHP
javascript入门·动态的时钟,显示完整的一些方法,新年倒计时
2007/10/01 Javascript
js 鼠标拖动对象 可让任何div实现拖动效果
2009/11/09 Javascript
查看图片(前进后退)功能实现js代码
2013/04/24 Javascript
使用GruntJS链接与压缩多个JavaScript文件过程详解
2013/08/02 Javascript
JavaScript常用脚本汇总(三)
2015/03/04 Javascript
超赞的jQuery图片滑块动画特效代码汇总
2016/01/25 Javascript
JS实现Select的option上下移动的方法
2016/03/01 Javascript
jQuery基本选择器之标签名选择器
2016/09/03 Javascript
EasyUI Combobox设置默认值 获取text的方法
2016/11/28 Javascript
BootStrap 模态框实现刷新网页并关闭功能
2017/01/04 Javascript
jQuery实现的分页功能示例
2017/01/22 Javascript
jQuery实现淡入淡出的模态框
2017/02/09 Javascript
基于JavaScript实现的插入排序算法分析
2017/04/14 Javascript
jQuery选择器之子元素选择器详解
2017/09/18 jQuery
Vue封装的组件全局注册并引用
2019/07/24 Javascript
JS实现“全选”和"全不选"功能代码实例
2020/02/06 Javascript
JavaScript的一些小技巧分享
2021/01/06 Javascript
[46:23]完美世界DOTA2联赛PWL S2 FTD vs Magma 第一场 11.20
2020/11/23 DOTA
python 用户交互输入input的4种用法详解
2019/09/24 Python
python使用pip安装模块出现ReadTimeoutError: HTTPSConnectionPool的解决方法
2019/10/04 Python
Tensorflow训练MNIST手写数字识别模型
2020/02/13 Python
Python如何使用ElementTree解析xml
2020/10/12 Python
html5指南-6.如何创建离线web应用程序实现离线访问
2013/01/07 HTML / CSS
周仰杰(JIMMY CHOO)法国官方网站:闻名世界的鞋子品牌
2019/09/27 全球购物
EJB包括(SessionBean,EntityBean)说出他们的生命周期,及如何管理事务的?
2013/02/17 面试题
幼儿园教师辞职信
2014/01/18 职场文书
班级学习雷锋活动总结
2014/07/04 职场文书
计算机科学与技术专业求职信
2014/09/03 职场文书
中学教师师德师风承诺书
2015/04/28 职场文书
战友聚会致辞
2015/07/28 职场文书
学习《中小学教师职业道德规范》心得体会
2016/01/18 职场文书