Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
在Python中使用poplib模块收取邮件的教程
Apr 29 Python
Python通过select实现异步IO的方法
Jun 04 Python
Python连接phoenix的方法示例
Sep 29 Python
Python实现的拟合二元一次函数功能示例【基于scipy模块】
May 15 Python
Windows 64位下python3安装nltk模块
Sep 19 Python
利用python实现对web服务器的目录探测的方法
Feb 26 Python
Python3.4解释器用法简单示例
Mar 22 Python
django如何实现视图重定向
Jul 24 Python
python tkinter图形界面代码统计工具
Sep 18 Python
使用tensorflow实现矩阵分解方式
Feb 07 Python
python中添加模块导入路径的方法
Feb 03 Python
python如何利用cv2.rectangle()绘制矩形框
Dec 24 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
让PHP支持页面回退的两种方法
2008/01/10 PHP
Apache服务器无法使用的解决方法
2013/05/08 PHP
PHP7 新特性详细介绍
2016/09/06 PHP
php异常处理捕获错误整理
2019/09/23 PHP
js 实现复制到粘贴板的功能代码
2010/05/13 Javascript
html页面显示年月日时分秒和星期几的两种方式
2013/08/20 Javascript
页面装载js及性能分析方法介绍
2014/03/21 Javascript
什么是MEAN?JavaScript编程中的MEAN是什么意思?
2014/12/18 Javascript
jQuery.holdReady()方法用法实例
2014/12/27 Javascript
详谈jQuery操纵DOM元素属性 attr()和removeAtrr()方法
2015/01/22 Javascript
在父页面得到zTree已选中的节点的方法
2015/02/12 Javascript
jquery实现在网页指定区域显示自定义右键菜单效果
2015/08/25 Javascript
jquery判断输入密码两次是否相等
2020/04/22 Javascript
前端编码规范(3)JavaScript 开发规范
2017/01/21 Javascript
vue中页面跳转拦截器的实现方法
2017/08/23 Javascript
浅谈JavaScript find 方法不支持IE的问题
2017/09/28 Javascript
JavaScript中利用Array filter() 方法压缩稀疏数组
2018/02/24 Javascript
Vue 项目分环境打包的方法示例
2018/08/03 Javascript
javascript的delete运算符知识点总结
2019/11/19 Javascript
微信小程序canvas截取任意形状的实现代码
2020/01/13 Javascript
windows 10下安装搭建django1.10.3和Apache2.4的方法
2017/04/05 Python
python爬虫库scrapy简单使用实例详解
2020/02/10 Python
Win10环境中如何实现python2和python3并存
2020/07/20 Python
安装不同版本的tensorflow与models方法实现
2021/02/20 Python
CSS3制作圆角图片和椭圆形图片
2016/07/08 HTML / CSS
6号汽车旅馆预订:Motel 6
2018/02/11 全球购物
韩国流行时尚女装网站:Dintchina(中文)
2018/07/19 全球购物
Farfetch阿联酋:奢侈品牌时尚购物平台
2019/07/26 全球购物
几个Linux面试题笔试题
2016/08/01 面试题
市场营销策划方案
2014/06/11 职场文书
敬老月活动总结
2014/08/28 职场文书
运动会表扬稿
2015/01/16 职场文书
企业介绍信范文
2015/01/30 职场文书
详解Python小数据池和代码块缓存机制
2021/04/07 Python
只用40行Python代码就能写出pdf转word小工具
2021/05/31 Python
Redis字典实现、Hash键冲突及渐进式rehash详解
2021/09/04 Redis