Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
Python学习笔记(二)基础语法
Jun 06 Python
Python读取ini文件、操作mysql、发送邮件实例
Jan 01 Python
python中使用正则表达式的后向搜索肯定模式(推荐)
Nov 11 Python
Python之多线程爬虫抓取网页图片的示例代码
Jan 10 Python
Python中的单行、多行、中文注释方法
Jul 19 Python
Windows下python3.7安装教程
Jul 31 Python
Python2和Python3中urllib库中urlencode的使用注意事项
Nov 26 Python
OpenCV HSV颜色识别及HSV基本颜色分量范围
Mar 22 Python
Python模块、包(Package)概念与用法分析
May 31 Python
Pytorch to(device)用法
Jan 08 Python
TensorFlow获取加载模型中的全部张量名称代码
Feb 11 Python
解决Tensorboard可视化错误:不显示数据 No scalar data was found
Feb 15 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
source.php查看源文件
2006/12/09 PHP
Thinkphp模板标签if和eq的区别和比较实例分析
2015/07/01 PHP
PHP const定义常量及global定义全局常量实例解析
2020/05/28 PHP
js调用flash的效果代码
2008/04/26 Javascript
js预载入和JavaScript Image()对象使用介绍
2011/08/28 Javascript
jQuery 瀑布流 绝对定位布局(二)(延迟AJAX加载图片)
2012/05/23 Javascript
简体中文转换繁体中文(实现代码)
2013/12/25 Javascript
js动态调用css属性的小规律及实例说明
2013/12/28 Javascript
jquery 通过name快速取值示例
2014/01/24 Javascript
使用jquery操作session方法分享
2015/01/22 Javascript
JS实现在网页中弹出一个输入框的方法
2015/03/03 Javascript
JQuery EasyUI Layout 在from布局自适应窗口大小的实现方法
2016/05/28 Javascript
bootstrap基础知识学习笔记
2016/11/02 Javascript
网站发布后Bootstrap框架引用woff字体无法正常显示的解决方法
2016/11/24 Javascript
js每隔两秒输出数组中的一项(实例)
2017/05/28 Javascript
canvas+gif.js打造自己的数字雨头像的示例代码
2017/10/26 Javascript
对vue 键盘回车事件的实例讲解
2018/08/25 Javascript
vue vant Area组件使用详解
2019/12/09 Javascript
Vue的Eslint配置文件eslintrc.js说明与规则介绍
2020/02/03 Javascript
vue-router为激活的路由设置样式操作
2020/07/18 Javascript
vue穿梭框实现上下移动
2021/01/29 Vue.js
Python的加密模块md5、sha、crypt使用实例
2014/09/28 Python
python实现动态创建类的方法分析
2019/06/25 Python
python中使用while循环的实例
2019/08/05 Python
英国游戏机和游戏购物网站:365games.co.uk
2018/06/18 全球购物
主管职责范文
2013/11/09 职场文书
怎么写有吸引力的自荐信
2013/11/17 职场文书
家居饰品店创业计划书
2014/01/31 职场文书
行政主管职责范本
2014/03/07 职场文书
《晚上的太阳》教学反思
2014/04/23 职场文书
庆祝新中国成立65周年“向国旗敬礼”网上签名寄语
2014/09/27 职场文书
乡镇党员群众路线教育实践活动对照检查材料思想汇报
2014/10/05 职场文书
2014乡镇领导班子四风对照检查材料思想汇报
2014/10/05 职场文书
英语复习计划
2015/01/19 职场文书
护士个人年终总结
2015/02/13 职场文书
小学英语听课心得体会
2016/01/14 职场文书