Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
使用python编写批量卸载手机中安装的android应用脚本
Jul 21 Python
python操作sqlite的CRUD实例分析
May 08 Python
Scrapy-redis爬虫分布式爬取的分析和实现
Feb 07 Python
Python爬取网页中的图片(搜狗图片)详解
Mar 23 Python
浅谈Python用QQ邮箱发送邮件时授权码的问题
Jan 29 Python
全面分析Python的优点和缺点
Feb 07 Python
python 使用turtule绘制递归图形(螺旋、二叉树、谢尔宾斯基三角形)
May 30 Python
Python3安装psycopy2以及遇到问题解决方法
Jul 03 Python
Python 处理文件的几种方式
Aug 23 Python
python/Matplotlib绘制复变函数图像教程
Nov 21 Python
Python3和PyCharm安装与环境配置【图文教程】
Feb 14 Python
Python爬虫获取页面所有URL链接过程详解
Jun 04 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
php intval的测试代码发现问题
2008/07/27 PHP
php curl_init函数用法
2014/01/31 PHP
简明json介绍
2008/09/28 Javascript
JSON扫盲帖 JSON.as类教程
2009/02/16 Javascript
使用Mootools动态添加Css样式表代码,兼容各浏览器
2011/12/12 Javascript
jquery方法+js一般方法+js面向对象方法实现拖拽效果
2012/08/30 Javascript
Jquery 实现表格颜色交替变化鼠标移过颜色变化实例
2013/08/28 Javascript
jquery实现图片翻页效果
2013/12/23 Javascript
浅谈javascript 函数内部属性
2015/01/21 Javascript
javascript中数组方法汇总
2015/07/07 Javascript
使用BootStrap和Metroui设计的metro风格微网站或手机app界面
2016/10/21 Javascript
vue.js数据绑定的方法(单向、双向和一次性绑定)
2017/07/13 Javascript
JS库 Highlightjs 添加代码行号的实现代码
2017/09/13 Javascript
JavaScript实现简单的隐藏式侧边栏功能示例
2018/08/31 Javascript
layui中select,radio设置不生效的解决方法
2019/09/05 Javascript
KnockoutJS数组比较算法实例详解
2019/11/25 Javascript
node.js使用yargs处理命令行参数操作示例
2020/02/11 Javascript
javascript实现移动端红包雨页面
2020/06/23 Javascript
Openlayers3实现车辆轨迹回放功能
2020/09/29 Javascript
vue $router和$route的区别详解
2020/12/02 Vue.js
python修改操作系统时间的方法
2015/05/18 Python
python保存字符串到文件的方法
2015/07/01 Python
python学习教程之Numpy和Pandas的使用
2017/09/11 Python
python3处理含有中文的url方法
2018/05/10 Python
pthon贪吃蛇游戏详细代码
2019/01/27 Python
python的移位操作实现详解
2019/08/21 Python
python实现PCA降维的示例详解
2020/02/24 Python
企业统计员岗位职责
2013/12/13 职场文书
运动会通讯稿150字
2014/02/15 职场文书
社区安全生产月活动总结
2014/07/05 职场文书
超市采购员岗位职责
2015/04/07 职场文书
高中数学课堂教学反思
2016/02/18 职场文书
教你用Java Swing实现自助取款机系统
2021/06/11 Java/Android
Mysql数据库中datetime、bigint、timestamp来表示时间选择,谁来存储时间效率最高
2021/08/23 MySQL
解决Laravel使用验证时跳转到首页的问题
2021/11/17 PHP
win10如何快速切换窗口 win10切换窗口快捷键分享
2022/07/23 数码科技