Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
使用Python的Treq on Twisted来进行HTTP压力测试
Apr 16 Python
使用Python设置tmpfs来加速项目的教程
Apr 17 Python
python测试mysql写入性能完整实例
Jan 18 Python
浅谈python日志的配置文件路径问题
Apr 28 Python
Python文件如何引入?详解引入Python文件步骤
Dec 10 Python
Python日志无延迟实时写入的示例
Jul 11 Python
python中dict使用方法详解
Jul 17 Python
Python 中 -m 的典型用法、原理解析与发展演变
Nov 11 Python
Python3 Tkinkter + SQLite实现登录和注册界面
Nov 19 Python
python 遗传算法求函数极值的实现代码
Feb 11 Python
Pycharm中import torch报错的快速解决方法
Mar 05 Python
基于Django快速集成Echarts代码示例
Dec 01 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
PHP的一个完整SMTP类(解决邮件服务器需要验证时的问题)
2006/10/09 PHP
PHP中函数内引用全局变量的方法
2008/10/20 PHP
Linux下将excel数据导入到mssql数据库中的方法
2010/02/08 PHP
比较简单实用的PHP无限分类源码分享(思路不错)
2011/10/13 PHP
php获取301跳转URL简单实例
2013/12/16 PHP
ThinkPHP水印功能实现修复PNG透明水印并增加JPEG图片质量可调整
2014/11/05 PHP
微信公众号开发之语音消息识别php代码
2016/08/08 PHP
php中访问修饰符的知识点总结
2019/01/27 PHP
JQery jstree 大数据量问题解决方法
2010/03/09 Javascript
Android中资源文件(非代码部分)的使用概览
2012/12/18 Javascript
js利用数组length属性清空和截短数组的小例子
2014/01/15 Javascript
使用AngularJS中的SCE来防止XSS攻击的方法
2015/06/18 Javascript
JQuery validate 验证一个单独的表单元素实例
2017/02/17 Javascript
JavaScript中的工厂函数(推荐)
2017/03/08 Javascript
js中编码函数:escape,encodeURI与encodeURIComponent详解
2017/03/21 Javascript
require.js中的define函数详解
2017/07/10 Javascript
vue中计算属性(computed)、methods和watched之间的区别
2017/07/27 Javascript
React如何将组件渲染到指定DOM节点详解
2017/09/08 Javascript
微信小程序学习笔记之文件上传、下载操作图文详解
2019/03/29 Javascript
layui数据表格实现重载数据表格功能(搜索功能)
2019/07/27 Javascript
vue自定义指令实现仅支持输入数字和浮点型的示例
2019/10/30 Javascript
antd form表单数据回显操作
2020/11/02 Javascript
Python使用itchat模块实现群聊转发,自动回复功能示例
2019/08/26 Python
利用keras加载训练好的.H5文件,并实现预测图片
2020/01/24 Python
Python利用FFT进行简单滤波的实现
2020/02/26 Python
详解用Pytest+Allure生成漂亮的HTML图形化测试报告
2020/03/31 Python
python 从list中随机取值的方法
2020/11/16 Python
用纯css3和html制作泡沫对话框实现代码
2013/03/21 HTML / CSS
印度购买眼镜和太阳镜网站:Coolwinks
2018/09/26 全球购物
《桃林那间小木屋》教学反思
2014/05/01 职场文书
2014离婚协议书范文两篇
2014/09/15 职场文书
加强作风建设心得体会
2014/10/22 职场文书
课外活动实习计划
2015/01/19 职场文书
Python实战之实现康威生命游戏
2021/04/26 Python
详解Python牛顿插值法
2021/05/11 Python
vue项目中的支付功能实现(微信支付和支付宝支付)
2022/02/18 Vue.js