Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
python集合用法实例分析
May 30 Python
Python数据分析之如何利用pandas查询数据示例代码
Sep 01 Python
Python+matplotlib+numpy实现在不同平面的二维条形图
Jan 02 Python
解决python3中解压zip文件是文件名乱码的问题
Mar 22 Python
Python基于百度AI的文字识别的示例
Apr 21 Python
用python简单实现mysql数据同步到ElasticSearch的教程
May 30 Python
10 分钟快速入门 Python3的教程
Jan 29 Python
基于PyQt4和PySide实现输入对话框效果
Feb 27 Python
python使用pandas处理excel文件转为csv文件的方法示例
Jul 18 Python
tensor和numpy的互相转换的实现示例
Aug 02 Python
在python中使用pyspark读写Hive数据操作
Jun 06 Python
ubuntu16.04升级Python3.5到Python3.7的方法步骤
Aug 20 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
受疫情影响 动画《Re从零开始的异世界生活》第二季延期至7月
2020/03/10 日漫
Terran剧情介绍
2020/03/14 星际争霸
Windows7下的php环境配置教程
2015/02/28 PHP
PHP自动识别当前使用移动终端
2018/05/21 PHP
jquery一句话全选/取消全选
2011/03/01 Javascript
解决jquery异步按一定的时间间隔刷新问题
2012/12/10 Javascript
基于jQuery的图片不完全按比例自动缩小
2014/07/11 Javascript
jQuery实现在最后一个元素之前插入新元素的方法
2015/07/18 Javascript
JS实现浏览器状态栏文字闪烁效果的方法
2015/10/27 Javascript
JS实现把鼠标放到链接上出现滚动文字的方法
2016/04/06 Javascript
使用RequireJS库加载JavaScript模块的实例教程
2016/06/06 Javascript
基于jQuery实现淡入淡出效果轮播图
2020/07/31 Javascript
js实现横向拖拽导航条功能
2017/02/17 Javascript
js移动端图片压缩上传功能
2020/08/18 Javascript
浅谈node的事件机制
2017/10/09 Javascript
JS判断字符串是否为整数的方法--简单的正则判断
2018/07/23 Javascript
Angular2之二级路由详解
2018/08/31 Javascript
Nodejs实现的操作MongoDB数据库功能完整示例
2019/02/02 NodeJs
nodejs实现用户登录路由功能
2019/05/22 NodeJs
使用konva和vue-konva库实现拖拽滑块验证功能
2020/04/27 Javascript
[01:11:11]Alliance vs RNG 2019国际邀请赛淘汰赛 败者组BO1 8.20.mp4
2020/07/19 DOTA
python下调用pytesseract识别某网站验证码的实现方法
2016/06/06 Python
Python处理JSON数据并生成条形图
2016/08/05 Python
详解python之多进程和进程池(Processing库)
2017/06/09 Python
用python写扫雷游戏实例代码分享
2018/05/27 Python
Python用于学习重要算法的模块pygorithm实例浅析
2018/08/16 Python
Python设计模式之享元模式原理与用法实例分析
2019/01/11 Python
win10下python2和python3共存问题解决方法
2019/12/23 Python
Python3 读取Word文件方式
2020/02/13 Python
Python应用实现处理excel数据过程解析
2020/06/19 Python
简单的命令查看安装的python版本号
2020/08/28 Python
通过一张图教会你CSS3倒影的实现
2017/09/26 HTML / CSS
日本即尚网:JSHOPPERS.com(支持中文)
2019/12/03 全球购物
Spartoo美国:欧洲排名第一的在线时装零售商
2019/12/12 全球购物
2014年前台个人工作总结
2014/11/14 职场文书
pt-archiver 主键自增
2022/04/26 MySQL