Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
Python2.5/2.6实用教程 入门基础篇
Nov 29 Python
使用PYTHON接收多播数据的代码
Mar 01 Python
一篇文章入门Python生态系统(Python新手入门指导)
Dec 11 Python
Windows下的Jupyter Notebook 安装与自定义启动(图文详解)
Feb 21 Python
Python简单计算文件MD5值的方法示例
Apr 11 Python
python中的常量和变量代码详解
Jul 25 Python
pygame游戏之旅 添加碰撞效果的方法
Nov 20 Python
用python wxpy管理微信公众号并利用微信获取自己的开源数据
Jul 30 Python
给你一面国旗 教你用python画中国国旗
Sep 24 Python
Python中sys模块功能与用法实例详解
Feb 26 Python
python使用paramiko实现ssh的功能详解
Mar 06 Python
Python+redis通过限流保护高并发系统
Apr 15 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
网站当前的在线人数
2006/10/09 PHP
php 传值赋值与引用赋值的区别
2010/12/29 PHP
php中DOMElement操作xml文档实例演示
2013/03/26 PHP
PHP生成Gif图片验证码
2013/10/27 PHP
使用PHP备份MySQL和网站发送到邮箱实例代码
2013/11/28 PHP
php简单复制文件的方法
2016/05/09 PHP
php多进程中的阻塞与非阻塞操作实例分析
2020/03/04 PHP
JavaScript验证Email(3种方法)
2015/09/21 Javascript
Angular外部使用js调用Angular控制器中的函数方法或变量用法示例
2016/08/05 Javascript
AngularJS入门教程之AngularJS 模板
2016/08/18 Javascript
详解在Angularjs中ui-sref和$state.go如何传递参数
2017/04/24 Javascript
基于BootStrap multiselect.js实现的下拉框联动效果
2017/07/28 Javascript
9种改善AngularJS性能的方法
2017/11/28 Javascript
使用vuex存储用户信息到localStorage的实例
2019/11/11 Javascript
Vue如何使用混合Mixins和插件开发详解
2020/02/05 Javascript
python处理cookie详解
2014/02/07 Python
python多线程socket编程之多客户端接入
2017/09/12 Python
python实现随机漫步算法
2018/08/27 Python
python爬取基于m3u8协议的ts文件并合并
2019/04/26 Python
基于Tensorflow读取MNIST数据集时网络超时的解决方式
2020/06/22 Python
python实现跨年表白神器--你值得拥有
2021/01/04 Python
CSS3轻松实现圆角效果
2017/11/09 HTML / CSS
美国马匹用品和骑马配件购物网站:Horse.com
2018/01/08 全球购物
PHP面试题及答案二
2015/05/23 面试题
公关关系专员的自我评价分享
2013/11/20 职场文书
2014升学宴答谢词
2014/01/26 职场文书
利群广告词
2014/03/20 职场文书
交通事故赔偿协议书
2014/04/15 职场文书
医疗器械售后服务承诺书
2014/05/21 职场文书
2014优秀大学生简历自我评价
2014/09/15 职场文书
音乐教育专业自荐信
2014/09/18 职场文书
2014年安全员工作总结
2014/11/13 职场文书
2015年维修工作总结
2015/04/25 职场文书
简历自我评价范文
2019/04/24 职场文书
Spring Data JPA的Audit功能审计数据库的变更
2021/06/26 Java/Android
sql server偶发出现死锁的解决方法
2022/04/10 SQL Server