Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
tornado捕获和处理404错误的方法
Feb 26 Python
python3使用requests模块爬取页面内容的实战演练
Sep 25 Python
python实现TF-IDF算法解析
Jan 02 Python
python人民币小写转大写辅助工具
Jun 20 Python
在pycharm中python切换解释器失败的解决方法
Oct 29 Python
使用python批量读取word文档并整理关键信息到excel表格的实例
Nov 07 Python
利用Python+阿里云实现DDNS动态域名解析的方法
Apr 01 Python
基于python的socket实现单机五子棋到双人对战
Mar 24 Python
详解Python二维数组与三维数组切片的方法
Jul 18 Python
pycharm通过ssh连接远程服务器教程
Feb 12 Python
Python基于requests库爬取网站信息
Mar 02 Python
使用pandas模块实现数据的标准化操作
May 14 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
Syphon 秘笈
2021/03/03 冲泡冲煮
php mssql 时间格式问题
2009/01/13 PHP
PHP 字符串编码截取函数(兼容utf-8和gb2312)
2009/05/02 PHP
PHP中实现汉字转区位码应用源码实例解析
2010/06/14 PHP
为IP查询添加GOOGLE地图功能的代码
2010/08/08 PHP
Laravel 5框架学习之向视图传送数据
2015/04/08 PHP
php使用get_class_methods()函数获取分类的方法
2016/07/20 PHP
JavaScript 异步调用框架 (Part 3 - 代码实现)
2009/08/04 Javascript
javascript appendChild,innerHTML,join性能比较代码
2009/08/29 Javascript
Firefox+FireBug使JQuery的学习更加轻松愉快
2010/01/01 Javascript
jQuery实现原理的模拟代码 -6 代码下载
2010/08/16 Javascript
菜鸟javascript基础整理1
2010/12/06 Javascript
jQuery对Select的操作大集合(收藏)
2013/12/28 Javascript
window.location.reload 刷新使用分析(去对话框)
2015/11/11 Javascript
使用vue.js开发时一些注意事项
2016/04/27 Javascript
删除table表格行的实例讲解
2017/09/21 Javascript
详解使用React全家桶搭建一个后台管理系统
2017/11/04 Javascript
vue实现密码显示隐藏切换功能
2018/02/23 Javascript
jQuery实现基本淡入淡出效果的方法详解
2018/09/05 jQuery
详解Python中 __get__和__getattr__和__getattribute__的区别
2016/06/16 Python
HTML中使用python屏蔽一些基本功能的方法
2017/07/07 Python
Python向Excel中插入图片的简单实现方法
2018/04/24 Python
python+mysql实现教务管理系统
2019/02/20 Python
详解pandas绘制矩阵散点图(scatter_matrix)的方法
2020/04/23 Python
如何配置关联Python 解释器 Anaconda的教程(图解)
2020/04/30 Python
amaze ui 的使用详细教程
2020/08/19 HTML / CSS
好药师网上药店:安全合法的网上药品零售药房
2017/02/15 全球购物
萨克斯第五大道精品百货店: Saks Fifth Avenue
2017/04/28 全球购物
到底Java是如何传递参数的?是by value或by reference?
2012/07/13 面试题
村委会贫困证明
2014/01/14 职场文书
先进事迹报告会感言
2014/01/24 职场文书
全国道德模范事迹
2014/02/01 职场文书
《风娃娃》教学反思
2014/04/19 职场文书
教师调动申请报告
2015/05/18 职场文书
2016新年致辞
2015/08/01 职场文书
初中语文教师研修日志
2015/11/13 职场文书