Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
linux系统使用python获取内存使用信息脚本分享
Jan 15 Python
Python库urllib与urllib2主要区别分析
Jul 13 Python
python从sqlite读取并显示数据的方法
May 08 Python
Python 中Pickle库的使用详解
Feb 24 Python
python重试装饰器的简单实现方法
Jan 31 Python
24式加速你的Python(小结)
Jun 13 Python
python并发编程多进程 模拟抢票实现过程
Aug 20 Python
python2与python3爬虫中get与post对比解析
Sep 18 Python
Selenium自动化测试工具使用方法汇总
Jun 12 Python
Python基于内置函数type创建新类型
Oct 22 Python
pycharm 实现复制一行的快捷键
Jan 15 Python
详解Python requests模块
Jun 21 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
ubuntu12.04使用c编写php扩展模块教程分享
2013/12/25 PHP
PHP内核探索:变量概述
2014/01/30 PHP
PHP实现多关键字加亮功能
2016/10/21 PHP
php中的抽象方法和抽象类
2017/02/14 PHP
php 生成加密公钥加密私钥实例详解
2017/06/16 PHP
jQuery插件原来如此简单 jQuery插件的机制及实战
2012/02/07 Javascript
js简单网速测试方法完整实例
2015/12/15 Javascript
AngularJS中的Directive自定义一个表格
2016/01/25 Javascript
JavaScript 是什么意思
2016/09/22 Javascript
js 数据存储和DOM编程
2017/02/09 Javascript
jQuery事件与动画基础详解
2017/02/23 Javascript
Javascript 一些需要注意的细节(必看篇)
2017/07/08 Javascript
基于layui table返回的值的多级嵌套的解决方法
2019/09/19 Javascript
JavaScript中数组去重的5种方法
2020/07/04 Javascript
Vue自动构建发布脚本的方法示例
2020/07/24 Javascript
[20:21]《一刀刀一天》第十六期:TI国际邀请赛正式打响,总奖金超过550万
2014/05/23 DOTA
Python中设置变量访问权限的方法
2015/04/27 Python
python 将对象设置为可迭代的两种实现方法
2019/01/21 Python
使用python绘制cdf的多种实现方法
2020/02/25 Python
Softmax函数原理及Python实现过程解析
2020/05/22 Python
Python爬虫过程解析之多线程获取小米应用商店数据
2020/11/14 Python
详解用 python-docx 创建浮动图片
2021/01/24 Python
CSS3 透明色 RGBA使用介绍
2013/08/06 HTML / CSS
巴西网上药房:onofre
2016/11/21 全球购物
工商管理专业实习大学生自我鉴定
2013/09/19 职场文书
大学学年自我鉴定
2013/10/28 职场文书
中专生自我鉴定范文
2014/02/02 职场文书
医院标语大全
2014/06/23 职场文书
2014年转正工作总结
2014/11/08 职场文书
2014年小学教导处工作总结
2014/12/19 职场文书
三下乡个人总结
2015/03/04 职场文书
2014年终个人总结报告
2015/03/09 职场文书
2015年暑期社会实践总结
2015/07/13 职场文书
导游词之大雁塔景区
2019/09/17 职场文书
浅谈mysql返回Boolean类型的几种情况
2021/06/04 MySQL
Django中session进行权限管理的使用
2021/07/09 Python