Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
python协程用法实例分析
Jun 04 Python
python 简单照相机调用系统摄像头实现方法 pygame
Aug 03 Python
Django中数据库的数据关系:一对一,一对多,多对多
Oct 21 Python
python的concat等多种用法详解
Nov 28 Python
浅析python3字符串格式化format()函数的简单用法
Dec 07 Python
python给微信好友定时推送消息的示例
Feb 20 Python
Python的pygame安装教程详解
Feb 10 Python
python实现飞船游戏的纵向移动
Apr 24 Python
Python logging模块进行封装实现原理解析
Aug 07 Python
Python暴力破解Mysql数据的示例
Nov 09 Python
使用tensorflow 实现反向传播求导
May 26 Python
Python Flask请求扩展与中间件相关知识总结
Jun 11 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
PHP根据传入参数合并多个JS和CSS文件的简单实现
2014/06/13 PHP
64位windows系统下安装Memcache缓存
2015/12/06 PHP
PHP基于堆栈实现的高级计算器功能示例
2017/09/15 PHP
php实现websocket实时消息推送
2018/03/30 PHP
laravel 实现根据字段不同值做不同查询
2019/10/23 PHP
EXT中xtype的含义分析
2010/01/07 Javascript
JS中eval函数的使用示例
2013/07/21 Javascript
jQuery Mobile 导航栏代码
2013/11/01 Javascript
cookie的复制与使用记住用户名实现代码
2013/11/04 Javascript
js重写alert控件(适合学习js的新手朋友)
2014/08/24 Javascript
一个不错的js html页面倒计时可精确到秒
2014/10/22 Javascript
javascript实现仿IE顶部的可关闭警告条
2015/05/05 Javascript
JS或jQuery获取ASP.NET服务器控件ID的方法
2015/06/08 Javascript
详解node child_process模块学习笔记
2018/01/24 Javascript
详解jQuery设置内容和属性
2019/04/11 jQuery
说说Vuex的getters属性的具体用法
2019/04/15 Javascript
vue接入腾讯防水墙代码
2019/05/07 Javascript
[57:38]2018DOTA2亚洲邀请赛3月30日 小组赛A组 OpTic VS OG
2018/03/31 DOTA
python检测远程服务器tcp端口的方法
2015/03/14 Python
python实现unicode转中文及转换默认编码的方法
2017/04/29 Python
用Pygal绘制直方图代码示例
2017/12/07 Python
微信跳一跳游戏python脚本
2020/04/01 Python
朴素贝叶斯分类算法原理与Python实现与使用方法案例
2018/06/26 Python
详解python使用pip安装第三方库(工具包)速度慢、超时、失败的解决方案
2018/12/02 Python
python:接口间数据传递与调用方法
2018/12/17 Python
对Pycharm创建py文件时自定义头部模板的方法详解
2019/02/12 Python
python logging模块的使用总结
2019/07/09 Python
Python 日期与时间转换的方法
2020/08/01 Python
Python爬取网页信息的示例
2020/09/24 Python
TOWER London官网:鞋子、靴子、运动鞋等
2019/07/14 全球购物
万豪国际住宅与别墅集团:Homes & Villas by Marriott International
2020/10/08 全球购物
如何开发一个JQuery插件
2016/07/28 面试题
村党支部群众路线教育实践活动对照检查材料
2014/09/26 职场文书
2015应届毕业生自荐信范文
2015/03/05 职场文书
python代码实现扫码关注公众号登录的实战
2021/11/01 Python
Win11 Build 22000.829更新补丁KB5015882发布(附更新修复内容汇总)
2022/07/15 数码科技