零基础写python爬虫之抓取百度贴吧代码分享


Posted in Python onNovember 06, 2014

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去!

# -*- coding: utf-8 -*-

#---------------------------------------

#   程序:百度贴吧爬虫

#   版本:0.1

#   作者:why

#   日期:2013-05-14

#   语言:Python 2.7

#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。

#   功能:下载对应页码内的所有页面并存储为html文件。

#---------------------------------------

import string, urllib2

#定义百度函数

def baidu_tieba(url,begin_page,end_page):   

    for i in range(begin_page, end_page+1):

        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名

        print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'

        f = open(sName,'w+')

        m = urllib2.urlopen(url + str(i)).read()

        f.write(m)

        f.close()

#-------- 在这里输入参数 ------------------

# 这个是山东大学的百度贴吧中某一个帖子的地址

#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin = 1

#iPostEnd = 10
bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))

begin_page = int(raw_input(u'请输入开始的页数:\n'))

end_page = int(raw_input(u'请输入终点的页数:\n'))

#-------- 在这里输入参数 ------------------

#调用

baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码,非常的实用吧,各位可以自行扩展下。

Python 相关文章推荐
python logging类库使用例子
Nov 22 Python
使用优化器来提升Python程序的执行效率的教程
Apr 02 Python
Python中DJANGO简单测试实例
May 11 Python
基于python的七种经典排序算法(推荐)
Dec 08 Python
使用python编写udp协议的ping程序方法
Apr 22 Python
python3 小数位的四舍五入(用两种方法解决round 遇5不进)
Apr 11 Python
Python scipy的二维图像卷积运算与图像模糊处理操作示例
Sep 06 Python
Python3.7 基于 pycryptodome 的AES加密解密、RSA加密解密、加签验签
Dec 04 Python
Python发起请求提示UnicodeEncodeError错误代码解决方法
Apr 21 Python
Django用户登录与注册系统的实现示例
Jun 03 Python
简单了解python关键字global nonlocal区别
Sep 21 Python
Python还能这么玩之用Python做个小游戏的外挂
Jun 04 Python
零基础写python爬虫之urllib2使用指南
Nov 05 #Python
零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers
Nov 05 #Python
零基础写python爬虫之HTTP异常处理
Nov 05 #Python
零基础写python爬虫之使用urllib2组件抓取网页内容
Nov 04 #Python
零基础写python爬虫之爬虫的定义及URL构成
Nov 04 #Python
使用Python编写简单网络爬虫抓取视频下载资源
Nov 04 #Python
Python爬取Coursera课程资源的详细过程
Nov 04 #Python
You might like
在windows平台上构建自己的PHP实现方法(仅适用于php5.2)
2013/07/05 PHP
一个简洁实用的PHP缓存类完整实例
2014/07/26 PHP
thinkphp3.x自定义Action、Model及View的简单实现方法
2016/05/19 PHP
PHP接入微信H5支付的方法示例
2019/10/28 PHP
jquery 查找新建元素代码
2010/07/06 Javascript
javascript getElementsByTagName
2011/01/31 Javascript
js相册效果代码(点击创建即可)
2013/04/16 Javascript
jQuery动态地获取系统时间实现代码
2013/05/24 Javascript
javascript操作referer详细解析
2014/03/10 Javascript
js判断鼠标左、中、右键哪个被点击的方法
2015/01/27 Javascript
Backbone.js的一些使用技巧
2015/07/01 Javascript
怎么通过onclick事件获取js函数返回值(代码少)
2015/07/28 Javascript
angularjs 中$apply,$digest,$watch详解
2016/10/13 Javascript
node.JS md5加密中文与php结果不一致的解决方法
2017/05/05 Javascript
Node.js中 __dirname 的使用介绍
2017/06/19 Javascript
Vue2.0用户权限控制解决方案
2017/11/29 Javascript
JS中的两种数据类型及实现引用类型的深拷贝的方法
2018/08/12 Javascript
JavaScript显式数据类型转换详解
2019/03/18 Javascript
用原生 JS 实现 innerHTML 功能实例详解
2019/04/03 Javascript
Vue.js递归组件实现组织架构树和选人功能案例分析
2019/07/03 Javascript
深入了解JavaScript词法作用域
2020/07/29 Javascript
[00:56]2014DOTA2国际邀请赛 DK、iG 赛前探访
2014/07/10 DOTA
Pycharm远程调试openstack的方法
2017/11/21 Python
python批量获取html内body内容的实例
2019/01/02 Python
selenium跳过webdriver检测并模拟登录淘宝
2019/06/12 Python
利用scikitlearn画ROC曲线实例
2020/07/02 Python
美国传奇滑手Paul Rodriguez创办的街头滑板品牌:Primitive Skateboarding
2019/10/29 全球购物
必须要使用游标的SQL语句有那些
2012/05/07 面试题
linux面试题参考答案(10)
2013/11/04 面试题
毕业生求职的求职信
2013/12/05 职场文书
前台文员我鉴定
2014/01/12 职场文书
领导接待方案
2014/03/13 职场文书
公司股权转让协议书
2014/04/12 职场文书
放弃继承权公证书
2015/01/23 职场文书
雾霾停课通知
2015/04/24 职场文书
如何用RabbitMQ和Swoole实现一个异步任务系统
2021/05/29 PHP