零基础写python爬虫之抓取百度贴吧代码分享


Posted in Python onNovember 06, 2014

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去!

# -*- coding: utf-8 -*-

#---------------------------------------

#   程序:百度贴吧爬虫

#   版本:0.1

#   作者:why

#   日期:2013-05-14

#   语言:Python 2.7

#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。

#   功能:下载对应页码内的所有页面并存储为html文件。

#---------------------------------------

import string, urllib2

#定义百度函数

def baidu_tieba(url,begin_page,end_page):   

    for i in range(begin_page, end_page+1):

        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名

        print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'

        f = open(sName,'w+')

        m = urllib2.urlopen(url + str(i)).read()

        f.write(m)

        f.close()

#-------- 在这里输入参数 ------------------

# 这个是山东大学的百度贴吧中某一个帖子的地址

#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin = 1

#iPostEnd = 10
bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))

begin_page = int(raw_input(u'请输入开始的页数:\n'))

end_page = int(raw_input(u'请输入终点的页数:\n'))

#-------- 在这里输入参数 ------------------

#调用

baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码,非常的实用吧,各位可以自行扩展下。

Python 相关文章推荐
Python文件操作类操作实例详解
Jul 11 Python
python清除字符串里非数字字符的方法
Jul 02 Python
从CentOS安装完成到生成词云python的实例
Dec 01 Python
Caffe均值文件mean.binaryproto转mean.npy的方法
Jul 09 Python
Python对HTML转义字符进行反转义的实现方法
Apr 28 Python
python 获取sqlite3数据库的表名和表字段名的实例
Jul 17 Python
python如何保证输入键入数字的方法
Aug 23 Python
简单了解django处理跨域请求最佳解决方案
Mar 25 Python
使用PyQt的QLabel组件实现选定目标框功能的方法示例
May 19 Python
python获得命令行输入的参数的两种方式
Nov 02 Python
在Python中实现字典反转案例
Dec 05 Python
Matlab使用Plot函数实现数据动态显示方法总结
Feb 25 Python
零基础写python爬虫之urllib2使用指南
Nov 05 #Python
零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers
Nov 05 #Python
零基础写python爬虫之HTTP异常处理
Nov 05 #Python
零基础写python爬虫之使用urllib2组件抓取网页内容
Nov 04 #Python
零基础写python爬虫之爬虫的定义及URL构成
Nov 04 #Python
使用Python编写简单网络爬虫抓取视频下载资源
Nov 04 #Python
Python爬取Coursera课程资源的详细过程
Nov 04 #Python
You might like
让你的网站首页自动选择语言转跳
2006/12/06 PHP
E路文章系统PHP
2006/12/11 PHP
使用PHP遍历文件夹与子目录的函数代码
2011/09/26 PHP
Could not load type System.ServiceModel.Activation.HttpModule解决办法
2012/12/29 PHP
深入php中var_dump方法的使用详解
2013/06/24 PHP
javascript基础语法学习笔记
2016/01/04 Javascript
js模糊查询实例分享
2016/12/26 Javascript
BootStrap Table后台分页时前台删除最后一页所有数据refresh刷新后无数据问题
2016/12/28 Javascript
js实现手机发送验证码功能
2017/03/13 Javascript
Easy UI动态树点击文字实现展开关闭功能
2017/09/30 Javascript
移动端网页开发调试神器Eruda的介绍与使用技巧
2017/10/30 Javascript
JS实现可视化文件上传
2018/09/08 Javascript
在Vuex使用dispatch和commit来调用mutations的区别详解
2018/09/18 Javascript
vue自定义全局共用函数详解
2018/09/18 Javascript
vue-cli 打包后提交到线上出现 "Uncaught SyntaxError:Unexpected token" 报错
2018/11/06 Javascript
vue动态添加路由addRoutes之不能将动态路由存入缓存的解决
2019/02/19 Javascript
详解Vue中使用Axios拦截器
2019/04/22 Javascript
javascript设计模式 ? 代理模式原理与用法实例分析
2020/04/16 Javascript
详解vue 组件
2020/06/11 Javascript
如何利用vue实现波谱拟合详解
2020/11/05 Javascript
设计模式中的原型模式在Python程序中的应用示例
2016/03/02 Python
Python实现将照片变成卡通图片的方法【基于opencv】
2018/01/17 Python
使用Python通过win32 COM打开Excel并添加Sheet的方法
2018/05/02 Python
Python实现修改IE注册表功能示例
2018/05/10 Python
在python中bool函数的取值方法
2018/11/01 Python
python json.loads兼容单引号数据的方法
2018/12/19 Python
工程造价管理专业大专生求职信
2013/10/06 职场文书
汽车专业人才自我鉴定范文
2013/12/29 职场文书
校园奶茶店创业计划书
2014/01/23 职场文书
集体婚礼策划方案
2014/02/22 职场文书
信息管理专业自荐书
2014/06/05 职场文书
四风对照检查材料思想汇报
2014/09/20 职场文书
2015年元旦标语大全
2014/12/09 职场文书
大明湖导游词
2015/02/03 职场文书
2019奶茶店创业计划书范本,值得你借鉴
2019/08/14 职场文书
python套接字socket通信
2022/04/01 Python