零基础写python爬虫之抓取百度贴吧代码分享


Posted in Python onNovember 06, 2014

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去!

# -*- coding: utf-8 -*-

#---------------------------------------

#   程序:百度贴吧爬虫

#   版本:0.1

#   作者:why

#   日期:2013-05-14

#   语言:Python 2.7

#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。

#   功能:下载对应页码内的所有页面并存储为html文件。

#---------------------------------------

import string, urllib2

#定义百度函数

def baidu_tieba(url,begin_page,end_page):   

    for i in range(begin_page, end_page+1):

        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名

        print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'

        f = open(sName,'w+')

        m = urllib2.urlopen(url + str(i)).read()

        f.write(m)

        f.close()

#-------- 在这里输入参数 ------------------

# 这个是山东大学的百度贴吧中某一个帖子的地址

#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin = 1

#iPostEnd = 10
bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))

begin_page = int(raw_input(u'请输入开始的页数:\n'))

end_page = int(raw_input(u'请输入终点的页数:\n'))

#-------- 在这里输入参数 ------------------

#调用

baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码,非常的实用吧,各位可以自行扩展下。

Python 相关文章推荐
python根据距离和时长计算配速示例
Feb 16 Python
python实现用于测试网站访问速率的方法
May 26 Python
举例讲解Python面向对象编程中类的继承
Jun 17 Python
python中子类继承父类的__init__方法实例
Dec 15 Python
python实现淘宝秒杀聚划算抢购自动提醒源码
Jun 23 Python
python实现蒙特卡罗方法教程
Jan 28 Python
python实现抽奖小程序
Apr 15 Python
python机器学习库scikit-learn:SVR的基本应用
Jun 26 Python
Python全栈之列表数据类型详解
Oct 01 Python
Python文件操作函数用法实例详解
Dec 24 Python
一劳永逸彻底解决pip install慢的办法
May 24 Python
python绘制云雨图raincloud plot
Aug 05 Python
零基础写python爬虫之urllib2使用指南
Nov 05 #Python
零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers
Nov 05 #Python
零基础写python爬虫之HTTP异常处理
Nov 05 #Python
零基础写python爬虫之使用urllib2组件抓取网页内容
Nov 04 #Python
零基础写python爬虫之爬虫的定义及URL构成
Nov 04 #Python
使用Python编写简单网络爬虫抓取视频下载资源
Nov 04 #Python
Python爬取Coursera课程资源的详细过程
Nov 04 #Python
You might like
使用Linux五年积累的一些经验技巧
2013/06/20 PHP
php中array_fill函数的实例用法
2021/03/02 PHP
jQuery 性能优化手册 推荐
2010/02/23 Javascript
IE不支持getElementsByClassName最终完美解决方案
2012/12/17 Javascript
javascript使用switch case实现动态改变超级链接文字及地址
2014/12/16 Javascript
js实现照片墙功能实例
2015/02/05 Javascript
JavaScript表格常用操作方法汇总
2015/04/15 Javascript
jQuery CSS3自定义美化Checkbox实现代码
2016/05/12 Javascript
RequireJS简易绘图程序开发
2016/10/28 Javascript
Bootstrap3 datetimepicker控件使用实例
2016/12/13 Javascript
JS实现隔行换色的表格排序
2017/03/27 Javascript
微信小程序 引入es6 promise
2017/04/12 Javascript
vue中的面包屑导航组件实例代码
2019/07/01 Javascript
微信小程序实现写入读取缓存详解
2019/08/30 Javascript
Vue select 绑定动态变量的实例讲解
2020/10/22 Javascript
在react项目中使用antd的form组件,动态设置input框的值
2020/10/24 Javascript
Vue 简单实现前端权限控制的示例
2020/12/25 Vue.js
Python的Flask框架中配置多个子域名的方法讲解
2016/06/07 Python
基于Django框架利用Ajax实现点赞功能实例代码
2018/08/19 Python
如何基于python操作excel并获取内容
2019/12/24 Python
Python安装whl文件过程图解
2020/02/18 Python
k-means 聚类算法与Python实现代码
2020/06/01 Python
Pycharm2020.1安装中文语言插件的详细教程(不需要汉化)
2020/08/07 Python
使用pandas读取表格数据并进行单行数据拼接的详细教程
2021/03/03 Python
HTML5 Notification(桌面提醒)功能使用实例
2014/03/17 HTML / CSS
美国LOGO设计公司:The Logo Company
2018/07/16 全球购物
澳大利亚运动鞋商店:Platypus Shoes
2019/09/27 全球购物
高校毕业生自我鉴定
2013/10/27 职场文书
大一学生的职业生涯规划书范文
2014/01/19 职场文书
青年志愿者事迹材料
2014/02/07 职场文书
大学生社会实践评语
2014/04/25 职场文书
教师自我剖析材料(群众路线)
2014/09/29 职场文书
经济纠纷起诉状
2015/05/20 职场文书
5行Python代码实现一键批量扣图
2021/06/29 Python
关于k8s环境部署mysql主从的问题
2022/03/13 MySQL
pytorch分类模型绘制混淆矩阵以及可视化详解
2022/04/07 Python