零基础写python爬虫之抓取百度贴吧代码分享


Posted in Python onNovember 06, 2014

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去!

# -*- coding: utf-8 -*-

#---------------------------------------

#   程序:百度贴吧爬虫

#   版本:0.1

#   作者:why

#   日期:2013-05-14

#   语言:Python 2.7

#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。

#   功能:下载对应页码内的所有页面并存储为html文件。

#---------------------------------------

import string, urllib2

#定义百度函数

def baidu_tieba(url,begin_page,end_page):   

    for i in range(begin_page, end_page+1):

        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名

        print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'

        f = open(sName,'w+')

        m = urllib2.urlopen(url + str(i)).read()

        f.write(m)

        f.close()

#-------- 在这里输入参数 ------------------

# 这个是山东大学的百度贴吧中某一个帖子的地址

#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin = 1

#iPostEnd = 10
bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))

begin_page = int(raw_input(u'请输入开始的页数:\n'))

end_page = int(raw_input(u'请输入终点的页数:\n'))

#-------- 在这里输入参数 ------------------

#调用

baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码,非常的实用吧,各位可以自行扩展下。

Python 相关文章推荐
Python中实现字符串类型与字典类型相互转换的方法
Aug 18 Python
Python实现的tab文件操作类分享
Nov 20 Python
进一步探究Python的装饰器的运用
May 05 Python
Python3.6正式版新特性预览
Dec 15 Python
Python基于Matplotlib库简单绘制折线图的方法示例
Aug 14 Python
学习python中matplotlib绘图设置坐标轴刻度、文本
Feb 07 Python
Python中的上下文管理器和with语句的使用
Apr 17 Python
Python实现的多进程和多线程功能示例
May 29 Python
理想高通滤波实现Python opencv示例
Jan 30 Python
python画图的函数用法以及技巧
Jun 28 Python
Python使用matplotlib绘制三维参数曲线操作示例
Sep 10 Python
python学习笔记之多进程
Aug 06 Python
零基础写python爬虫之urllib2使用指南
Nov 05 #Python
零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers
Nov 05 #Python
零基础写python爬虫之HTTP异常处理
Nov 05 #Python
零基础写python爬虫之使用urllib2组件抓取网页内容
Nov 04 #Python
零基础写python爬虫之爬虫的定义及URL构成
Nov 04 #Python
使用Python编写简单网络爬虫抓取视频下载资源
Nov 04 #Python
Python爬取Coursera课程资源的详细过程
Nov 04 #Python
You might like
用PHP制作静态网站的模板框架(三)
2006/10/09 PHP
php 时间计算问题小结
2009/01/04 PHP
不重新编译PHP为php增加openssl模块的方法
2011/06/14 PHP
PHP安全防范技巧分享
2011/11/03 PHP
php实现求相对时间函数
2015/06/15 PHP
Yii中的relations数据关联查询及统计功能用法详解
2016/07/14 PHP
ubutu 16.04环境下,PHP与mysql数据库,网页登录验证实例讲解
2017/07/20 PHP
PHP时间函数使用详解
2019/03/21 PHP
js png图片(有含有透明)在IE6中为什么不透明了
2010/02/07 Javascript
Safari5中alert的无限循环BUG
2011/04/07 Javascript
JavaScript入门之对象与JSON详解
2011/10/21 Javascript
addEventListener()第三个参数useCapture (Boolean)详细解析
2013/11/07 Javascript
js实现iframe跨页面调用函数的方法
2014/12/13 Javascript
js读取csv文件并使用json显示出来
2015/01/09 Javascript
Css3制作变形与动画效果
2015/07/24 Javascript
基于javascript制作微信聊天面板
2020/08/09 Javascript
JS读写CSS样式的方法汇总
2016/08/16 Javascript
Bootstrap select多选下拉框实现代码
2016/12/23 Javascript
Angular ui.bootstrap.pagination分页
2017/01/20 Javascript
NodeJs下的测试框架Mocha的简单介绍
2017/02/22 NodeJs
浅谈Express异步进化史
2017/09/09 Javascript
nodejs 如何手动实现服务器
2018/08/20 NodeJs
Python利用pyHook实现监听用户鼠标与键盘事件
2014/08/21 Python
python递归打印某个目录的内容(实例讲解)
2017/08/30 Python
python读取Excel实例详解
2018/08/17 Python
python调用c++传递数组的实例
2019/02/13 Python
基于Python中的yield表达式介绍
2019/11/19 Python
Python内置加密模块用法解析
2019/11/25 Python
解决python 找不到module的问题
2020/02/12 Python
python脚本定时发送邮件
2020/12/22 Python
深入理解HTML5定时器requestAnimationFrame的使用
2018/12/12 HTML / CSS
Aeropostale官网:美国著名校园品牌及青少年服饰品牌
2019/03/21 全球购物
小学生美德少年事迹
2014/02/02 职场文书
《桥》教学反思
2014/04/09 职场文书
Redis命令处理过程源码解析
2022/02/12 Redis
Vue的过滤器你真了解吗
2022/02/24 Vue.js