零基础写python爬虫之抓取百度贴吧代码分享


Posted in Python onNovember 06, 2014

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去!

# -*- coding: utf-8 -*-

#---------------------------------------

#   程序:百度贴吧爬虫

#   版本:0.1

#   作者:why

#   日期:2013-05-14

#   语言:Python 2.7

#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。

#   功能:下载对应页码内的所有页面并存储为html文件。

#---------------------------------------

import string, urllib2

#定义百度函数

def baidu_tieba(url,begin_page,end_page):   

    for i in range(begin_page, end_page+1):

        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名

        print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'

        f = open(sName,'w+')

        m = urllib2.urlopen(url + str(i)).read()

        f.write(m)

        f.close()

#-------- 在这里输入参数 ------------------

# 这个是山东大学的百度贴吧中某一个帖子的地址

#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin = 1

#iPostEnd = 10
bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))

begin_page = int(raw_input(u'请输入开始的页数:\n'))

end_page = int(raw_input(u'请输入终点的页数:\n'))

#-------- 在这里输入参数 ------------------

#调用

baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码,非常的实用吧,各位可以自行扩展下。

Python 相关文章推荐
Python  连接字符串(join %)
Sep 06 Python
17个Python小技巧分享
Jan 23 Python
JSONLINT:python的json数据验证库实例解析
Nov 28 Python
Python中join函数简单代码示例
Jan 09 Python
详解python中的线程
Feb 10 Python
浅述python中深浅拷贝原理
Sep 18 Python
Django中间件基础用法详解
Jul 18 Python
CentOS7下安装python3.6.8的教程详解
Jan 03 Python
python如何实现单链表的反转
Feb 10 Python
Python常用数字处理基本操作汇总
Sep 10 Python
python 利用toapi库自动生成api
Oct 19 Python
Python 的 sum() Pythonic 的求和方法详细
Oct 16 Python
零基础写python爬虫之urllib2使用指南
Nov 05 #Python
零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers
Nov 05 #Python
零基础写python爬虫之HTTP异常处理
Nov 05 #Python
零基础写python爬虫之使用urllib2组件抓取网页内容
Nov 04 #Python
零基础写python爬虫之爬虫的定义及URL构成
Nov 04 #Python
使用Python编写简单网络爬虫抓取视频下载资源
Nov 04 #Python
Python爬取Coursera课程资源的详细过程
Nov 04 #Python
You might like
phpexcel导出excel的颜色和网页中的颜色显示不一致
2012/12/11 PHP
php使用array_rand()函数从数组中随机选择一个或多个元素
2014/04/28 PHP
详解php中反射的应用
2016/03/15 PHP
javascript中对对层的控制
2006/12/29 Javascript
javascript 面向对象编程 万物皆对象
2009/09/17 Javascript
js字符串操作方法实例分析
2015/05/06 Javascript
javascript中eval解析JSON字符串
2016/02/27 Javascript
jQuery Mobile开发中日期插件Mobiscroll使用说明
2016/03/02 Javascript
使用jQuery中的wrap()函数操作HTML元素的教程
2016/05/24 Javascript
基于jQuery插件jqzoom实现的图片放大镜效果示例
2017/01/23 Javascript
Java与JavaScript中判断两字符串是否相等的区别
2017/03/13 Javascript
angular.JS实现网页禁用调试、复制和剪切
2017/03/31 Javascript
浅谈React的最大亮点之虚拟DOM
2018/05/29 Javascript
vue+iview 实现可编辑表格的示例代码
2018/10/31 Javascript
实用的Vue开发技巧
2019/05/30 Javascript
js单线程的本质 Event Loop解析
2019/10/29 Javascript
node crawler如何添加promise支持
2020/02/01 Javascript
vue项目中使用bpmn-自定义platter的示例代码
2020/05/11 Javascript
JavaScript React如何修改默认端口号方法详解
2020/07/28 Javascript
nodejs中内置模块fs,path常见的用法说明
2020/11/07 NodeJs
pandas把所有大于0的数设置为1的方法
2019/01/26 Python
解决django接口无法通过ip进行访问的问题
2020/03/27 Python
无惧面试,带你搞懂python 装饰器
2020/08/17 Python
Python unittest如何生成HTMLTestRunner模块
2020/09/08 Python
台湾团购、宅配和优惠券:17Life
2017/08/14 全球购物
美国高级工作服品牌:Carhartt
2018/01/25 全球购物
捷克厨房用品购物网站:Tescoma
2018/07/13 全球购物
优秀员工推荐信
2014/05/10 职场文书
法制宣传标语
2014/06/23 职场文书
美术专业自荐信
2014/07/07 职场文书
党员创先争优心得体会
2014/09/11 职场文书
四风问题自我剖析材料
2014/10/07 职场文书
教师党员自我评议不足范文
2014/10/19 职场文书
服务承诺书
2015/01/19 职场文书
锦旗赠语
2015/06/23 职场文书
公司岗位说明书
2015/10/08 职场文书