零基础写python爬虫之抓取百度贴吧代码分享


Posted in Python onNovember 06, 2014

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去!

# -*- coding: utf-8 -*-

#---------------------------------------

#   程序:百度贴吧爬虫

#   版本:0.1

#   作者:why

#   日期:2013-05-14

#   语言:Python 2.7

#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。

#   功能:下载对应页码内的所有页面并存储为html文件。

#---------------------------------------

import string, urllib2

#定义百度函数

def baidu_tieba(url,begin_page,end_page):   

    for i in range(begin_page, end_page+1):

        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名

        print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'

        f = open(sName,'w+')

        m = urllib2.urlopen(url + str(i)).read()

        f.write(m)

        f.close()

#-------- 在这里输入参数 ------------------

# 这个是山东大学的百度贴吧中某一个帖子的地址

#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin = 1

#iPostEnd = 10
bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))

begin_page = int(raw_input(u'请输入开始的页数:\n'))

end_page = int(raw_input(u'请输入终点的页数:\n'))

#-------- 在这里输入参数 ------------------

#调用

baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码,非常的实用吧,各位可以自行扩展下。

Python 相关文章推荐
Python自定义scrapy中间模块避免重复采集的方法
Apr 07 Python
Python的多态性实例分析
Jul 07 Python
Python字符串特性及常用字符串方法的简单笔记
Jan 04 Python
实现python版本的按任意键继续/退出
Sep 26 Python
Python3 中文文件读写方法
Jan 23 Python
Python面向对象类继承和组合实例分析
May 28 Python
django+echart绘制曲线图的方法示例
Nov 26 Python
Python3.6+Django2.0以上 xadmin站点的配置和使用教程图解
Jun 04 Python
python项目对接钉钉SDK的实现
Jul 15 Python
Python 日志logging模块用法简单示例
Oct 18 Python
利用PyQt中的QThread类实现多线程
Feb 18 Python
Python利用socket模块开发简单的端口扫描工具的实现
Jan 27 Python
零基础写python爬虫之urllib2使用指南
Nov 05 #Python
零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers
Nov 05 #Python
零基础写python爬虫之HTTP异常处理
Nov 05 #Python
零基础写python爬虫之使用urllib2组件抓取网页内容
Nov 04 #Python
零基础写python爬虫之爬虫的定义及URL构成
Nov 04 #Python
使用Python编写简单网络爬虫抓取视频下载资源
Nov 04 #Python
Python爬取Coursera课程资源的详细过程
Nov 04 #Python
You might like
第十二节 类的自动加载 [12]
2006/10/09 PHP
yepnope.js 异步加载资源文件
2011/09/08 Javascript
用jQuery中的ajax分页实现代码
2011/09/20 Javascript
jquery获取自定义属性(attr和prop)实例介绍
2013/04/21 Javascript
jquery attr方法获取input的checked属性问题
2014/05/26 Javascript
jQuery中prev()方法用法实例
2015/01/08 Javascript
Underscore.js常用方法总结
2015/02/28 Javascript
JAVA Web实时消息后台服务器推送技术---GoEasy
2016/11/04 Javascript
微信小程序 开发经验整理
2017/02/15 Javascript
jquery 手势密码插件
2017/03/17 Javascript
怎么使用javascript深度拷贝一个数组
2019/06/06 Javascript
JavaScript如何判断input数据类型
2020/02/06 Javascript
详解钉钉小程序组件之自定义模态框(弹窗封装实现)
2020/03/07 Javascript
vue 内联样式style中的background用法说明
2020/08/05 Javascript
Vue实现计算器计算效果
2020/08/17 Javascript
python del()函数用法
2013/03/24 Python
Python中装饰器的一个妙用
2015/02/08 Python
Python3读取UTF-8文件及统计文件行数的方法
2015/05/22 Python
python3设计模式之简单工厂模式
2017/10/17 Python
python爬虫之快速对js内容进行破解
2019/07/09 Python
python matplotlib折线图样式实现过程
2019/11/04 Python
解决Python import docx出错DLL load failed的问题
2020/02/13 Python
Python查找不限层级Json数据中某个key或者value的路径方式
2020/02/27 Python
Python中私有属性的定义方式
2020/03/05 Python
Melijoe时尚童装德国官网:Melijoe德国
2016/09/03 全球购物
美国鲜花递送:UrbanStems
2021/01/04 全球购物
Delphi软件工程师试题
2013/01/29 面试题
机械设计专业应届生求职信
2013/11/21 职场文书
石油工程专业毕业生求职信
2014/04/13 职场文书
《真想变成大大的荷叶》教学反思
2014/04/14 职场文书
文化产业实施方案
2014/06/07 职场文书
党的群众路线教育实践活动心得体会(教师)
2014/10/31 职场文书
大学生个人简历自荐信
2015/03/06 职场文书
2015年度女工工作总结
2015/10/22 职场文书
Django drf请求模块源码解析
2021/06/08 Python
部分武汉产收音机展览
2022/04/07 无线电