零基础写python爬虫之抓取百度贴吧代码分享


Posted in Python onNovember 06, 2014

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去!

# -*- coding: utf-8 -*-

#---------------------------------------

#   程序:百度贴吧爬虫

#   版本:0.1

#   作者:why

#   日期:2013-05-14

#   语言:Python 2.7

#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。

#   功能:下载对应页码内的所有页面并存储为html文件。

#---------------------------------------

import string, urllib2

#定义百度函数

def baidu_tieba(url,begin_page,end_page):   

    for i in range(begin_page, end_page+1):

        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名

        print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'

        f = open(sName,'w+')

        m = urllib2.urlopen(url + str(i)).read()

        f.write(m)

        f.close()

#-------- 在这里输入参数 ------------------

# 这个是山东大学的百度贴吧中某一个帖子的地址

#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin = 1

#iPostEnd = 10
bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))

begin_page = int(raw_input(u'请输入开始的页数:\n'))

end_page = int(raw_input(u'请输入终点的页数:\n'))

#-------- 在这里输入参数 ------------------

#调用

baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码,非常的实用吧,各位可以自行扩展下。

Python 相关文章推荐
Python多线程编程(八):使用Event实现线程间通信
Apr 05 Python
python使用range函数计算一组数和的方法
May 07 Python
Pandas:Series和DataFrame删除指定轴上数据的方法
Nov 10 Python
Python虚拟环境的原理及使用详解
Jul 02 Python
python简单实现矩阵的乘,加,转置和逆运算示例
Jul 10 Python
Django 过滤器汇总及自定义过滤器使用详解
Jul 19 Python
python GUI库图形界面开发之PyQt5动态(可拖动控件大小)布局控件QSplitter详细使用方法与实例
Mar 06 Python
Python Django form 组件动态从数据库取choices数据实例
May 19 Python
解决Keras 自定义层时遇到版本的问题
Jun 16 Python
在Pytorch中使用Mask R-CNN进行实例分割操作
Jun 24 Python
pytorch中F.avg_pool1d()和F.avg_pool2d()的使用操作
May 22 Python
Python 使用 Frame tkraise() 方法在 Tkinter 应用程序中的Frame之间切换
Apr 24 Python
零基础写python爬虫之urllib2使用指南
Nov 05 #Python
零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers
Nov 05 #Python
零基础写python爬虫之HTTP异常处理
Nov 05 #Python
零基础写python爬虫之使用urllib2组件抓取网页内容
Nov 04 #Python
零基础写python爬虫之爬虫的定义及URL构成
Nov 04 #Python
使用Python编写简单网络爬虫抓取视频下载资源
Nov 04 #Python
Python爬取Coursera课程资源的详细过程
Nov 04 #Python
You might like
PHP面向对象概念
2011/11/06 PHP
用Php编写注册后Email激活验证的实例代码
2013/03/11 PHP
PHP文件上传问题汇总(文件大小检测、大文件上传处理)
2015/12/24 PHP
php微信支付接口开发程序
2016/08/02 PHP
定位地理位置PHP判断员工打卡签到经纬度是否在打卡之内
2019/05/23 PHP
JavaScript中的事件处理
2008/01/16 Javascript
JS简单实现文件上传实例代码(无需插件)
2013/11/15 Javascript
以JSON形式将JS中Array对象数组传至后台的方法
2014/01/06 Javascript
浅析nodejs实现Websocket的数据接收与发送
2015/11/19 NodeJs
js实现继承的5种方式
2015/12/01 Javascript
理解JS事件循环
2016/01/07 Javascript
基于JavaScript实现瀑布流效果(循环渐近)
2016/01/27 Javascript
javascript中JSON.parse()与eval()解析json的区别
2016/05/19 Javascript
结合代码图文讲解JavaScript中的作用域与作用域链
2016/07/05 Javascript
Backbone View 之间通信的三种方式
2016/08/09 Javascript
Js查找字符串中出现次数最多的字符及个数实例解析
2016/09/05 Javascript
JavaScript多线程运行库Nexus.js详解
2017/12/22 Javascript
Vue2.0中集成UEditor富文本编辑器的方法
2018/03/03 Javascript
详解Bootstrap 学习(一)入门
2019/04/12 Javascript
解决vue项目中页面调用数据 在数据加载完毕之前出现undefined问题
2019/11/14 Javascript
js blob类型url的视频下载问题的解决
2019/11/29 Javascript
ES2020 已定稿,真实场景案例分析
2020/05/25 Javascript
原生JavaScript实现购物车
2021/01/10 Javascript
python内置函数:lambda、map、filter简单介绍
2017/11/16 Python
Python Paramiko模块的使用实际案例
2018/02/01 Python
解决Tensorflow使用pip安装后没有model目录的问题
2018/06/13 Python
python numpy和list查询其中某个数的个数及定位方法
2018/06/27 Python
详解django的serializer序列化model几种方法
2018/10/16 Python
对pandas将dataframe中某列按照条件赋值的实例讲解
2018/11/29 Python
Python pandas实现excel工作表合并功能详解
2019/08/29 Python
老海军美国官网:Old Navy
2016/09/05 全球购物
总经理文秘岗位职责
2014/02/03 职场文书
企业法人授权委托书
2014/04/03 职场文书
英语通知范文
2015/04/22 职场文书
2015教师个人德育工作总结
2015/07/22 职场文书
大学生活委员竞选稿
2015/11/21 职场文书