编程 Python

零基础写python爬虫之抓取百度贴吧代码分享

Posted in Python onNovember 06, 2014

这里就不给大家废话了，直接上代码，代码的解释都在注释里面，看不懂的也别来问我，好好学学基础知识去！

# -*- coding: utf-8 -*-

#---------------------------------------

#   程序：百度贴吧爬虫

#   版本：0.1

#   作者：why

#   日期：2013-05-14

#   语言：Python 2.7

#   操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。

#   功能：下载对应页码内的所有页面并存储为html文件。

#---------------------------------------

import string, urllib2

#定义百度函数

def baidu_tieba(url,begin_page,end_page):   

    for i in range(begin_page, end_page+1):

        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名

        print '正在下载第' + str(i) + '个网页，并将其存储为' + sName + '......'

        f = open(sName,'w+')

        m = urllib2.urlopen(url + str(i)).read()

        f.write(m)

        f.close()

#-------- 在这里输入参数 ------------------

# 这个是山东大学的百度贴吧中某一个帖子的地址

#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin = 1

#iPostEnd = 10
bdurl = str(raw_input(u'请输入贴吧的地址，去掉pn=后面的数字：\n'))

begin_page = int(raw_input(u'请输入开始的页数：\n'))

end_page = int(raw_input(u'请输入终点的页数：\n'))

#-------- 在这里输入参数 ------------------

#调用

baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码，非常的实用吧，各位可以自行扩展下。

- Author -

hebedich

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python格式化css文件的方法

Mar 10 Python

Python爬取读者并制作成PDF

Mar 10 Python

python实现端口转发器的方法

Mar 13 Python

python实现键盘控制鼠标移动

Nov 27 Python

通过PHP与Python代码对比的语法差异详解

Jul 10 Python

使用Python实现图像标记点的坐标输出功能

Aug 14 Python

在 Jupyter 中重新导入特定的 Python 文件(场景分析)

Oct 27 Python

解决pycharm debug时界面下方不出现step等按钮及变量值的问题

Jun 09 Python

Python优秀开源项目Rich源码解析的流程分析

Jul 06 Python

python将YUV420P文件转PNG图片格式的两种方法

Jan 22 Python

python实现发送邮件

Mar 02 Python

python 用递归实现通用爬虫解析器

Apr 16 Python

零基础写python爬虫之urllib2使用指南

Nov 05 #Python

零基础写python爬虫之urllib2中的两个重要概念：Openers和Handlers

Nov 05 #Python

零基础写python爬虫之HTTP异常处理

Nov 05 #Python

零基础写python爬虫之使用urllib2组件抓取网页内容

Nov 04 #Python

零基础写python爬虫之爬虫的定义及URL构成

Nov 04 #Python

使用Python编写简单网络爬虫抓取视频下载资源

Nov 04 #Python

Python爬取Coursera课程资源的详细过程

Nov 04 #Python

You might like

中篇：安装及配置PHP

2006/12/13 PHP

php使用glob函数快速查询指定目录文件的方法

2014/11/15 PHP

php实现计算百度地图坐标之间距离的方法

2016/05/05 PHP

云网广告中的代码，提示出错，大家找找

2006/11/21 Javascript

JS实现根据出生年月计算年龄

2014/01/10 Javascript

JavaScript function 的 length 属性使用介绍

2014/09/15 Javascript

jQuery实现带滚动线条导航效果的方法

2015/01/30 Javascript

jquery实现公告翻滚效果

2015/02/27 Javascript

跟我学习javascript的隐式强制转换

2015/11/16 Javascript

JavaScript中子对象访问父对象的方式详解

2016/09/01 Javascript

JavaScript简单下拉菜单特效

2016/09/13 Javascript

Jquery表单验证失败后不提交的解决方法

2016/10/18 Javascript

Vue异步加载about组件

2017/10/31 Javascript

Vue一次性简洁明了引入所有公共组件的方法

2018/11/28 Javascript

30分钟精通React今年最劲爆的新特性——React Hooks

2019/03/11 Javascript

微信小程序左右滚动公告栏效果代码实例

2019/09/16 Javascript

原生javascript如何实现共享onload事件

2020/07/03 Javascript

Python中的XML库4Suite Server的介绍

2015/04/14 Python

六个窍门助你提高Python运行效率

2015/06/09 Python

python实现根据主机名字获得所有ip地址的方法

2015/06/28 Python

python使用matplotlib模块绘制多条折线图、散点图

2020/04/26 Python

Django如何将URL映射到视图

2019/07/29 Python

使用NumPy读取MNIST数据的实现代码示例

2019/11/20 Python

Python zip函数打包元素实例解析

2019/12/11 Python

Pytorch Tensor 输出为txt和mat格式方式

2020/01/03 Python

Python面向对象特殊属性及方法解析

2020/09/16 Python

HTML5 客户端数据库简易使用:IndexedDB

2019/12/19 HTML / CSS

学生档案自我鉴定

2013/10/07 职场文书

小饰品店的创业计划书范文

2013/12/28 职场文书

致跳高运动员广播稿

2014/01/13 职场文书

个人委托书范本汇总

2014/10/01 职场文书

青年文明号申报材料

2014/12/23 职场文书

微软Win11有哪些隐藏功能? windows11多个功能汇总

2021/11/21 数码科技

Jpa Specification如何实现and和or同时使用查询

2021/11/23 Java/Android

详解python的异常捕获

2022/03/03 Python

python实现学生信息管理系统(面向对象)

2022/06/05 Python