零基础写python爬虫之抓取百度贴吧代码分享


Posted in Python onNovember 06, 2014

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去!

# -*- coding: utf-8 -*-

#---------------------------------------

#   程序:百度贴吧爬虫

#   版本:0.1

#   作者:why

#   日期:2013-05-14

#   语言:Python 2.7

#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。

#   功能:下载对应页码内的所有页面并存储为html文件。

#---------------------------------------

import string, urllib2

#定义百度函数

def baidu_tieba(url,begin_page,end_page):   

    for i in range(begin_page, end_page+1):

        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名

        print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'

        f = open(sName,'w+')

        m = urllib2.urlopen(url + str(i)).read()

        f.write(m)

        f.close()

#-------- 在这里输入参数 ------------------

# 这个是山东大学的百度贴吧中某一个帖子的地址

#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin = 1

#iPostEnd = 10
bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))

begin_page = int(raw_input(u'请输入开始的页数:\n'))

end_page = int(raw_input(u'请输入终点的页数:\n'))

#-------- 在这里输入参数 ------------------

#调用

baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码,非常的实用吧,各位可以自行扩展下。

Python 相关文章推荐
Python格式化css文件的方法
Mar 10 Python
Python爬取读者并制作成PDF
Mar 10 Python
python实现端口转发器的方法
Mar 13 Python
python实现键盘控制鼠标移动
Nov 27 Python
通过PHP与Python代码对比的语法差异详解
Jul 10 Python
使用Python实现图像标记点的坐标输出功能
Aug 14 Python
在 Jupyter 中重新导入特定的 Python 文件(场景分析)
Oct 27 Python
解决pycharm debug时界面下方不出现step等按钮及变量值的问题
Jun 09 Python
Python优秀开源项目Rich源码解析的流程分析
Jul 06 Python
python将YUV420P文件转PNG图片格式的两种方法
Jan 22 Python
python实现发送邮件
Mar 02 Python
python 用递归实现通用爬虫解析器
Apr 16 Python
零基础写python爬虫之urllib2使用指南
Nov 05 #Python
零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers
Nov 05 #Python
零基础写python爬虫之HTTP异常处理
Nov 05 #Python
零基础写python爬虫之使用urllib2组件抓取网页内容
Nov 04 #Python
零基础写python爬虫之爬虫的定义及URL构成
Nov 04 #Python
使用Python编写简单网络爬虫抓取视频下载资源
Nov 04 #Python
Python爬取Coursera课程资源的详细过程
Nov 04 #Python
You might like
中篇:安装及配置PHP
2006/12/13 PHP
php使用glob函数快速查询指定目录文件的方法
2014/11/15 PHP
php实现计算百度地图坐标之间距离的方法
2016/05/05 PHP
云网广告中的代码,提示出错,大家找找
2006/11/21 Javascript
JS实现根据出生年月计算年龄
2014/01/10 Javascript
JavaScript function 的 length 属性使用介绍
2014/09/15 Javascript
jQuery实现带滚动线条导航效果的方法
2015/01/30 Javascript
jquery实现公告翻滚效果
2015/02/27 Javascript
跟我学习javascript的隐式强制转换
2015/11/16 Javascript
JavaScript中子对象访问父对象的方式详解
2016/09/01 Javascript
JavaScript简单下拉菜单特效
2016/09/13 Javascript
Jquery表单验证失败后不提交的解决方法
2016/10/18 Javascript
Vue异步加载about组件
2017/10/31 Javascript
Vue一次性简洁明了引入所有公共组件的方法
2018/11/28 Javascript
30分钟精通React今年最劲爆的新特性——React Hooks
2019/03/11 Javascript
微信小程序左右滚动公告栏效果代码实例
2019/09/16 Javascript
原生javascript如何实现共享onload事件
2020/07/03 Javascript
Python中的XML库4Suite Server的介绍
2015/04/14 Python
六个窍门助你提高Python运行效率
2015/06/09 Python
python实现根据主机名字获得所有ip地址的方法
2015/06/28 Python
python使用matplotlib模块绘制多条折线图、散点图
2020/04/26 Python
Django如何将URL映射到视图
2019/07/29 Python
使用NumPy读取MNIST数据的实现代码示例
2019/11/20 Python
Python zip函数打包元素实例解析
2019/12/11 Python
Pytorch Tensor 输出为txt和mat格式方式
2020/01/03 Python
Python面向对象特殊属性及方法解析
2020/09/16 Python
HTML5 客户端数据库简易使用:IndexedDB
2019/12/19 HTML / CSS
学生档案自我鉴定
2013/10/07 职场文书
小饰品店的创业计划书范文
2013/12/28 职场文书
致跳高运动员广播稿
2014/01/13 职场文书
个人委托书范本汇总
2014/10/01 职场文书
青年文明号申报材料
2014/12/23 职场文书
微软Win11有哪些隐藏功能? windows11多个功能汇总
2021/11/21 数码科技
Jpa Specification如何实现and和or同时使用查询
2021/11/23 Java/Android
详解python的异常捕获
2022/03/03 Python
python实现学生信息管理系统(面向对象)
2022/06/05 Python