编程 Python

Python编写百度贴吧的简单爬虫

Posted in Python onApril 02, 2015

操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数

功能：下载对应页码的所有页面并储存为HTML文件，以当前时间命名

代码：

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序：百度贴吧的小爬虫
#  日期：2015/03/28
#  语言：Python 2.7
#  操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数
#  功能：下载对应页码的所有页面并储存为HTML文件，以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页，并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了，希望能够对大家学习Python制作爬虫有所帮助。

Python编写百度贴吧的简单爬虫

- Author -

hebedich

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python模拟登录百度贴吧(百度贴吧登录)实例

Dec 18 Python

python使用urllib模块开发的多线程豆瓣小站mp3下载器

Jan 16 Python

Python多线程、异步＋多进程爬虫实现代码

Feb 17 Python

Python 获取当前所在目录的方法详解

Aug 02 Python

机器学习python实战之手写数字识别

Nov 01 Python

Python 类的私有属性和私有方法实例分析

Sep 29 Python

Spring实战之使用util:命名空间简化配置操作示例

Dec 09 Python

简单了解python filter、map、reduce的区别

Jan 14 Python

Python 实现网课实时监控自动签到、打卡功能

Mar 12 Python

python opencv进行图像拼接

Mar 27 Python

200行python代码实现贪吃蛇游戏

Apr 24 Python

Python如何执行系统命令

Sep 23 Python

用Python制作简单的钢琴程序的教程

Apr 01 #Python

仅利用30行Python代码来展示X算法

Apr 01 #Python

探究数组排序提升Python程序的循环的运行效率的原因

Apr 01 #Python

用Python编写分析Python程序性能的工具的教程

Apr 01 #Python

对Python新手编程过程中如何规避一些常见问题的建议

Apr 01 #Python

利用Django框架中select_related和prefetch_related函数对数据库查询优化

Apr 01 #Python

用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化

Apr 01 #Python

You might like

先进的自动咖啡技术，真的可以取代咖啡师吗？

2021/03/06 冲泡冲煮

php短域名转换为实际域名函数

2011/01/17 PHP

js wmp操作代码小结(音乐连播功能)

2008/11/08 Javascript

JS 密码强度验证(兼容IE,火狐,谷歌)

2010/03/15 Javascript

jQuery 位置函数offset,innerWidth,innerHeight,outerWidth,outerHeight,scrollTop,scrollLeft

2010/03/23 Javascript

用JavaScript实现动画效果的方法

2013/07/20 Javascript

html5 canvas js(数字时钟)实例代码

2013/12/23 Javascript

14款NodeJS Web框架推荐

2014/07/11 NodeJs

关于vue-router路径计算问题

2017/05/10 Javascript

基于JavaScript实现数码时钟效果

2020/03/30 Javascript

webpack4+Vue搭建自己的Vue-cli项目过程分享

2018/08/29 Javascript

微信小程序实现带缩略图轮播效果

2018/11/04 Javascript

Vue使用Canvas绘制图片、矩形、线条、文字，下载图片

2019/04/26 Javascript

layui table表格数据的新增,修改,删除,查询,双击获取行数据方式

2019/11/14 Javascript

[51:17]Mineski vs Secret 2019国际邀请赛淘汰赛败者组 BO3 第一场 8.22

2019/09/05 DOTA

python去除空格和换行符的实现方法(推荐)

2017/01/04 Python

python使用正则表达式替换匹配成功的组并输出替换的次数

2017/11/22 Python

不知道这5种下划线的含义,你就不算真的会Python！

2018/10/09 Python

python之yield和Generator深入解析

2019/09/18 Python

tensorflow 固定部分参数训练,只训练部分参数的实例

2020/01/20 Python

安装python3.7编译器后如何正确安装opnecv的方法详解

2020/06/16 Python

Python爬虫之Selenium警告框(弹窗)处理

2020/12/04 Python

python实现启动一个外部程序,并且不阻塞当前进程

2020/12/05 Python

Python抖音快手代码舞(字符舞)的实现方法

2021/02/07 Python

利用SVG和CSS3来实现一个炫酷的边框动画

2015/07/22 HTML / CSS

ktv收银员岗位职责

2013/12/16 职场文书

自我鉴定电子商务专业

2014/01/30 职场文书

班班通项目实施方案

2014/02/25 职场文书

财务管理职业生涯规划书

2014/02/26 职场文书

医学求职自荐信

2014/06/21 职场文书

初中生旷课检讨书范文

2014/10/06 职场文书

应届生求职自荐信范文

2015/03/04 职场文书

力克胡哲观后感

2015/06/10 职场文书

居安思危观后感

2015/06/11 职场文书

2015年“我们的节日·中秋节”活动总结

2015/07/30 职场文书

基于CSS制作创意端午节专属加载特效

2022/06/01 HTML / CSS