python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
在Python中操作列表之List.pop()方法的使用
May 21 Python
python开发之for循环操作实例详解
Nov 12 Python
Python实现PS滤镜Fish lens图像扭曲效果示例
Jan 29 Python
Python基于Flask框架配置依赖包信息的项目迁移部署
Mar 02 Python
Python基于FTP模块实现ftp文件上传操作示例
Apr 23 Python
Python构建图像分类识别器的方法
Jan 12 Python
python实现大文件分割与合并
Jul 22 Python
Python检查图片是否损坏及图片类型是否正确过程详解
Sep 30 Python
深入浅析Python科学计算库Scipy及安装步骤
Oct 12 Python
Python Selenium库的基本使用教程
Jan 04 Python
Python多线程实用方法以及共享变量资源竞争问题
Apr 12 Python
python中 .npy文件的读写操作实例
Apr 14 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
PHP递归返回值时出现的问题解决办法
2013/02/19 PHP
JS俄罗斯方块,包含完整的设计理念
2010/12/11 Javascript
javascript写的简单的计算器,内容很多,方法实用,推荐
2011/12/29 Javascript
js 编码转换 gb2312 和 utf8 互转的2种方法
2013/08/07 Javascript
Javascript自定义函数判断网站访问类型是PC还是移动终端
2014/01/10 Javascript
escape函数解决js中ajax传递中文出现乱码问题
2014/10/30 Javascript
JS继承用法实例分析
2015/02/05 Javascript
javascript动态设置样式style实例分析
2015/05/13 Javascript
Bootstrap 组件之按钮(二)
2016/05/11 Javascript
javascript表单事件处理方法详解
2016/05/15 Javascript
js定义类的几种方法(推荐)
2016/06/08 Javascript
利用node实现一个批量重命名文件的函数
2017/12/21 Javascript
p5.js入门教程之小球动画示例代码
2018/03/15 Javascript
微信小程序自定义底部弹出框
2020/11/16 Javascript
element-ui 文件上传修改文件名的方法示例
2019/11/05 Javascript
Vue解决echart在element的tab切换时显示不正确问题
2020/08/03 Javascript
[00:37]2016完美“圣”典风云人物:rOtk宣传片
2016/12/09 DOTA
python3.5使用tkinter制作记事本
2016/06/20 Python
Python 模拟购物车的实例讲解
2017/09/11 Python
python实现画一颗树和一片森林
2018/06/25 Python
python实现时间o(1)的最小栈的实例代码
2018/07/23 Python
Python Series从0开始索引的方法
2018/11/06 Python
将python文件打包成EXE应用程序的方法
2019/05/22 Python
python爬虫之爬取百度音乐的实现方法
2019/08/24 Python
Python集合基本概念与相关操作实例分析
2019/10/30 Python
使用 Python 遍历目录树的方法
2020/02/29 Python
CSS+jQuery+PHP+MySQL实现的在线答题功能
2015/04/25 HTML / CSS
CSS3制作漂亮的照片墙的实现代码
2016/06/08 HTML / CSS
社区优秀志愿者先进事迹
2014/05/09 职场文书
课程设计的心得体会
2014/09/03 职场文书
光棍节联谊晚会活动策划书
2014/10/10 职场文书
爸爸的三轮车观后感
2015/06/16 职场文书
优秀党员先进事迹材料2016
2016/02/29 职场文书
优秀大学生申请书
2019/06/24 职场文书
Python实现天气查询软件
2021/06/07 Python
将MySQL的表数据全量导入clichhouse库中
2022/03/21 MySQL