python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python集合类型用法分析
Apr 08 Python
使用FastCGI部署Python的Django应用的教程
Jul 22 Python
Python文本相似性计算之编辑距离详解
Nov 28 Python
python中nan与inf转为特定数字方法示例
May 11 Python
Python 含参构造函数实例详解
May 25 Python
Python实现字符串与数组相互转换功能示例
Sep 22 Python
Python实现的绘制三维双螺旋线图形功能示例
Jun 23 Python
django之自定义软删除Model的方法
Aug 14 Python
Python操作redis和mongoDB的方法
Dec 19 Python
Python基于smtplib协议实现发送邮件
Jun 03 Python
python使用smtplib模块发送邮件
Dec 17 Python
Python如何加载模型并查看网络
Jul 15 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
PHP中文汉字验证码
2007/04/08 PHP
php下正则来匹配dede模板标签的代码
2010/08/21 PHP
jquery定时滑出可最小化的底部提示层特效代码
2013/10/02 Javascript
jQuery.parseJSON(json)将JSON字符串转换成js对象
2014/07/27 Javascript
js判断当页面无法回退时关闭网页否则就history.go(-1)
2014/08/07 Javascript
jQuery实现精美的多级下拉菜单特效
2015/03/14 Javascript
详解 javascript中offsetleft属性的用法
2015/11/11 Javascript
Bootstrap 响应式实用工具实例详解
2017/03/29 Javascript
Vue from-validate 表单验证的示例代码
2017/09/26 Javascript
Node.js的Koa实现JWT用户认证方法
2018/05/05 Javascript
node(koa2) web应用模块介绍详解
2019/03/29 Javascript
vue+elementUi图片上传组件使用详解
2019/08/20 Javascript
JavaScript在web自动化测试中的作用示例详解
2019/08/25 Javascript
聊聊Vue中provide/inject的应用详解
2019/11/10 Javascript
[01:10]为家乡而战!完美世界城市挑战赛全国总决赛花絮
2019/07/25 DOTA
python中的多重继承实例讲解
2014/09/28 Python
python过滤字符串中不属于指定集合中字符的类实例
2015/06/30 Python
浅析Python的web.py框架中url的设定方法
2016/07/11 Python
python使用PyCharm进行远程开发和调试
2017/11/02 Python
Python类的继承、多态及获取对象信息操作详解
2019/02/28 Python
python word转pdf代码实例
2019/08/16 Python
Python中itertools的用法详解
2020/02/07 Python
使用pycharm和pylint检查python代码规范操作
2020/06/09 Python
Python计算信息熵实例
2020/06/18 Python
Python lxml库的简单介绍及基本使用讲解
2020/12/22 Python
python UIAutomator2使用超详细教程
2021/02/19 Python
CSS3 制作绽放的莲花采用效果叠加实现
2013/01/31 HTML / CSS
师范应届生教师求职信
2013/11/05 职场文书
终止合同协议书
2014/04/17 职场文书
党员演讲稿
2014/09/04 职场文书
大学生预备党员自我评价
2015/03/04 职场文书
单位推荐信范文
2015/03/27 职场文书
考试没考好检讨书
2015/05/06 职场文书
禁毒主题班会教案
2015/08/14 职场文书
Python使用OpenCV实现虚拟缩放效果
2022/02/28 Python
微前端qiankun改造日渐庞大的项目教程
2022/06/21 Javascript