python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python链接Oracle数据库的方法
Jun 28 Python
Python基于分析Ajax请求实现抓取今日头条街拍图集功能示例
Jul 19 Python
Python中shapefile转换geojson的示例
Jan 03 Python
python实现植物大战僵尸游戏实例代码
Jun 10 Python
对DJango视图(views)和模版(templates)的使用详解
Jul 17 Python
Django认证系统实现的web页面实现代码
Aug 12 Python
学Python 3的理由和必要性
Nov 19 Python
基于python中__add__函数的用法
Nov 25 Python
python实现局域网内实时通信代码
Dec 22 Python
python MultipartEncoder传输zip文件实例
Apr 07 Python
如何在python中处理配置文件代码实例
Sep 27 Python
Django利用AJAX技术实现博文实时搜索
May 06 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
PHP实现的登录页面信息提示功能示例
2017/07/24 PHP
PHP面向对象五大原则之开放-封闭原则(OCP)详解
2018/04/04 PHP
繁简字转换功能
2006/07/19 Javascript
javascript prototype,executing,context,closure
2008/12/24 Javascript
js 图片缩放(按比例)控制代码
2009/05/27 Javascript
JavaScript 申明函数的三种方法 每个函数就是一个对象(一)
2009/12/04 Javascript
juqery 学习之三 选择器 子元素与表单
2010/11/25 Javascript
js中字符替换函数String.replace()使用技巧
2011/08/14 Javascript
基于jquery &amp; json的省市区联动代码
2012/06/26 Javascript
获取数组中最大最小值方法js代码(自写)
2013/08/12 Javascript
JavaScript中的字符串操作详解
2013/11/12 Javascript
jquery 页眉单行信息滚动显示实现思路及代码
2014/06/26 Javascript
jQuery 1.9.1源码分析系列(十)事件系统之主动触发事件和模拟冒泡处理
2015/11/24 Javascript
微信小程序之购物车功能
2020/09/23 Javascript
JS高级技巧(简洁版)
2018/07/29 Javascript
layui实现文件或图片上传记录
2018/08/28 Javascript
快速解决Vue项目在IE浏览器中显示空白的问题
2018/09/04 Javascript
ckeditor一键排版功能实现方法分析
2020/02/06 Javascript
利用Vue实现简易播放器的完整代码
2020/12/30 Vue.js
用Python制作在地图上模拟瘟疫扩散的Gif图
2015/03/31 Python
python opencv之SURF算法示例
2018/02/24 Python
Python 按字典dict的键排序,并取出相应的键值放于list中的实例
2019/02/12 Python
python 多进程共享全局变量之Manager()详解
2019/08/15 Python
浅谈opencv自动光学检测、目标分割和检测(连通区域和findContours)
2020/06/04 Python
python em算法的实现
2020/10/03 Python
python中pyqtgraph知识点总结
2021/01/26 Python
基于Modernizr 让网站进行优雅降级的分析
2013/04/21 HTML / CSS
中国海淘族值得信赖的海淘返利网站:55海淘
2017/01/16 全球购物
2014年大班元旦活动方案
2014/02/26 职场文书
幼儿园儿童节活动主持词+串词大全
2014/03/21 职场文书
小学生家长寄语
2014/04/02 职场文书
青安岗事迹材料
2014/05/14 职场文书
法律意见书范文
2015/05/20 职场文书
会计岗位工作总结
2015/08/12 职场文书
反邪教学习心得体会
2016/01/15 职场文书
2016年第十九届推普周活动总结
2016/04/06 职场文书