python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python获取Linux系统下的本机IP地址代码分享
Nov 07 Python
python实现从网络下载文件并获得文件大小及类型的方法
Apr 28 Python
用Python计算三角函数之acos()方法的使用
May 15 Python
python中如何正确使用正则表达式的详细模式(Verbose mode expression)
Nov 08 Python
Numpy掩码式数组详解
Apr 17 Python
《与孩子一起学编程》python自测题
May 27 Python
Python使用pylab库实现绘制直方图功能示例
Jun 01 Python
python 协程 gevent原理与用法分析
Nov 22 Python
解决pyqt5异常退出无提示信息的问题
Apr 08 Python
Python openpyxl 插入折线图实例
Apr 17 Python
最新pycharm安装教程
Nov 18 Python
Appium+Python实现简单的自动化登录测试的实现
Jan 26 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
PHP学习之整理字符串
2011/04/17 PHP
解析mysql left( right ) join使用on与where筛选的差异
2013/06/18 PHP
实例讲解如何在PHP的Yii框架中进行错误和异常处理
2016/03/17 PHP
laravel5.6实现数值转换
2019/10/23 PHP
用javascript实现分割提取页面所需内容
2007/05/09 Javascript
JS写的数字拼图小游戏代码[学习参考]
2008/10/29 Javascript
通过判断JavaScript的版本实现执行不同的代码
2010/05/11 Javascript
JS拖动技术 关于setCapture使用
2010/12/09 Javascript
js call方法详细介绍(js 的继承)
2013/11/18 Javascript
javascript实现在某个元素上阻止鼠标右键事件的方法和实例
2014/08/12 Javascript
javascript实现保留两位小数的多种方法
2015/12/18 Javascript
jQuery遍历DOM的父级元素、子级元素和同级元素的方法总结
2016/07/07 Javascript
Angularjs中使用轮播图指令swiper
2017/05/30 Javascript
Webpack如何引入bootstrap的方法
2017/06/17 Javascript
Gulp实现静态网页模块化的方法详解
2018/01/09 Javascript
Vuex 进阶之模块化组织详解
2018/01/12 Javascript
Angular使用过滤器uppercase/lowercase实现字母大小写转换功能示例
2018/03/27 Javascript
在Layui中操作数据表格,给指定单元格添加事件示例
2019/10/26 Javascript
JS如何操作DOM基于表格动态展示数据
2020/10/15 Javascript
工作中常用js功能汇总
2020/11/07 Javascript
如何在vue-cli中使用css-loader实现css module
2021/01/07 Vue.js
详解uniapp的全局变量实现方式
2021/01/11 Javascript
[12:51]71泪洒现场!是DOTA2让经典重现
2014/03/24 DOTA
在Python中使用成员运算符的示例
2015/05/13 Python
python GUI框架pyqt5 对图片进行流式布局的方法(瀑布流flowlayout)
2020/03/12 Python
python实现人机五子棋
2020/03/25 Python
python 判断一组数据是否符合正态分布
2020/09/23 Python
python 检测图片是否有马赛克
2020/12/01 Python
卖车协议书
2014/04/21 职场文书
世界读书日的活动方案
2014/08/20 职场文书
政法干警核心价值观心得体会
2014/09/11 职场文书
创新社会管理心得体会
2014/09/12 职场文书
教师群众路线剖析材料
2014/09/29 职场文书
英文辞职信范文
2015/05/13 职场文书
2016年毕业实习心得体会范文
2015/10/09 职场文书
redis实现排行榜功能
2021/05/24 Redis