python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python常规方法实现数组的全排列
Mar 17 Python
Python的Bottle框架中实现最基本的get和post的方法的教程
Apr 30 Python
Python设计模式之抽象工厂模式
Aug 25 Python
python中Switch/Case实现的示例代码
Nov 09 Python
磁盘垃圾文件清理器python代码实现
Aug 24 Python
python多行字符串拼接使用小括号的方法
Mar 19 Python
Django contenttypes 框架详解(小结)
Aug 13 Python
pandas求两个表格不相交的集合方法
Dec 08 Python
python保存字典和读取字典的实例代码
Jul 07 Python
Python turtle绘画象棋棋盘
Aug 21 Python
python循环输出三角形图案的例子
Nov 22 Python
Python Merge函数原理及用法解析
Sep 16 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
在线竞拍系统的PHP实现框架(二)
2006/10/09 PHP
PHP 各种排序算法实现代码
2009/08/20 PHP
PHP数据过滤的方法
2013/10/30 PHP
yii实现CheckBox复选框在同一行显示的方法
2014/12/03 PHP
实例解析php的数据类型
2018/10/24 PHP
thinkPHP3.2使用RBAC实现权限管理的实现
2019/08/27 PHP
PHP实现批量修改文件名的方法示例
2019/09/18 PHP
用javascript实现计算两个日期的间隔天数
2007/08/14 Javascript
ExtJS 简介 让你知道extjs是什么
2008/12/29 Javascript
jQuery 注意事项 与原因分析
2009/04/24 Javascript
jquery 获取自定义属性(attr和prop)的实现代码
2012/06/27 Javascript
jQuery添加/改变/移除CSS类及判断是否已经存在CSS
2014/08/20 Javascript
js+html5实现canvas绘制镂空字体文本的方法
2015/06/05 Javascript
Javascript仿京东放大镜的效果
2017/03/01 Javascript
react.js 获取真实的DOM节点实例(必看)
2017/04/17 Javascript
基于Vue2的独立构建与运行时构建的差别(详解)
2017/12/06 Javascript
解决VUE框架 导致绑定事件的阻止冒泡失效问题
2018/02/24 Javascript
React+Webpack快速上手指南(小结)
2018/08/15 Javascript
微信小程序实现定位及到指定位置导航的示例代码
2019/08/20 Javascript
js实现转动骰子模型
2019/10/24 Javascript
js实现时间日期校验
2020/05/26 Javascript
python使用递归解决全排列数字示例
2014/02/11 Python
python网络编程之TCP通信实例和socketserver框架使用例子
2014/04/25 Python
Python中的特殊语法:filter、map、reduce、lambda介绍
2015/04/14 Python
Python实现telnet服务器的方法
2015/07/10 Python
python实现k-means聚类算法
2018/02/23 Python
简单了解python单例模式的几种写法
2019/07/01 Python
基于python3 的百度图片下载器的实现代码
2019/11/05 Python
手把手教你进行Python虚拟环境配置教程
2020/02/03 Python
python装饰器代码深入讲解
2021/03/01 Python
加拿大健康、婴儿和美容产品在线购物:Well.ca
2016/11/30 全球购物
澳大利亚旅游网站:Lastminute
2017/08/07 全球购物
保安岗位职责
2014/02/21 职场文书
2014离婚协议书范文两篇
2014/09/15 职场文书
局机关干部群众路线个人对照检查材料思想汇报
2014/10/05 职场文书
关爱空巢老人感想
2015/08/11 职场文书