python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python远程登录代码
Apr 29 Python
Python Paramiko模块的安装与使用详解
Nov 18 Python
Python初学时购物车程序练习实例(推荐)
Aug 08 Python
Python学习笔记之if语句的使用示例
Oct 23 Python
python实现K最近邻算法
Jan 29 Python
python爬虫中get和post方法介绍以及cookie作用
Feb 08 Python
Python中Numpy包的安装与使用方法简明教程
Jul 03 Python
使用python实现语音文件的特征提取方法
Jan 09 Python
python实现贪吃蛇游戏
Mar 21 Python
tensorflow estimator 使用hook实现finetune方式
Jan 21 Python
如何让python的运行速度得到提升
Jul 08 Python
Python实现简单猜数字游戏
Feb 03 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
Zend Framework中的简单工厂模式 图文
2012/07/10 PHP
php生成局部唯一识别码LUID的代码
2012/10/06 PHP
利用curl抓取远程页面内容的示例代码
2013/07/23 PHP
PHP 输出URL的快捷方式示例代码
2013/09/22 PHP
PHP获取数组中指定的一列实例
2017/12/27 PHP
使用Jquery打造最佳用户体验的登录页面的实现代码
2011/07/08 Javascript
JavaScript中exec函数用法实例分析
2015/06/08 Javascript
JavaScript知识点总结(十一)之js中的Object类详解
2016/05/31 Javascript
js实现PC端和移动端刮卡效果
2020/03/27 Javascript
Web纯前端“旭日图”实现元素周期表
2017/03/10 Javascript
three.js中3D视野的缩放实现代码
2017/11/16 Javascript
JS实现图片轮播效果实例详解【可自动和手动】
2019/04/04 Javascript
详解jQuery如何实现模糊搜索
2019/05/10 jQuery
OpenLayer学习之自定义测量控件
2020/09/28 Javascript
[01:17]Ti4 循环赛第一日回顾
2014/07/11 DOTA
Python判断字符串是否为字母或者数字(浮点数)的多种方法
2018/08/03 Python
python中正则表达式与模式匹配
2019/05/07 Python
Anaconda之conda常用命令介绍(安装、更新、删除)
2019/10/06 Python
keras 简单 lstm实例(基于one-hot编码)
2020/07/02 Python
Python获取浏览器窗口句柄过程解析
2020/07/25 Python
基于Python爬取搜狐证券股票过程解析
2020/11/18 Python
canvas 下载二维码和图片加水印的方法
2018/03/21 HTML / CSS
德国的大型美妆个护电商:Flaconi
2020/06/26 全球购物
如何开启linux的ssh服务
2013/06/03 面试题
应届生法律顾问求职信
2013/11/19 职场文书
办护照工作证明范本
2014/01/14 职场文书
xxx同志考察材料
2014/02/07 职场文书
英文自荐信常用句子
2014/03/26 职场文书
网站客服岗位职责
2014/04/05 职场文书
投资建议书模板
2014/05/12 职场文书
社区先进事迹材料
2014/05/19 职场文书
书法兴趣小组活动总结
2014/07/07 职场文书
交通事故起诉书
2015/05/19 职场文书
大学生就业指导课心得体会
2016/01/15 职场文书
python 如何将两个实数矩阵合并为一个复数矩阵
2021/05/19 Python
学会用Python实现滑雪小游戏,再也不用去北海道啦
2021/05/20 Python