python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python处理JSON数据并生成条形图
Aug 05 Python
Zabbix实现微信报警功能
Oct 09 Python
读写json中文ASCII乱码问题的解决方法
Nov 05 Python
基于Python中capitalize()与title()的区别详解
Dec 09 Python
在Mac上删除自己安装的Python方法
Oct 29 Python
win8.1安装Python 2.7版环境图文详解
Jul 01 Python
python可视化篇之流式数据监控的实现
Aug 07 Python
Python无头爬虫下载文件的实现
Apr 02 Python
TensorFlow2.1.0最新版本安装详细教程
Apr 08 Python
django model 条件过滤 queryset.filter(**condtions)用法详解
May 20 Python
Python实现文件压缩和解压的示例代码
Aug 12 Python
python 高阶函数简单介绍
Feb 19 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
PHP fastcgi模式上传大文件(大约有300多K)报错
2014/09/28 PHP
php中memcache 基本操作实例
2015/05/17 PHP
微信公众平台DEMO(PHP)
2016/05/04 PHP
CodeIgniter集成smarty的方法详解
2016/05/26 PHP
PHP 实现手机端APP支付宝支付功能
2018/06/07 PHP
40个新鲜出炉的jQuery 插件和免费教程[上]
2012/07/24 Javascript
js随机颜色代码的多种实现方式
2013/04/23 Javascript
再谈javascript原型继承
2014/11/10 Javascript
js实现兼容性好的微软官网导航下拉菜单效果
2015/09/07 Javascript
jQuery使用$.ajax提交表单完整实例
2015/12/11 Javascript
基于jquery插件编写countdown计时器
2016/06/12 Javascript
javascript用正则表达式过滤空格的实现代码
2016/06/14 Javascript
如何清除IE10+ input X 文本框的叉叉和密码输入框的眼睛图标
2016/12/21 Javascript
js实现表格筛选功能
2017/01/18 Javascript
angular实现图片懒加载实例代码
2017/06/08 Javascript
快速解决vue-cli不能初始化webpack模板的问题
2018/03/20 Javascript
详解Nuxt.js部署及踩过的坑
2018/08/07 Javascript
详解VUE里子组件如何获取父组件动态变化的值
2018/12/26 Javascript
如何基于javascript实现贪吃蛇游戏
2020/02/09 Javascript
Vue实现计算器计算效果
2020/08/17 Javascript
[04:53]DOTA2英雄基础教程 祈求者
2014/01/03 DOTA
[40:57]TI4 循环赛第二日 iG vs EG
2014/07/11 DOTA
python单链表实现代码实例
2013/11/21 Python
将字典转换为DataFrame并进行频次统计的方法
2018/04/08 Python
python 实现判断ip连通性的方法总结
2018/04/22 Python
django 使用 PIL 压缩图片的例子
2019/08/16 Python
python字符串常用方法及文件简单读写的操作方法
2020/03/04 Python
HTML5中5个简单实用的API
2014/04/28 HTML / CSS
美国快时尚彩妆品牌:Winky Lux(透明花瓣润唇膏)
2018/11/06 全球购物
银行职员思想汇报
2013/12/31 职场文书
学生周末长期请假条
2014/02/15 职场文书
初三班主任寄语大全
2014/04/04 职场文书
七一党日活动总结
2014/07/08 职场文书
彻底解决MySQL使用中文乱码的方法
2022/01/22 MySQL
Java 死锁解决方案
2022/05/11 Java/Android
JS前端轻量fabric.js系列物体基类
2022/08/05 Javascript