python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 Python
基于Python实现文件大小输出
Jan 11 Python
python爬虫_自动获取seebug的poc实例
Aug 05 Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 Python
python矩阵的转置和逆转实例
Dec 12 Python
python虚拟环境迁移方法
Jan 03 Python
我们为什么要减少Python中循环的使用
Jul 10 Python
将 Ubuntu 16 和 18 上的 python 升级到最新 python3.8 的方法教程
Mar 11 Python
python代码如何注释
Jun 01 Python
浅谈优化Django ORM中的性能问题
Jul 09 Python
Python基于staticmethod装饰器标示静态方法
Oct 17 Python
python中常用的数据结构介绍
Jan 12 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
PHP实现文件下载【实例分享】
2017/04/28 PHP
laravel5.0在linux下解决.htaccess无效和去除index.php的问题
2019/10/16 PHP
关于IFRAME 自适应高度的研究
2006/07/20 Javascript
Javascript和HTML5利用canvas构建Web五子棋游戏实现算法
2013/07/17 Javascript
js delete 用法(删除对象属性及变量)
2014/08/24 Javascript
node.js中的http.response.setHeader方法使用说明
2014/12/14 Javascript
jQuery Mobile弹出窗、弹出层知识汇总
2016/01/05 Javascript
详解JavaScript中基于原型prototype的继承特性
2016/05/05 Javascript
JavaScript第一篇之实现按钮全选、功能
2016/08/21 Javascript
浅谈javascript中的Function和Arguments
2016/08/30 Javascript
微信小程序 action-sheet底部菜单详解
2016/10/27 Javascript
对Angular中单向数据流的深入理解
2018/03/31 Javascript
微信小程序 确认框的实现(附代码)
2019/07/23 Javascript
Laravel 如何在blade文件中使用Vue组件的示例代码
2020/06/28 Javascript
uniapp与webview之间的相互传值的实现
2020/06/29 Javascript
eslint+prettier统一代码风格的实现方法
2020/07/22 Javascript
python调用windows api锁定计算机示例
2014/04/17 Python
Django的信号机制详解
2017/05/05 Python
解决python opencv无法显示图片的问题
2018/10/28 Python
python3实现微型的web服务器
2019/09/03 Python
Python 里最强的地图绘制神器
2021/03/01 Python
SmartBuyGlasses台湾:名牌眼镜,名牌太阳眼镜及隐形眼镜
2017/01/04 全球购物
澳大利亚正品化妆品之家:Cosmetic Capital
2017/07/03 全球购物
JustFab加拿大:女鞋、靴子、手袋和服装在线
2018/05/18 全球购物
捷克玩具商店:Bambule
2019/02/23 全球购物
俄罗斯第一家多品牌在线奢侈品精品店:Aizel.ru
2020/09/06 全球购物
光电信息专业应届生求职信
2013/10/07 职场文书
安全生产检讨书
2014/01/21 职场文书
财务人员的自我评价范文
2014/03/03 职场文书
一年级学生评语大全
2014/04/21 职场文书
学校运动会广播稿100条
2014/09/14 职场文书
人事聘任通知
2015/04/21 职场文书
教师学习中国梦心得体会
2016/01/05 职场文书
大学生村官工作心得体会
2016/01/23 职场文书
整理Python中常用的conda命令操作
2021/06/15 Python
Spring Boot项目如何优雅实现Excel导入与导出功能
2022/06/10 Java/Android