python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python编程实现二分法和牛顿迭代法求平方根代码
Dec 04 Python
Flask web开发处理POST请求实现(登录案例)
Jul 26 Python
Python3中_(下划线)和__(双下划线)的用途和区别
Apr 26 Python
python实现名片管理系统项目
Apr 26 Python
使用Pyinstaller转换.py文件为.exe可执行程序过程详解
Aug 06 Python
python语言线程标准库threading.local解读总结
Nov 10 Python
python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例
Nov 28 Python
Python中断多重循环的几种方式详解
Feb 10 Python
python 实现仿微信聊天时间格式化显示的代码
Apr 17 Python
python装饰器实现对异常代码出现进行自动监控的实现方法
Sep 15 Python
python 实现波浪滤镜特效
Dec 02 Python
Python解析m3u8拼接下载mp4视频文件的示例代码
Mar 03 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
删除无限级目录与文件代码共享
2006/07/12 PHP
PHP5 安装方法
2006/10/09 PHP
推荐25款php中非常有用的类库
2014/09/29 PHP
php生成带logo二维码方法小结
2016/04/08 PHP
PHP判断JSON对象是否存在的方法(推荐)
2016/07/06 PHP
thinkPHP5.0框架配置格式、加载解析与读取方法
2017/03/17 PHP
通过Jscript中@cc_on 语句识别IE浏览器及版本的代码
2011/05/07 Javascript
基于jquery实现的一个选择中国大学的弹框 (数据、步骤、代码)
2012/07/26 Javascript
Javascript call和apply区别及使用方法
2013/11/14 Javascript
一个JavaScript去除字符串末尾的空白实例代码
2014/09/22 Javascript
快速掌握Node.js事件驱动模型
2016/03/21 Javascript
浅谈javascript中关于日期和时间的基础知识
2016/07/13 Javascript
getElementById().innerHTML与getElementById().value的区别
2016/10/27 Javascript
使用JavaScript为一张图片设置备选路径的方法
2017/01/04 Javascript
angularjs实现table增加tr的方法
2018/02/27 Javascript
Node.js应用设置安全的沙箱环境
2018/04/23 Javascript
详解React Native 屏幕适配(炒鸡简单的方法)
2018/06/11 Javascript
详解小程序云开发数据库
2019/05/20 Javascript
JavaScript Tab菜单实现过程解析
2020/05/13 Javascript
微信小程序自定义扫码功能界面的实现代码
2020/07/02 Javascript
[03:02]生活中的Dendi之野外度假篇
2016/08/09 DOTA
跟老齐学Python之从if开始语句的征程
2014/09/14 Python
Python实现的使用telnet登陆聊天室实例
2015/06/17 Python
python中@contextmanager实例用法
2021/02/07 Python
html5本地存储_动力节点Java学院整理
2017/07/12 HTML / CSS
手机端用rem+scss做适配的详解
2017/11/15 HTML / CSS
HTML5中外部浏览器唤起微信分享
2020/01/02 HTML / CSS
理肤泉加拿大官网:La Roche-Posay加拿大
2018/07/06 全球购物
应届生骨科医生求职信
2013/10/31 职场文书
银行批评与自我批评
2014/02/10 职场文书
党员公开承诺书范文
2014/03/25 职场文书
《少年王勃》教学反思
2014/04/27 职场文书
霸气押韵的班级口号
2014/06/09 职场文书
大学同学会活动方案
2014/08/20 职场文书
巾帼文明岗事迹材料
2014/12/24 职场文书
2016秋季幼儿园开学寄语
2015/12/03 职场文书