编程 Python

python采集百度百科的方法

Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下：

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

python采集百度百科的方法

- Author -

两把刷子

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python编程实现二分法和牛顿迭代法求平方根代码

Dec 04 Python

Flask web开发处理POST请求实现（登录案例）

Jul 26 Python

Python3中_(下划线)和__(双下划线)的用途和区别

Apr 26 Python

python实现名片管理系统项目

Apr 26 Python

使用Pyinstaller转换.py文件为.exe可执行程序过程详解

Aug 06 Python

python语言线程标准库threading.local解读总结

Nov 10 Python

python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例

Nov 28 Python

Python中断多重循环的几种方式详解

Feb 10 Python

python 实现仿微信聊天时间格式化显示的代码

Apr 17 Python

python装饰器实现对异常代码出现进行自动监控的实现方法

Sep 15 Python

python 实现波浪滤镜特效

Dec 02 Python

Python解析m3u8拼接下载mp4视频文件的示例代码

Mar 03 Python

python中引用与复制用法实例分析

Jun 04 #Python

Python进程间通信用法实例

Jun 04 #Python

python中__slots__用法实例

Jun 04 #Python

python协程用法实例分析

Jun 04 #Python

Python获取系统默认字符编码的方法

Jun 04 #Python

python中__call__内置函数用法实例

Jun 04 #Python

python抽象基类用法实例分析

Jun 04 #Python

You might like

删除无限级目录与文件代码共享

2006/07/12 PHP

PHP5 安装方法

2006/10/09 PHP

推荐25款php中非常有用的类库

2014/09/29 PHP

php生成带logo二维码方法小结

2016/04/08 PHP

PHP判断JSON对象是否存在的方法(推荐)

2016/07/06 PHP

thinkPHP5.0框架配置格式、加载解析与读取方法

2017/03/17 PHP

通过Jscript中@cc_on 语句识别IE浏览器及版本的代码

2011/05/07 Javascript

基于jquery实现的一个选择中国大学的弹框 (数据、步骤、代码)

2012/07/26 Javascript

Javascript call和apply区别及使用方法

2013/11/14 Javascript

一个JavaScript去除字符串末尾的空白实例代码

2014/09/22 Javascript

快速掌握Node.js事件驱动模型

2016/03/21 Javascript

浅谈javascript中关于日期和时间的基础知识

2016/07/13 Javascript

getElementById().innerHTML与getElementById().value的区别

2016/10/27 Javascript

使用JavaScript为一张图片设置备选路径的方法

2017/01/04 Javascript

angularjs实现table增加tr的方法

2018/02/27 Javascript

Node.js应用设置安全的沙箱环境

2018/04/23 Javascript

详解React Native 屏幕适配（炒鸡简单的方法）

2018/06/11 Javascript

详解小程序云开发数据库

2019/05/20 Javascript

JavaScript Tab菜单实现过程解析

2020/05/13 Javascript

微信小程序自定义扫码功能界面的实现代码

2020/07/02 Javascript

[03:02]生活中的Dendi之野外度假篇

2016/08/09 DOTA

跟老齐学Python之从if开始语句的征程

2014/09/14 Python

Python实现的使用telnet登陆聊天室实例

2015/06/17 Python

python中@contextmanager实例用法

2021/02/07 Python

html5本地存储_动力节点Java学院整理

2017/07/12 HTML / CSS

手机端用rem+scss做适配的详解

2017/11/15 HTML / CSS

HTML5中外部浏览器唤起微信分享

2020/01/02 HTML / CSS

理肤泉加拿大官网：La Roche-Posay加拿大

2018/07/06 全球购物

应届生骨科医生求职信

2013/10/31 职场文书

银行批评与自我批评

2014/02/10 职场文书

党员公开承诺书范文

2014/03/25 职场文书

《少年王勃》教学反思

2014/04/27 职场文书

霸气押韵的班级口号

2014/06/09 职场文书

大学同学会活动方案

2014/08/20 职场文书

巾帼文明岗事迹材料

2014/12/24 职场文书

2016秋季幼儿园开学寄语

2015/12/03 职场文书