python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python网络编程学习笔记(一)
Jun 09 Python
python用fsolve、leastsq对非线性方程组求解
Dec 15 Python
Python3中_(下划线)和__(双下划线)的用途和区别
Apr 26 Python
python3+PyQt5 创建多线程网络应用-TCP客户端和TCP服务器实例
Jun 17 Python
python实现LBP方法提取图像纹理特征实现分类的步骤
Jul 11 Python
python plotly画柱状图代码实例
Dec 13 Python
python scatter函数用法实例详解
Feb 11 Python
Python2 与Python3的版本区别实例分析
Mar 30 Python
Python socket服务常用操作代码实例
Jun 22 Python
python实现马丁策略回测3000只股票的实例代码
Jan 22 Python
Biblibili视频投稿接口分析并以Python实现自动投稿功能
Feb 05 Python
Python绘制散点图之可视化神器pyecharts
Jul 07 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
php通过字符串调用函数示例
2014/03/02 PHP
PHP数据库操作之基于Mysqli的数据库操作类库
2014/04/19 PHP
php判断当前用户已在别处登录的方法
2015/01/06 PHP
PHP+Mysql+jQuery文件下载次数统计实例讲解
2015/10/10 PHP
PHP对XML内容进行修改和删除实例代码
2016/10/26 PHP
PHP多维数组元素操作类的方法
2016/11/14 PHP
laravel validate 设置为中文的例子(验证提示为中文)
2019/09/29 PHP
laravel 数据验证规则详解
2019/10/23 PHP
javascript 数组的方法集合
2008/06/05 Javascript
Javascript String对象扩展HTML编码和解码的方法
2009/06/02 Javascript
检测jQuery.js是否已加载的判断代码
2011/05/20 Javascript
JavaScript的作用域和块级作用域概念理解
2014/09/21 Javascript
深入理解JavaScript系列(30):设计模式之外观模式详解
2015/03/03 Javascript
js实现年月日表单三级联动
2020/04/17 Javascript
Angular实现预加载延迟模块的示例
2017/10/12 Javascript
Vue2.0学习之详解Vue 组件及父子组件通信
2017/12/12 Javascript
Vue前后端不同端口的实现方法
2018/09/19 Javascript
Vue 组件封装 并使用 NPM 发布的教程
2018/09/30 Javascript
JS实现头条新闻的经典轮播图效果示例
2019/01/30 Javascript
python 用正则表达式筛选文本信息的实例
2018/06/05 Python
nohup后台启动Python脚本,log不刷新的解决方法
2019/01/14 Python
Django框架创建mysql连接与使用示例
2019/07/29 Python
python如何保证输入键入数字的方法
2019/08/23 Python
python实现WebSocket服务端过程解析
2019/10/18 Python
Python字典深浅拷贝与循环方式方法详解
2020/02/09 Python
基于CSS3实现立方体自转效果
2016/03/01 HTML / CSS
初级软件工程师面试题 Junior Software Engineer Interview
2015/02/15 面试题
学生档案自我鉴定
2013/10/07 职场文书
旅游项目开发策划书
2014/01/18 职场文书
美丽乡村建设实施方案
2014/03/23 职场文书
2014机关党员干部“正风肃纪”思想汇报
2014/09/15 职场文书
大学军训的体会
2014/11/08 职场文书
2014年文员工作总结
2014/11/18 职场文书
python 实现图片特效处理
2022/04/03 Python
Android 界面一键变灰 深色主题工具类
2022/04/28 Java/Android