python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python随机生成数模块random使用实例
Apr 13 Python
python开启多个子进程并行运行的方法
Apr 18 Python
老生常谈Python基础之字符编码
Jun 14 Python
Python实现求数列和的方法示例
Jan 12 Python
Python Unittest自动化单元测试框架详解
Apr 04 Python
对python自动生成接口测试的示例讲解
Nov 30 Python
使用pandas把某一列的字符值转换为数字的实例
Jan 29 Python
阿里云ECS服务器部署django的方法
Aug 29 Python
Python常用数据类型之间的转换总结
Sep 06 Python
Django Admin设置应用程序及模型顺序方法详解
Apr 01 Python
Python操作Jira库常用方法解析
Apr 10 Python
浅析Django接口版本控制
Jun 26 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
fleaphp crud操作之find函数的使用方法
2011/04/23 PHP
php实现memcache缓存示例讲解
2013/12/04 PHP
微信第三方登录(原生)demo【必看篇】
2017/05/26 PHP
用php+ajax新建流程(请假、进货、出货等)
2017/06/11 PHP
Laravel5.1 框架路由基础详解
2020/01/04 PHP
Extjs学习笔记之八 继承和事件基础
2010/01/08 Javascript
jquery DOM操作 基于命令改变页面
2010/05/06 Javascript
使用JavaScript修改浏览器URL地址栏的实现代码
2013/10/21 Javascript
js面向对象编程之如何实现方法重载
2014/07/02 Javascript
JQuery页面地址处理插件jqURL详解
2015/05/03 Javascript
JS编写函数实现对身份证号码最后一位的验证功能
2016/12/29 Javascript
超全面的javascript中变量命名规则
2017/02/09 Javascript
javascript过滤数组重复元素的实现方法
2017/05/03 Javascript
Vue 组件间的样式冲突污染
2017/08/31 Javascript
Vue中添加手机验证码组件功能操作方法
2017/12/07 Javascript
vue自定义指令directive实例详解
2018/01/17 Javascript
Vue子组件向父组件通信与父组件调用子组件中的方法
2018/06/22 Javascript
JS实现马赛克图片效果完整示例
2019/04/13 Javascript
js 执行上下文和作用域的相关总结
2021/02/08 Javascript
Python中的fileinput模块的简单实用示例
2015/07/09 Python
asyncio 的 coroutine对象 与 Future对象使用指南
2016/09/11 Python
Python实现的递归神经网络简单示例
2017/08/11 Python
Python cookbook(数据结构与算法)找到最大或最小的N个元素实现方法示例
2018/02/13 Python
Python实现的银行系统模拟程序完整案例
2019/04/12 Python
使用PyInstaller将Pygame库编写的小游戏程序打包为exe文件及出现问题解决方法
2019/09/06 Python
python Event事件、进程池与线程池、协程解析
2019/10/25 Python
python GUI库图形界面开发之PyQt5开发环境配置与基础使用
2020/02/25 Python
python使用OpenCV模块实现图像的融合示例代码
2020/04/10 Python
OpenCV利用python来实现图像的直方图均衡化
2020/10/21 Python
python处理写入数据代码讲解
2020/10/22 Python
HTML5实现应用程序缓存(Application Cache)
2020/06/16 HTML / CSS
SQL Server面试题
2013/04/04 面试题
党校学习思想汇报
2014/01/06 职场文书
离婚被告答辩状
2015/05/22 职场文书
身份证丢失证明
2015/06/19 职场文书
2015团员个人年度总结
2015/11/24 职场文书