python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python访问类中docstring注释的实现方法
May 04 Python
Python遍历指定文件及文件夹的方法
May 09 Python
在Django中进行用户注册和邮箱验证的方法
May 09 Python
Python中工作日类库Busines Holiday的介绍与使用
Jul 06 Python
Django中使用极验Geetest滑动验证码过程解析
Jul 31 Python
对Django中的权限和分组管理实例讲解
Aug 16 Python
python 画函数曲线示例
Dec 04 Python
爬虫代理池Python3WebSpider源代码测试过程解析
Dec 20 Python
python3用urllib抓取贴吧邮箱和QQ实例
Mar 10 Python
python实现猜单词游戏
May 22 Python
聊一聊python常用的编程模块
May 14 Python
pyqt5蒙版遮罩mask,setmask的使用
Jun 11 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
星际争霸任务指南——人族
2020/03/04 星际争霸
一个SQL管理员的web接口
2006/10/09 PHP
php 中英文语言转换类代码
2011/08/11 PHP
php采用ajax数据提交post与post常见方法总结
2014/11/10 PHP
dedecms集成财付通支付接口
2014/12/28 PHP
php程序内部post数据的方法
2015/03/31 PHP
php通过PHPExcel导入Excel表格到MySQL数据库的简单实例
2016/10/29 PHP
利用 fsockopen() 函数开放端口扫描器的实例
2017/08/19 PHP
javascript 函数参数限制说明
2010/11/19 Javascript
JQuery在页面中添加和除移DOM示例代码
2013/06/24 Javascript
javascript检测浏览器的缩放状态实现代码
2014/09/28 Javascript
jQuery实现的指纹扫描效果实例(附演示与demo源码下载)
2016/01/26 Javascript
BootstrapTable+KnockoutJS自定义T4模板快速生成增删改查页面
2016/08/01 Javascript
AngularJS控制器之间的通信方式详解
2016/11/03 Javascript
Vuex之理解Getters的用法实例
2017/04/19 Javascript
JavaScript实现设置默认日期范围为最近40天的方法分析
2017/07/12 Javascript
详解Nuxt.js中使用Element-UI填坑
2019/09/06 Javascript
[02:24]DOTA2亚洲邀请赛 NAVI战队出场宣传片
2015/02/07 DOTA
[59:35]DOTA2-DPC中国联赛定级赛 Aster vs DLG BO3第一场 1月8日
2021/03/11 DOTA
python中的迭代和可迭代对象代码示例
2017/12/27 Python
python七夕浪漫表白源码
2019/04/05 Python
在python中利用numpy求解多项式以及多项式拟合的方法
2019/07/03 Python
Python根据服务获取端口号的方法
2019/09/25 Python
基于tensorflow指定GPU运行及GPU资源分配的几种方式小结
2020/02/03 Python
使用CSS3实现多列布局与多背景的技巧
2016/02/29 HTML / CSS
详解android与HTML混合开发总结
2018/06/06 HTML / CSS
SmartBuyGlasses台湾:名牌眼镜,名牌太阳眼镜及隐形眼镜
2017/01/04 全球购物
Notino意大利:购买香水和化妆品
2018/11/14 全球购物
Python里面如何拷贝一个对象
2014/02/17 面试题
会计职业生涯规划书
2014/01/13 职场文书
财务科长个人对照检查材料
2014/09/18 职场文书
报表员工作失误检讨书范文
2014/09/19 职场文书
2014年房产销售工作总结
2014/12/08 职场文书
2014年电话客服工作总结
2014/12/09 职场文书
老公婚前保证书
2015/02/28 职场文书
MySQL深度分页(千万级数据量如何快速分页)
2021/07/25 MySQL