python采集百度百科的方法


Posted in Python onJune 05, 2015

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'
  content_reg = r'<div class="card-summary-content">(.*?)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*?>', '', title[0])
  content[0] = re.sub(r'<[^>]*?>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python 与GO中操作slice,list的方式实例代码
Mar 20 Python
Python3学习笔记之列表方法示例详解
Oct 06 Python
Python实现控制台中的进度条功能代码
Dec 22 Python
Python实现的三层BP神经网络算法示例
Feb 07 Python
Python使用Phantomjs截屏网页的方法
May 17 Python
Python实现的从右到左字符串替换方法示例
Jul 06 Python
python ChainMap的使用和说明详解
Jun 11 Python
100行Python代码实现每天不同时间段定时给女友发消息
Sep 27 Python
python将字符串转变成dict格式的实现
Nov 18 Python
完美解决keras保存好的model不能成功加载问题
Jun 11 Python
Python实现迪杰斯特拉算法过程解析
Sep 18 Python
matplotlib常见函数之plt.rcParams、matshow的使用(坐标轴设置)
Jan 05 Python
python中引用与复制用法实例分析
Jun 04 #Python
Python进程间通信用法实例
Jun 04 #Python
python中__slots__用法实例
Jun 04 #Python
python协程用法实例分析
Jun 04 #Python
Python获取系统默认字符编码的方法
Jun 04 #Python
python中__call__内置函数用法实例
Jun 04 #Python
python抽象基类用法实例分析
Jun 04 #Python
You might like
用PHP编写PDF文档生成器
2006/10/09 PHP
不要轻信 PHP_SELF的安全问题
2009/09/05 PHP
PHP清除数组中所有字符串两端空格的方法
2014/10/20 PHP
php数组去除空值函数分享
2015/02/02 PHP
PHP基于mssql扩展远程连接MSSQL的简单实现方法
2016/10/08 PHP
postman的安装与使用方法(模拟Get和Post请求)
2018/08/06 PHP
laravel 事件/监听器实例代码
2019/04/12 PHP
初学prototype,发个JS接受URL参数的代码
2006/09/25 Javascript
Jquery 快速构建可拖曳的购物车DragDrop
2009/11/30 Javascript
JS常用正则表达式总结
2013/11/12 Javascript
js兼容火狐显示上传图片预览效果的方法
2015/05/21 Javascript
基于javascript html5实现3D翻书特效
2016/03/14 Javascript
在JSP中如何实现MD5加密的方法
2016/11/02 Javascript
移动端手指放大缩小插件与js源码
2017/05/22 Javascript
vue实现nav导航栏的方法
2017/12/13 Javascript
Vue数字输入框组件的使用方法
2019/10/19 Javascript
[15:15]教你分分钟做大人:狙击手
2014/10/30 DOTA
pycharm中使用anaconda部署python环境的方法步骤
2018/12/19 Python
python 去除二维数组/二维列表中的重复行方法
2019/01/23 Python
对Python生成器、装饰器、递归的使用详解
2019/07/19 Python
python实现逻辑回归的示例
2020/10/09 Python
某个公司的Java笔面试题
2016/03/11 面试题
会计与审计专业大专生求职信
2013/10/03 职场文书
工作中个人的自我评价
2013/12/31 职场文书
模特职业生涯规划范文
2014/02/26 职场文书
情人节寄语大全
2014/04/11 职场文书
学习党的群众路线教育实践活动心得体会范文
2014/11/03 职场文书
保研专家推荐信范文
2015/03/25 职场文书
医院合作意向书范本
2015/05/08 职场文书
2015年学校教务处工作总结
2015/05/11 职场文书
建议书的格式及范文
2015/09/14 职场文书
入党转正申请自我鉴定
2019/06/25 职场文书
教你用Python爬取英雄联盟皮肤原画
2021/06/13 Python
Vue实现跑马灯样式文字横向滚动
2021/11/23 Vue.js
Python 装饰器(decorator)常用的创建方式及解析
2022/04/24 Python
win10识别不了U盘怎么办 win10系统读取U盘失败的解决办法
2022/08/05 数码科技