python使用BeautifulSoup分析网页信息的方法


Posted in Python onApril 04, 2015

本文实例讲述了python使用BeautifulSoup分析网页信息的方法。分享给大家供大家参考。具体如下:

这段python代码查找网页上的所有链接,分析所有的span标签,并查找class包含titletext的span的内容

#import the library used to query a website

import urllib2
#specify the url you want to query

url = "http://www.python.org"
#Query the website and return the html to the variable 'page'

page = urllib2.urlopen(url)
#import the Beautiful soup functions to parse the data returned from the website

from BeautifulSoup import BeautifulSoup
#Parse the html in the 'page' variable, and store it in Beautiful Soup format

soup = BeautifulSoup(page)
#to print the soup.head is the head tag and soup.head.title is the title tag

print soup.head

print soup.head.title
#to print the length of the page, use the len function

print len(page)
#create a new variable to store the data you want to find.

tags = soup.findAll('a')
#to print all the links

print tags
#to get all titles and print the contents of each title

titles = soup.findAll('span', attrs = { 'class' : 'titletext' })

for title in allTitles:

print title.contents

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python 爬虫学习笔记之正则表达式
Sep 21 Python
Python三级目录展示的实现方法
Sep 28 Python
Python实现获取磁盘剩余空间的2种方法
Jun 07 Python
Python决策树分类算法学习
Dec 22 Python
Python使用matplotlib填充图形指定区域代码示例
Jan 16 Python
python绘制圆柱体的方法
Jul 02 Python
linux安装Python3.4.2的操作方法
Sep 28 Python
Python获取当前脚本文件夹(Script)的绝对路径方法代码
Aug 27 Python
浅谈Python_Openpyxl使用(最全总结)
Sep 05 Python
Python发送邮件封装实现过程详解
May 09 Python
python怎么删除缓存文件
Jul 19 Python
python利用paramiko实现交换机巡检的示例
Sep 22 Python
python使用webbrowser浏览指定url的方法
Apr 04 #Python
用Python编写一个简单的俄罗斯方块游戏的教程
Apr 03 #Python
用Python代码来绘制彭罗斯点阵的教程
Apr 03 #Python
利用Python演示数型数据结构的教程
Apr 03 #Python
简洁的十分钟Python入门教程
Apr 03 #Python
初步解析Python中的yield函数的用法
Apr 03 #Python
几个提升Python运行效率的方法之间的对比
Apr 03 #Python
You might like
php中实现精确设置session过期时间的方法
2014/07/17 PHP
CI框架入门之MVC简单示例
2016/11/21 PHP
理解Javascript_07_理解instanceof实现原理
2010/10/15 Javascript
jquery attr方法获取input的checked属性问题
2014/05/26 Javascript
JavaScript控制图片加载完成后调用回调函数的方法
2015/03/20 Javascript
JavaScript检测原始值、引用值、属性
2016/06/20 Javascript
angular2 ng build部署后base文件路径问题详细解答
2017/07/15 Javascript
VueJs单页应用实现微信网页授权及微信分享功能示例
2017/07/26 Javascript
微信小程序实现全国机场索引列表
2018/01/31 Javascript
vue-cli 默认路由再子路由选中下的选中状态问题及解决代码
2018/09/06 Javascript
vue 点击按钮增加一行的方法
2018/09/07 Javascript
记一次用vue做的活动页的方法步骤
2019/04/11 Javascript
通过实例解析js简易模块加载器
2019/06/17 Javascript
python执行子进程实现进程间通信的方法
2015/06/02 Python
Python日期时间对象转换为字符串的实例
2018/06/22 Python
python看某个模块的版本方法
2018/10/16 Python
python实现RabbitMQ的消息队列的示例代码
2018/11/08 Python
python自定义函数实现一个数的三次方计算方法
2019/01/20 Python
对python文件读写的缓冲行为详解
2019/02/13 Python
Python比较配置文件的方法实例详解
2019/06/06 Python
python通过http下载文件的方法详解
2019/07/26 Python
pytorch使用指定GPU训练的实例
2019/08/19 Python
将labelme格式数据转化为标准的coco数据集格式方式
2020/02/17 Python
html5移动端自适应布局的实现
2020/04/15 HTML / CSS
澳大利亚顶级美发和美容贸易超市:glamaCo
2020/01/19 全球购物
阿玛尼美妆俄罗斯官网:Giorgio Armani Beauty RU
2020/07/19 全球购物
Booking.com缤客中国:全球酒店在线预订网站
2020/05/03 全球购物
渗透攻击的测试步骤
2014/06/07 面试题
介绍一下linux的文件系统
2012/03/20 面试题
小学生清明节演讲稿
2014/09/05 职场文书
大学学生个人总结
2015/02/15 职场文书
2015年超市员工工作总结
2015/05/04 职场文书
地雷战观后感
2015/06/09 职场文书
迎新生欢迎词2015
2015/07/16 职场文书
2016优秀教师先进个人事迹材料
2016/02/25 职场文书
创业计划书之花店
2019/09/20 职场文书