python使用BeautifulSoup分析网页信息的方法


Posted in Python onApril 04, 2015

本文实例讲述了python使用BeautifulSoup分析网页信息的方法。分享给大家供大家参考。具体如下:

这段python代码查找网页上的所有链接,分析所有的span标签,并查找class包含titletext的span的内容

#import the library used to query a website

import urllib2
#specify the url you want to query

url = "http://www.python.org"
#Query the website and return the html to the variable 'page'

page = urllib2.urlopen(url)
#import the Beautiful soup functions to parse the data returned from the website

from BeautifulSoup import BeautifulSoup
#Parse the html in the 'page' variable, and store it in Beautiful Soup format

soup = BeautifulSoup(page)
#to print the soup.head is the head tag and soup.head.title is the title tag

print soup.head

print soup.head.title
#to print the length of the page, use the len function

print len(page)
#create a new variable to store the data you want to find.

tags = soup.findAll('a')
#to print all the links

print tags
#to get all titles and print the contents of each title

titles = soup.findAll('span', attrs = { 'class' : 'titletext' })

for title in allTitles:

print title.contents

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python 中文乱码问题深入分析
Mar 13 Python
Python smallseg分词用法实例分析
May 28 Python
Python判断文件或文件夹是否存在的三种方法
Jul 27 Python
关于Python中浮点数精度处理的技巧总结
Aug 10 Python
Python中应该使用%还是format来格式化字符串
Sep 25 Python
Python编程深度学习绘图库之matplotlib
Dec 28 Python
详解用python实现基本的学生管理系统(文件存储版)(python3)
Apr 25 Python
Python closure闭包解释及其注意点详解
Aug 28 Python
python 实现return返回多个值
Nov 19 Python
Python中six模块基础用法
Dec 08 Python
Django-rest-framework中过滤器的定制实例
Apr 01 Python
Python预测分词的实现
Jun 18 Python
python使用webbrowser浏览指定url的方法
Apr 04 #Python
用Python编写一个简单的俄罗斯方块游戏的教程
Apr 03 #Python
用Python代码来绘制彭罗斯点阵的教程
Apr 03 #Python
利用Python演示数型数据结构的教程
Apr 03 #Python
简洁的十分钟Python入门教程
Apr 03 #Python
初步解析Python中的yield函数的用法
Apr 03 #Python
几个提升Python运行效率的方法之间的对比
Apr 03 #Python
You might like
php skymvc 一款轻量、简单的php
2011/06/28 PHP
PHP屏蔽蜘蛛访问代码及常用搜索引擎的HTTP_USER_AGENT
2013/03/06 PHP
什么情况下可以不写PHP的闭合标签“?>”
2014/08/28 PHP
PHP使用fopen与file_get_contents读取文件实例分享
2016/03/04 PHP
php实现微信企业号支付个人的方法详解
2017/07/26 PHP
实例分析基于PHP微信网页获取用户信息
2017/11/24 PHP
JS实现黑客帝国文字下落效果
2015/09/01 Javascript
基于daterangepicker日历插件使用参数注意的问题
2017/08/10 Javascript
vue-router 导航钩子的具体使用方法
2017/08/31 Javascript
Nodejs+express+ejs简单使用实例代码
2017/09/18 NodeJs
IE9 elementUI文件上传的问题解决
2018/10/17 Javascript
JS实现深度优先搜索求解两点间最短路径
2019/01/17 Javascript
vue中watch和computed为什么能监听到数据的改变以及不同之处
2019/12/27 Javascript
js简单粗暴的发布订阅示例代码
2021/01/23 Javascript
python人人网登录应用实例
2014/09/26 Python
VSCode下好用的Python插件及配置
2018/04/06 Python
Python堆排序原理与实现方法详解
2018/05/11 Python
Tensorflow使用支持向量机拟合线性回归
2018/09/07 Python
Python3爬虫学习之应对网站反爬虫机制的方法分析
2018/12/12 Python
Python实现的IP端口扫描工具类示例
2019/02/15 Python
python线程定时器Timer实现原理解析
2019/11/30 Python
Python如何将装饰器定义为类
2020/07/30 Python
Tarte Cosmetics官网:美国最受欢迎的化妆品公司之一
2017/08/24 全球购物
中国专业的音频分享平台:喜马拉雅
2019/05/24 全球购物
德国富尔达运动鞋店:43einhalb
2020/12/25 全球购物
汽车装潢店创业计划书范文
2014/02/05 职场文书
艺术节主持词
2014/04/02 职场文书
纪念九一八事变演讲稿1000字
2014/09/14 职场文书
单位接收证明格式
2015/06/18 职场文书
团队拓展训练感想
2015/08/07 职场文书
电力安全教育培训心得体会
2016/01/11 职场文书
小学毕业教师寄语
2019/06/21 职场文书
小学生必读成语故事大全:送给暑假的你们
2019/07/09 职场文书
使用Redis实现实时排行榜功能
2021/07/02 Redis
Java服务调用RestTemplate与HttpClient的使用详解
2022/06/21 Java/Android
CSS实现鼠标悬浮动画特效
2023/05/07 HTML / CSS