python使用BeautifulSoup分析网页信息的方法


Posted in Python onApril 04, 2015

本文实例讲述了python使用BeautifulSoup分析网页信息的方法。分享给大家供大家参考。具体如下:

这段python代码查找网页上的所有链接,分析所有的span标签,并查找class包含titletext的span的内容

#import the library used to query a website

import urllib2
#specify the url you want to query

url = "http://www.python.org"
#Query the website and return the html to the variable 'page'

page = urllib2.urlopen(url)
#import the Beautiful soup functions to parse the data returned from the website

from BeautifulSoup import BeautifulSoup
#Parse the html in the 'page' variable, and store it in Beautiful Soup format

soup = BeautifulSoup(page)
#to print the soup.head is the head tag and soup.head.title is the title tag

print soup.head

print soup.head.title
#to print the length of the page, use the len function

print len(page)
#create a new variable to store the data you want to find.

tags = soup.findAll('a')
#to print all the links

print tags
#to get all titles and print the contents of each title

titles = soup.findAll('span', attrs = { 'class' : 'titletext' })

for title in allTitles:

print title.contents

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python使用wmi模块获取windows下硬盘信息的方法
May 15 Python
梯度下降法介绍及利用Python实现的方法示例
Jul 12 Python
用Python实现数据的透视表的方法
Nov 16 Python
解决PyCharm的Python.exe已经停止工作的问题
Nov 29 Python
Python3 执行系统命令并获取实时回显功能
Jul 09 Python
Flask框架学习笔记之消息提示与异常处理操作详解
Aug 15 Python
python的time模块和datetime模块实例解析
Nov 29 Python
Python3操作MongoDB增册改查等方法详解
Feb 10 Python
详解python常用命令行选项与环境变量
Feb 20 Python
PyCharm最新激活码PyCharm2020.2.3有效
Nov 18 Python
搭建pypi私有仓库实现过程详解
Nov 25 Python
python geopandas读取、创建shapefile文件的方法
Jun 29 Python
python使用webbrowser浏览指定url的方法
Apr 04 #Python
用Python编写一个简单的俄罗斯方块游戏的教程
Apr 03 #Python
用Python代码来绘制彭罗斯点阵的教程
Apr 03 #Python
利用Python演示数型数据结构的教程
Apr 03 #Python
简洁的十分钟Python入门教程
Apr 03 #Python
初步解析Python中的yield函数的用法
Apr 03 #Python
几个提升Python运行效率的方法之间的对比
Apr 03 #Python
You might like
浅谈PHP变量作用域以及地址引用问题
2013/12/27 PHP
PHP的password_hash()使用实例
2014/03/17 PHP
Linux(CentOS)下PHP扩展PDO编译安装的方法
2016/04/07 PHP
php实现算术验证码功能
2018/12/05 PHP
PHP去除空数组且数组键名重置的讲解
2019/02/28 PHP
PHP命名空间(namespace)原理与用法详解
2019/12/11 PHP
Centos7安装swoole扩展操作示例
2020/03/26 PHP
JS来动态的修改url实现对url的增删查改
2014/09/05 Javascript
JS中使用apply方法通过不同数量的参数调用函数的方法
2016/05/31 Javascript
详谈angularjs中路由页面强制更新的问题
2017/04/24 Javascript
js读取本地文件的实例
2017/12/22 Javascript
简述JS浏览器的三种弹窗
2018/07/15 Javascript
详解微信小程序调起键盘性能优化
2018/07/24 Javascript
vue最简单的前后端交互示例详解
2018/10/11 Javascript
微信小程序自定义带价格显示日历效果
2018/12/29 Javascript
详解解决小程序中webview页面多层history返回问题
2019/08/20 Javascript
jQuery使用hide()、toggle()函数实现相机品牌展示隐藏功能
2021/01/29 jQuery
[00:09]DOTA2全国高校联赛 精彩活动引爆全场
2018/05/30 DOTA
Python的Flask框架中使用Flask-Migrate扩展迁移数据库的教程
2016/06/14 Python
Python+Selenium自动化实现分页(pagination)处理
2017/03/31 Python
Python获取当前页面内所有链接的四种方法对比分析
2017/08/19 Python
python实现飞机大战
2018/09/11 Python
python 批量解压压缩文件的实例代码
2019/06/27 Python
详解Flask前后端分离项目案例
2020/07/24 Python
python logging 重复写日志问题解决办法详解
2020/08/04 Python
Python中实现一行拆多行和多行并一行的示例代码
2020/09/06 Python
python 下载m3u8视频的示例代码
2020/11/11 Python
CSS3 网页下拉菜单代码解释 中文翻译
2010/02/27 HTML / CSS
使用CSS3配合IE滤镜实现渐变和投影的效果
2015/09/06 HTML / CSS
医务人员自我评价
2014/01/26 职场文书
小学生作文评语大全
2014/04/21 职场文书
厨房领班竞聘演讲稿
2014/04/23 职场文书
节约用水演讲稿
2014/05/21 职场文书
《金色的草地》教学反思
2016/02/17 职场文书
六年级上册《闻官军收河南河北》的教学设计
2019/11/15 职场文书
python基于OpenCV模板匹配识别图片中的数字
2021/03/31 Python