python使用BeautifulSoup分析网页信息的方法


Posted in Python onApril 04, 2015

本文实例讲述了python使用BeautifulSoup分析网页信息的方法。分享给大家供大家参考。具体如下:

这段python代码查找网页上的所有链接,分析所有的span标签,并查找class包含titletext的span的内容

#import the library used to query a website

import urllib2
#specify the url you want to query

url = "http://www.python.org"
#Query the website and return the html to the variable 'page'

page = urllib2.urlopen(url)
#import the Beautiful soup functions to parse the data returned from the website

from BeautifulSoup import BeautifulSoup
#Parse the html in the 'page' variable, and store it in Beautiful Soup format

soup = BeautifulSoup(page)
#to print the soup.head is the head tag and soup.head.title is the title tag

print soup.head

print soup.head.title
#to print the length of the page, use the len function

print len(page)
#create a new variable to store the data you want to find.

tags = soup.findAll('a')
#to print all the links

print tags
#to get all titles and print the contents of each title

titles = soup.findAll('span', attrs = { 'class' : 'titletext' })

for title in allTitles:

print title.contents

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
数据挖掘之Apriori算法详解和Python实现代码分享
Nov 07 Python
Python标准库之循环器(itertools)介绍
Nov 25 Python
Python提取网页中超链接的方法
Sep 18 Python
Python编写一个闹钟功能
Jul 11 Python
对web.py设置favicon.ico的方法详解
Dec 04 Python
python 获取微信好友列表的方法(微信web)
Feb 21 Python
如何利用Anaconda配置简单的Python环境
Jun 24 Python
python如何读取bin文件并下发串口
Jul 05 Python
利用python3 的pygame模块实现塔防游戏
Dec 30 Python
python 在右键菜单中加入复制目标文件的有效存放路径(单斜杠或者双反斜杠)
Apr 08 Python
TensorFlow-gpu和opencv安装详细教程
Jun 30 Python
基于Python爬取股票数据过程详解
Oct 21 Python
python使用webbrowser浏览指定url的方法
Apr 04 #Python
用Python编写一个简单的俄罗斯方块游戏的教程
Apr 03 #Python
用Python代码来绘制彭罗斯点阵的教程
Apr 03 #Python
利用Python演示数型数据结构的教程
Apr 03 #Python
简洁的十分钟Python入门教程
Apr 03 #Python
初步解析Python中的yield函数的用法
Apr 03 #Python
几个提升Python运行效率的方法之间的对比
Apr 03 #Python
You might like
几个学习PHP的网址
2006/11/25 PHP
PHP文件上传类实例详解
2016/04/08 PHP
PHP基于PDO调用sqlserver存储过程通用方法【基于Yii框架】
2017/10/07 PHP
js 用CreateElement动态创建标签示例
2013/11/20 Javascript
js数组中如何随机取出一个值
2014/06/13 Javascript
Javascript闭包用法实例分析
2015/01/23 Javascript
Javascript中的方法链(Method Chaining)介绍
2015/03/15 Javascript
js针对ip地址、子网掩码、网关的逻辑性判断
2016/01/06 Javascript
学习使用AngularJS文件上传控件
2016/02/16 Javascript
jQuery实现 上升、下降、删除、添加一行代码
2017/03/06 Javascript
vue.js指令和组件详细介绍及实例
2017/04/06 Javascript
JavaScript中重名的函数与对象示例详析
2017/09/28 Javascript
javascript+css3开发打气球小游戏完整代码
2017/11/28 Javascript
ES6知识点整理之函数数组参数的默认值及其解构应用示例
2019/04/17 Javascript
Vue formData实现图片上传
2019/08/20 Javascript
vue 检测用户上传图片宽高的方法
2020/02/06 Javascript
基于javascript实现放大镜特效
2020/12/03 Javascript
[46:28]EG vs Liquid 2019国际邀请赛淘汰赛 败者组 BO3 第二场 8.23
2019/09/05 DOTA
python类参数self使用示例
2014/02/17 Python
python 七种邮件内容发送方法实例
2014/04/22 Python
python判断所输入的任意一个正整数是否为素数的两种方法
2019/06/27 Python
解决python中用matplotlib画多幅图时出现图形部分重叠的问题
2019/07/07 Python
python实现猜数游戏
2020/03/27 Python
python实现逢七拍腿小游戏的思路详解
2020/05/26 Python
css3 图片圆形显示 如何CSS将正方形图片显示为圆形图片布局
2014/10/10 HTML / CSS
北京某公司的.net笔试题
2014/03/20 面试题
Python使用openpyxl复制整张sheet
2021/03/24 Python
房地产开发计划书
2014/01/10 职场文书
清明节网上祭英烈活动总结
2014/04/30 职场文书
关于晚自习早退的检讨书
2014/09/13 职场文书
办理收楼委托书范本
2014/10/09 职场文书
机关保密工作承诺书
2015/05/04 职场文书
罗马假日观后感
2015/06/08 职场文书
订货会主持词
2015/07/01 职场文书
解决numpy数组互换两行及赋值的问题
2021/04/17 Python
vue中data里面的数据相互使用方式
2022/06/05 Vue.js