浅谈Python中的bs4基础


Posted in Python onOctober 21, 2018

安装

在命令提示符框中直接输入pip install beautifulsoup4

介绍

beautifulsoup是python的一个第三方库,和xpath一样,都是用来解析html数据的。

引入

from bs4 import BeautifulSoup

使用

将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象。

bs = BeautifulSoup(open('index.html',encoding='utf-8'),'lxml')
print(bs)

注意:这样上传文档的话,BeautifulSoup里面需要两个参数。一个为open方法,一个是固定写法,也就是解析器。

open方法里面也同样需要两个参数,一个是想要解析的数据,另一个为设置编码的格式。

(1)获取网页中的title标签

print(bs.title)

(2)获取head标签及标签内部的所有其他标签

print(bs.head)

(3)获取当中的第一个a标签

print(bs.a)

注意:获取文档当中所有的xx当中第一个xx或者第一个xx里面的内容。都可以用bs.xx来获取

(4)获取指定标签的所有属性

print(bs.a.attrs)

(5)获取标签的属性

print(bs.a['href'])

(6)获取标签的文本内容。

print(bs.a.string)

注意:string获取的文本指的是本标签的文本,不包含子标签的文本

(7)contents能够获取指定标签下面的所有内容。

print(bs.body.contents)

(8)获取所有内容当中指定索引的内容

print(bs.div.contents[3])

(9)通过id和类名来找标签

print(bs.find(id='kw'))
print(bs.find(class_='shopping'))

注意:id是唯一的,通过id来找,只能找到一个,所以用find,而class不是唯一的,通过class来找,就有可能找到多个。

(10)select选择指定的标签

print(bs.select('title'))
print(bs.select('a'))

在bs4中,小数点“.”表示类名,#表示id

print(bs.select('.first'))
print(bs.select('#kw'))
print(bs.select('div.now'))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python 查找文件夹下所有文件 实现代码
Jul 01 Python
python黑魔法之参数传递
Feb 12 Python
Python中断言Assertion的一些改进方案
Oct 27 Python
python利用微信公众号实现报警功能
Jun 10 Python
pandas ix &iloc &loc的区别
Jan 10 Python
numpy.where() 用法详解
May 27 Python
tensorflow 环境变量设置方式
Feb 06 Python
python能开发游戏吗
Jun 11 Python
利用python绘制中国地图(含省界、河流等)
Sep 21 Python
Python的Tqdm模块实现进度条配置
Feb 24 Python
Django项目配置Memcached和Redis, 缓存选择哪个更有优势
Apr 06 Python
python 中的jieba分词库
Nov 23 Python
python清除字符串前后空格函数的方法
Oct 21 #Python
Windows系统下PhantomJS的安装和基本用法
Oct 21 #Python
Scrapy框架使用的基本知识
Oct 21 #Python
python去掉 unicode 字符串前面的u方法
Oct 21 #Python
python 分离文件名和路径以及分离文件名和后缀的方法
Oct 21 #Python
python之消除前缀重命名的方法
Oct 21 #Python
使用Scrapy爬取动态数据
Oct 21 #Python
You might like
德生PL660的电路分析和打磨
2021/03/02 无线电
教你IIS6的PHP最佳配置方法
2006/09/05 PHP
探讨fckeditor在Php中的配置详解
2013/06/08 PHP
php中filter_input函数用法分析
2014/11/15 PHP
PhpStorm配置Xdebug调试的方法步骤
2019/02/02 PHP
PHP批斗大会之缺失的异常详解
2019/07/09 PHP
mac pecl 安装php7.1扩展教程
2019/10/17 PHP
js Flash插入函数免激活代码
2009/03/31 Javascript
jQuery中setTimeout的几种使用方法小结
2013/04/07 Javascript
9行javascript代码获取QQ群成员具体实现
2013/10/16 Javascript
sencha touch 模仿tabpanel导航栏TabBar的实例代码
2013/10/24 Javascript
jQuery实现的多选框多级联动插件
2014/05/02 Javascript
javascript模拟post提交隐藏地址栏的参数
2014/09/03 Javascript
js实现跨域的4种实用方法原理分析
2015/10/29 Javascript
解决JS无法调用Controller问题的方法
2015/12/31 Javascript
JavaScript、tab切换完整版(自动切换、鼠标移入停止、移开运行)
2016/01/05 Javascript
jQuery实现鼠标悬停3d菜单展开动画效果
2017/01/19 Javascript
jQuery.Form实现Ajax上传文件同时设置headers的方法
2017/06/26 jQuery
python让图片按照exif信息里的创建时间进行排序的方法
2015/03/16 Python
Apache如何部署django项目
2017/05/21 Python
Python使用内置json模块解析json格式数据的方法
2017/07/20 Python
Python中字典的浅拷贝与深拷贝用法实例分析
2018/01/02 Python
10 行 Python 代码教你自动发送短信(不想回复工作邮件妙招)
2018/10/11 Python
Python一行代码实现快速排序的方法
2019/04/30 Python
Python中函数的基本定义与调用及内置函数详解
2019/05/13 Python
Python读取pdf表格写入excel的方法
2021/01/22 Python
一张图片能隐含千言万语之隐藏你的程序代码
2012/12/13 HTML / CSS
Trip.com香港网站:Ctrip携程旗下,全球最大的网上旅游社之一
2016/08/01 全球购物
国贸专业个人求职信分享
2013/12/04 职场文书
关于青春的演讲稿
2014/05/05 职场文书
安全环保标语
2014/06/09 职场文书
大学生找工作求职信
2014/07/09 职场文书
战略性融资合作协议书范本
2014/10/17 职场文书
出差报告范文
2014/11/06 职场文书
会计岗位职责范本
2015/04/02 职场文书
css3 文字断裂效果
2022/04/22 HTML / CSS