python中bs4.BeautifulSoup的基本用法


Posted in Python onJuly 27, 2019

导入模块

from bs4 import BeautifulSoup
 
soup = BeautifulSoup(html_doc,"html.parser")

下面看下常见的用法

print(soup.a)
  # 拿到soup中的第一个a标签
 
 
 
  print(soup.a.name)
  # 获取a标签的名称
 
 
  print(soup.a.string)
  # 获取a标签的文本内容
 
 
  print(soup.a.text)
  # 获取a标签的文本内容
 
 
  print(soup.a["href"])
  # 获取a标签的href属性的值
 
  print(soup.a.get("href"))
  # 查找第一个a标签的href的属性
 
  print(soup.a.attrs)
  # 获取a标签的所有的属性,返回一个字典
 
 
 
  print(soup.find("a"))
  # 查找第一个a标签
 
 
  print(soup.find_all("a"))
  # 查找所有的a标签
 
 
  print(soup.find_all(id="a1"))
  # 查找所有的的id为a1的标签
 
 
  print(soup.find_all(class_="sistex"))
  # 这里需要注意,如果需要通过class去查找,则需要一个下划线
 
 
  print(soup.find_all(["a","p","br"]))
  # 查找所有的啊标签,p标签和br标签
 
 
  soup.find("a").attrs["class"] = "2b"
  # 修改某个标签的属性值
 
  del soup.find(id="a1").attrs["class"]
  # 删除某个标签的class属性
import re
 
soup.find(re.compile("b"))
# 标签中有b这个字符的标签
 
 
soup.select("a.syster")
# 这个可以放标签选择器
 
soup.select(".syster .abcd")
# 这个可以放标签选择器
 
 
soup.find("a").decompose()
# 从当前字符串中删除第一个a标签,是在原位置进行删除

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python类:class创建、数据方法属性及访问控制详解
Jul 25 Python
python实现守护进程、守护线程、守护非守护并行
May 05 Python
python实现雨滴下落到地面效果
Jun 21 Python
对python过滤器和lambda函数的用法详解
Jan 21 Python
深入浅析Python 中 is 语法带来的误解
May 07 Python
python TF-IDF算法实现文本关键词提取
May 29 Python
PyQt5 实现字体大小自适应分辨率的方法
Jun 18 Python
Python imread、newaxis用法详解
Nov 04 Python
python 实现汉诺塔游戏
Nov 28 Python
python实现图片转字符画
Feb 19 Python
python爬取网页版QQ空间,生成各类图表
Jun 02 Python
python turtle绘图
May 04 Python
Django的Modelforms用法简介
Jul 27 #Python
在django admin中添加自定义视图的例子
Jul 26 #Python
深入了解Django中间件及其方法
Jul 26 #Python
如何在Django项目中引入静态文件
Jul 26 #Python
Python 画出来六维图
Jul 26 #Python
django做form表单的数据验证过程详解
Jul 26 #Python
python用win32gui遍历窗口并设置窗口位置的方法
Jul 26 #Python
You might like
自动生成文章摘要的代码[PHP 版本]
2007/03/20 PHP
五款常用mysql slow log分析工具的比较分析
2011/05/22 PHP
php引用返回与取消引用的详解
2013/06/08 PHP
PHP连接Access数据库的方法小结
2013/06/20 PHP
PHP代码实现表单数据验证类
2015/07/28 PHP
PHP实现生成推广海报的方法详解
2018/03/14 PHP
PHP生成(支持多模板)二维码海报代码
2018/04/30 PHP
javascript FormatNumber函数实现方法
2008/12/30 Javascript
jquery.ui.progressbar 中文文档
2009/11/26 Javascript
在firefox和Chrome下关闭浏览器窗口无效的解决方法
2014/01/16 Javascript
extjs 时间范围选择自动判断的实现代码
2014/06/24 Javascript
jQuery中:text选择器用法实例
2015/01/03 Javascript
JavaScript使用指针操作实现约瑟夫问题实例
2015/04/07 Javascript
jQuery子窗体取得父窗体元素的方法
2015/05/11 Javascript
三种Node.js写文件的方式
2016/03/08 Javascript
JavaScript学习笔记整理_用于模式匹配的String方法
2016/09/19 Javascript
基于JavaScript实现移动端无限加载分页
2017/03/27 Javascript
node打造微信个人号机器人的方法示例
2018/04/26 Javascript
在vue.js中使用JSZip实现在前端解压文件的方法
2018/09/05 Javascript
vue登录以及权限验证相关的实现
2019/10/25 Javascript
使用vue打包进行云服务器上传的问题
2020/03/02 Javascript
[05:07]DOTA2英雄梦之声_第14期_暗影恶魔
2014/06/20 DOTA
Python 调用DLL操作抄表机
2009/01/12 Python
浅谈五大Python Web框架
2017/03/20 Python
python实现批量修改文件名代码
2017/09/10 Python
对python-3-print重定向输出的几种方法总结
2018/05/11 Python
python 获取utc时间转化为本地时间的方法
2018/12/31 Python
Python基于opencv实现的简单画板功能示例
2019/03/04 Python
Pyqt5 实现跳转界面并关闭当前界面的方法
2019/06/19 Python
详解用Pytest+Allure生成漂亮的HTML图形化测试报告
2020/03/31 Python
Python-openpyxl表格读取写入的案例详解
2020/11/02 Python
用python计算文件的MD5值
2020/12/23 Python
课外科技活动总结
2014/08/27 职场文书
2014年九一八事变演讲稿
2014/09/14 职场文书
党的群众路线教育实践活动个人整改措施落实情况
2014/11/04 职场文书
Java循环队列与非循环队列的区别总结
2021/06/22 Java/Android