python爬虫beautifulsoup解析html方法


Posted in Python onDecember 07, 2020

用BeautifulSoup 解析html和xml字符串

python爬虫beautifulsoup解析html方法

实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
import re

#待分析字符串
html_doc = """
<html>
<head>
  <title>The Dormouse's story</title>
</head>
<body>
<p class="title aq">
  <b>
    The Dormouse's story
  </b>
</p>

<p class="story">Once upon a time there were three little sisters; and their names were
  <a href="http://example.com/elsie" rel="external nofollow" class="sister" id="link1">Elsie</a>,
  <a href="http://example.com/lacie" rel="external nofollow" class="sister" id="link2">Lacie</a> 
  and
  <a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
  and they lived at the bottom of a well.
</p>

<p class="story">...</p>
"""


# html字符串创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8')

#输出第一个 title 标签
print soup.title

#输出第一个 title 标签的标签名称
print soup.title.name

#输出第一个 title 标签的包含内容
print soup.title.string

#输出第一个 title 标签的父标签的标签名称
print soup.title.parent.name

#输出第一个 p 标签
print soup.p

#输出第一个 p 标签的 class 属性内容
print soup.p['class']

#输出第一个 a 标签的 href 属性内容
print soup.a['href']
'''
soup的属性可以被添加,删除或修改. 再说一次, soup的属性操作方法与字典一样
'''
#修改第一个 a 标签的href属性为 http://www.baidu.com/
soup.a['href'] = 'http://www.baidu.com/'

#给第一个 a 标签添加 name 属性
soup.a['name'] = u'百度'

#删除第一个 a 标签的 class 属性为
del soup.a['class']

##输出第一个 p 标签的所有子节点
print soup.p.contents

#输出第一个 a 标签
print soup.a

#输出所有的 a 标签,以列表形式显示
print soup.find_all('a')

#输出第一个 id 属性等于 link3 的 a 标签
print soup.find(id="link3")

#获取所有文字内容
print(soup.get_text())

#输出第一个 a 标签的所有属性信息
print soup.a.attrs


for link in soup.find_all('a'):
  #获取 link 的 href 属性内容
  print(link.get('href'))

#对soup.p的子节点进行循环输出  
for child in soup.p.children:
  print(child)

#正则匹配,名字中带有b的标签
for tag in soup.find_all(re.compile("b")):
  print(tag.name)

爬虫设计思路:

python爬虫beautifulsoup解析html方法

详细手册:

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

到此这篇关于python爬虫beautifulsoup解析html方法 的文章就介绍到这了,更多相关beautifulsoup解析html内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
分享一下Python 开发者节省时间的10个方法
Oct 02 Python
Python 的内置字符串方法小结
Mar 15 Python
Python中join函数简单代码示例
Jan 09 Python
python 对象和json互相转换方法
Mar 22 Python
详解Python中的分组函数groupby和itertools)
Jul 11 Python
Flask之flask-session的具体使用
Jul 26 Python
python 读取Linux服务器上的文件方法
Dec 27 Python
Python实现的逻辑回归算法示例【附测试csv文件下载】
Dec 28 Python
python提取照片坐标信息的实例代码
Aug 14 Python
Python pyautogui模块实现鼠标键盘自动化方法详解
Feb 17 Python
Windows下PyCharm配置Anaconda环境(超详细教程)
Jul 31 Python
python创建文本文件的简单方法
Aug 30 Python
python可视化 matplotlib画图使用colorbar工具自定义颜色
Dec 07 #Python
用ldap作为django后端用户登录验证的实现
Dec 07 #Python
Django中使用Celery的方法步骤
Dec 07 #Python
python集合的新增元素方法整理
Dec 07 #Python
python进行二次方程式计算的实例讲解
Dec 06 #Python
paramiko使用tail实时获取服务器的日志输出详解
Dec 06 #Python
python中二分查找法的实现方法
Dec 06 #Python
You might like
深入php处理整数函数的详解
2013/06/09 PHP
Fedora下安装php Redis扩展笔记
2014/09/03 PHP
Yii框架多语言站点配置方法分析【中文/英文切换站点】
2020/04/07 PHP
jQuery UI 应用不同Theme的办法
2010/09/12 Javascript
基于JQuery的日期联动实现代码
2011/02/24 Javascript
javascript权威指南 学习笔记之null和undefined
2011/09/25 Javascript
javascript垃圾收集机制与内存泄漏详细解析
2013/11/11 Javascript
包含中国城市的javascript对象实例
2015/08/03 Javascript
Bootstrap组件(一)之菜单
2016/05/11 Javascript
终于实现了!精彩的jquery弹幕效果
2016/07/18 Javascript
js改变透明度实现轮播图的算法
2020/08/24 Javascript
JavaScript 随机验证码的生成实例代码
2016/09/22 Javascript
jQuery html表格排序插件tablesorter使用方法详解
2017/02/10 Javascript
vue实现城市列表选择功能
2018/07/16 Javascript
详解Nodejs get获取远程服务器接口数据
2019/03/26 NodeJs
vue用ant design中table表格,点击某行时触发的事件操作
2020/10/28 Javascript
原生JS实现拖拽功能
2020/12/16 Javascript
sqlalchemy对象转dict的示例
2014/04/22 Python
Python中用于去除空格的三个函数的使用小结
2015/04/07 Python
python用户管理系统的实例讲解
2017/12/23 Python
win8.1安装Python 2.7版环境图文详解
2019/07/01 Python
python科学计算之numpy——ufunc函数用法
2019/11/25 Python
tf.concat中axis的含义与使用详解
2020/02/07 Python
详解selenium + chromedriver 被反爬的解决方法
2020/10/28 Python
HTML5中form如何关闭自动完成功能的方法
2018/07/02 HTML / CSS
英国第二大营养品供应商:Vitabiotics
2016/10/01 全球购物
Nike瑞士官网:Nike CH
2021/01/18 全球购物
医学专业五年以上个人求职信
2013/12/03 职场文书
医院护士的求职信范文
2013/12/26 职场文书
学生宿舍管理制度
2014/01/30 职场文书
竞选劳动委员演讲稿
2014/04/28 职场文书
党员应该树立反腐倡廉的坚定意识思想汇报
2014/09/12 职场文书
投标单位介绍信
2015/05/05 职场文书
2015年“我们的节日·中秋节”活动总结
2015/07/30 职场文书
pytest配置文件pytest.ini的详细使用
2021/04/17 Python
动视暴雪取消疫苗禁令 让所有员工返回线下工作
2022/04/03 其他游戏