python爬虫beautifulsoup解析html方法


Posted in Python onDecember 07, 2020

用BeautifulSoup 解析html和xml字符串

python爬虫beautifulsoup解析html方法

实例:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
import re

#待分析字符串
html_doc = """
<html>
<head>
  <title>The Dormouse's story</title>
</head>
<body>
<p class="title aq">
  <b>
    The Dormouse's story
  </b>
</p>

<p class="story">Once upon a time there were three little sisters; and their names were
  <a href="http://example.com/elsie" rel="external nofollow" class="sister" id="link1">Elsie</a>,
  <a href="http://example.com/lacie" rel="external nofollow" class="sister" id="link2">Lacie</a> 
  and
  <a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
  and they lived at the bottom of a well.
</p>

<p class="story">...</p>
"""


# html字符串创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8')

#输出第一个 title 标签
print soup.title

#输出第一个 title 标签的标签名称
print soup.title.name

#输出第一个 title 标签的包含内容
print soup.title.string

#输出第一个 title 标签的父标签的标签名称
print soup.title.parent.name

#输出第一个 p 标签
print soup.p

#输出第一个 p 标签的 class 属性内容
print soup.p['class']

#输出第一个 a 标签的 href 属性内容
print soup.a['href']
'''
soup的属性可以被添加,删除或修改. 再说一次, soup的属性操作方法与字典一样
'''
#修改第一个 a 标签的href属性为 http://www.baidu.com/
soup.a['href'] = 'http://www.baidu.com/'

#给第一个 a 标签添加 name 属性
soup.a['name'] = u'百度'

#删除第一个 a 标签的 class 属性为
del soup.a['class']

##输出第一个 p 标签的所有子节点
print soup.p.contents

#输出第一个 a 标签
print soup.a

#输出所有的 a 标签,以列表形式显示
print soup.find_all('a')

#输出第一个 id 属性等于 link3 的 a 标签
print soup.find(id="link3")

#获取所有文字内容
print(soup.get_text())

#输出第一个 a 标签的所有属性信息
print soup.a.attrs


for link in soup.find_all('a'):
  #获取 link 的 href 属性内容
  print(link.get('href'))

#对soup.p的子节点进行循环输出  
for child in soup.p.children:
  print(child)

#正则匹配,名字中带有b的标签
for tag in soup.find_all(re.compile("b")):
  print(tag.name)

爬虫设计思路:

python爬虫beautifulsoup解析html方法

详细手册:

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

到此这篇关于python爬虫beautifulsoup解析html方法 的文章就介绍到这了,更多相关beautifulsoup解析html内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
浅析Python中return和finally共同挖的坑
Aug 18 Python
Php多进程实现代码
May 07 Python
浅谈Pandas:Series和DataFrame间的算术元素
Dec 22 Python
详解pandas库pd.read_excel操作读取excel文件参数整理与实例
Feb 17 Python
实例详解Python装饰器与闭包
Jul 29 Python
基于TensorBoard中graph模块图结构分析
Feb 15 Python
win10从零安装配置pytorch全过程图文详解
May 08 Python
Python的控制结构之For、While、If循环问题
Jun 30 Python
Python 连接 MySQL 的几种方法
Sep 09 Python
python爬虫爬取网页数据并解析数据
Sep 18 Python
python实现简单倒计时功能
Apr 21 Python
基于Python实现对比Exce的工具
Apr 07 Python
python可视化 matplotlib画图使用colorbar工具自定义颜色
Dec 07 #Python
用ldap作为django后端用户登录验证的实现
Dec 07 #Python
Django中使用Celery的方法步骤
Dec 07 #Python
python集合的新增元素方法整理
Dec 07 #Python
python进行二次方程式计算的实例讲解
Dec 06 #Python
paramiko使用tail实时获取服务器的日志输出详解
Dec 06 #Python
python中二分查找法的实现方法
Dec 06 #Python
You might like
用PHP函数解决SQL injection
2006/10/09 PHP
提升PHP执行速度全攻略(上)
2006/10/09 PHP
PHP 数组操作详解【遍历、指针、函数等】
2020/05/13 PHP
网页自动刷新,不产生嗒嗒声的一个解决方法
2007/03/27 Javascript
服务器端的JavaScript脚本 Node.js 使用入门
2012/03/07 Javascript
css3元素简单的闪烁效果实现(html5 jquery)
2013/12/28 Javascript
js中文逗号转英文实现
2014/02/11 Javascript
JavaScript中的类与实例实现方法
2015/01/23 Javascript
javascript事件冒泡实例分析
2015/05/13 Javascript
javascript常用函数(2)
2015/11/05 Javascript
js将当前时间格式化为 年-月-日 时:分:秒的实现代码
2018/01/20 Javascript
通过jquery.cookie.js实现记住用户名、密码登录功能
2018/06/20 jQuery
谈谈为什么你的 JavaScript 代码如此冗长
2019/01/30 Javascript
javascript实现移动端红包雨页面
2020/06/23 Javascript
JSON stringify方法原理及实例解析
2020/10/23 Javascript
Python 两个列表的差集、并集和交集实现代码
2016/09/21 Python
Python爬虫之pandas基本安装与使用方法示例
2018/08/08 Python
python使用paramiko模块通过ssh2协议对交换机进行配置的方法
2019/07/25 Python
Pytorch在NLP中的简单应用详解
2020/01/08 Python
python安装dlib库报错问题及解决方法
2020/03/16 Python
计算Python Numpy向量之间的欧氏距离实例
2020/05/22 Python
python Matplotlib数据可视化(2):详解三大容器对象与常用设置
2020/09/30 Python
HTML5 FileReader对象的具体使用方法
2020/05/22 HTML / CSS
Solid & Striped官网:美国泳装品牌
2019/06/19 全球购物
如何用Python输出一个Fibonacci数列
2016/08/28 面试题
人力资源管理专业毕业生自我评价
2013/09/21 职场文书
日语翻译个人求职的自我评价
2013/10/14 职场文书
医学专业本科毕业生自我鉴定
2013/12/28 职场文书
幼儿教师演讲稿
2014/05/06 职场文书
购房公证委托书(2014版)
2014/09/12 职场文书
党风廉政建设调研报告
2015/01/01 职场文书
酒店辞职书怎么写
2015/02/26 职场文书
2014年个人年终总结
2015/03/09 职场文书
2015年幼师个人工作总结
2015/10/15 职场文书
某药房的新员工入职告知书!
2019/07/15 职场文书
python中的plt.cm.Paired用法说明
2021/05/31 Python