python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例


Posted in Python onNovember 28, 2019

本文实例讲述了python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据。分享给大家供大家参考,具体如下:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作
from bs4 import BeautifulSoup
import urllib.request
import re
#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()
html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象
#查找a标签,只会查找出一个a标签
#print(soup.a)#<a class="sister" href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" id="xiaodeng"><!-- Elsie --></a>
for k in soup.find_all('a'):
 print(k)
 print(k['class'])#查a标签的class属性
 print(k['id'])#查a标签的id值
 print(k['href'])#查a标签的href值
 print(k.string)#查a标签的string
#如果,标签中含有其他标签,比如..,此时要提取中的数据,需要用k.get_text()
#tag.get('calss'),也可以达到这个效果

Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

更多关于Python相关内容可查看本站专题:《

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python subprocess模块学习总结
Mar 13 Python
Python初学时购物车程序练习实例(推荐)
Aug 08 Python
Python3 处理JSON的实例详解
Oct 29 Python
Python对切片命名的实现方法
Oct 16 Python
Python之两种模式的生产者消费者模型详解
Oct 26 Python
Django中提供的6种缓存方式详解
Aug 05 Python
TensorFlow学习之分布式的TensorFlow运行环境
Feb 05 Python
Tensorflow: 从checkpoint文件中读取tensor方式
Feb 10 Python
python实现低通滤波器代码
Feb 26 Python
Python3通过chmod修改目录或文件权限的方法示例
Jun 08 Python
python3.7.3版本和django2.2.3版本是否可以兼容
Sep 01 Python
python request 模块详细介绍
Nov 10 Python
解决Python二维数组赋值问题
Nov 28 #Python
python之array赋值技巧分享
Nov 28 #Python
python3 实现函数写文件路径的正确方法
Nov 27 #Python
关于Python3 lambda函数的深入浅出
Nov 27 #Python
python3中rank函数的用法
Nov 27 #Python
Python values()与itervalues()的用法详解
Nov 27 #Python
python3 assert 断言的使用详解 (区别于python2)
Nov 27 #Python
You might like
PHP安全配置
2006/10/09 PHP
PHP与MySQL开发的8个技巧小结
2010/12/17 PHP
php 数据库字段复用的基本原理与示例
2011/07/22 PHP
php通过文件流方式复制文件的方法
2015/03/13 PHP
JavaScript的Function详细
2006/11/14 Javascript
jQuery与其它库冲突的解决方法
2010/06/25 Javascript
javascript 词法作用域和闭包分析说明
2010/08/12 Javascript
Extjs gridpanel 出现横向滚动条问题的解决方法
2011/07/04 Javascript
javascript之querySelector和querySelectorAll使用介绍
2011/12/20 Javascript
jQuery显示和隐藏 常用的状态判断方法
2015/01/29 Javascript
jQuery on()方法使用技巧详解
2015/04/16 Javascript
JavaScript中使用自然对数ln的方法
2015/06/14 Javascript
jquery实现漫天雪花飞舞的圣诞祝福雪花效果代码分享
2015/08/20 Javascript
Node.js程序中的本地文件操作用法小结
2016/03/06 Javascript
zTree插件下拉树使用入门教程
2016/04/11 Javascript
理解javascript中的闭包
2017/01/11 Javascript
小程序实现多列选择器
2019/02/15 Javascript
JavaScript JSON使用原理及注意事项
2020/07/30 Javascript
在Python中用get()方法获取字典键值的教程
2015/05/21 Python
Python内置函数——__import__ 的使用方法
2017/11/24 Python
python模拟表单提交登录图书馆
2018/04/27 Python
Python3 修改默认环境的方法
2019/02/16 Python
Python中xml和dict格式转换的示例代码
2019/11/07 Python
Pytoch之torchvision.transforms图像变换实例
2019/12/30 Python
PyCharm 专业版安装图文教程
2020/02/20 Python
Python标准库shutil模块使用方法解析
2020/03/10 Python
Python telnet登陆功能实现代码
2020/04/16 Python
python如何安装下载后的模块
2020/07/03 Python
增大python字体的方法步骤
2020/07/05 Python
Css3圆角边框制作代码
2015/11/18 HTML / CSS
美国男装连锁零售商:Men’s Wearhouse
2016/10/14 全球购物
eDreams澳大利亚:预订机票、酒店和度假产品
2017/04/19 全球购物
高中毕业自我鉴定
2013/12/13 职场文书
MySQL中存储时间的最佳实践指南
2021/07/01 MySQL
react 路由Link配置详解
2021/11/11 Javascript
微软团队与 NASA 科学家和惠普企业(HPE)的工程师合作
2022/04/21 数码科技