python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例


Posted in Python onNovember 28, 2019

本文实例讲述了python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据。分享给大家供大家参考,具体如下:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作
from bs4 import BeautifulSoup
import urllib.request
import re
#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()
html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象
#查找a标签,只会查找出一个a标签
#print(soup.a)#<a class="sister" href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" id="xiaodeng"><!-- Elsie --></a>
for k in soup.find_all('a'):
 print(k)
 print(k['class'])#查a标签的class属性
 print(k['id'])#查a标签的id值
 print(k['href'])#查a标签的href值
 print(k.string)#查a标签的string
#如果,标签中含有其他标签,比如..,此时要提取中的数据,需要用k.get_text()
#tag.get('calss'),也可以达到这个效果

Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

更多关于Python相关内容可查看本站专题:《

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python通过colorama模块在控制台输出彩色文字的方法
Mar 19 Python
介绍Python中的文档测试模块
Apr 28 Python
深入浅析Python字符编码
Nov 12 Python
python实现随机森林random forest的原理及方法
Dec 21 Python
Python基于pycrypto实现的AES加密和解密算法示例
Apr 10 Python
详解Selenium+PhantomJS+python简单实现爬虫的功能
Jul 14 Python
Python实现微信翻译机器人的方法
Aug 13 Python
python字符串格式化方式解析
Oct 19 Python
浅谈pytorch卷积核大小的设置对全连接神经元的影响
Jan 10 Python
Python Selenium参数配置方法解析
Jan 19 Python
Python基础之列表常见操作经典实例详解
Feb 26 Python
Python实现Appium端口检测与释放的实现
Dec 31 Python
解决Python二维数组赋值问题
Nov 28 #Python
python之array赋值技巧分享
Nov 28 #Python
python3 实现函数写文件路径的正确方法
Nov 27 #Python
关于Python3 lambda函数的深入浅出
Nov 27 #Python
python3中rank函数的用法
Nov 27 #Python
Python values()与itervalues()的用法详解
Nov 27 #Python
python3 assert 断言的使用详解 (区别于python2)
Nov 27 #Python
You might like
十天学会php之第九天
2006/10/09 PHP
解析Win7 XAMPP apache无法启动的问题
2013/06/26 PHP
php使用递归计算文件夹大小
2014/12/24 PHP
PHP获取用户访问IP地址的5种方法
2016/05/16 PHP
Yii数据模型中rules类验证器用法分析
2016/07/15 PHP
jValidate 基于jQuery的表单验证插件
2009/12/12 Javascript
jquery validate.js表单验证的基本用法入门
2010/05/13 Javascript
常用的JavaScript验证正则表达式汇总
2013/11/26 Javascript
JavaScript实现的字符串replaceAll函数代码分享
2015/04/02 Javascript
详解参数传递四种形式
2015/07/21 Javascript
JavaScript 性能优化小结
2015/10/12 Javascript
javascript实现3D切换焦点图
2015/10/16 Javascript
Node.js实用代码段之正确拼接Buffer
2016/03/17 Javascript
js解决movebox移动问题
2016/03/29 Javascript
用JavaScript获取页面文档内容的实现代码
2016/06/10 Javascript
VC调用javascript的几种方法(推荐)
2016/08/09 Javascript
使用form-create动态生成vue自定义组件和嵌套表单组件
2019/01/18 Javascript
[01:30]2016国际邀请赛中国区预选赛神秘商店火爆开启
2016/06/26 DOTA
[01:00:25]NB vs Secret 2018国际邀请赛小组赛BO1 B组加赛 8.19
2018/08/21 DOTA
python多线程方式执行多个bat代码
2016/06/07 Python
Python批量修改图片分辨率的实例代码
2019/07/04 Python
Django外键(ForeignKey)操作以及related_name的作用详解
2019/07/29 Python
NumPy排序的实现
2020/01/21 Python
jupyter使用自动补全和切换默认浏览器的方法
2020/11/18 Python
实例教程 一款纯css3实现的数字统计游戏
2014/11/10 HTML / CSS
美国精品地毯网站:Boutique Rugs
2020/03/04 全球购物
LightInTheBox法国站:中国跨境电商
2020/03/05 全球购物
在使用非全零作为空指针内部表达的机器上, NULL是如何定义
2014/11/09 面试题
毕业生怎样写好自荐信
2013/11/11 职场文书
实习求职信
2013/12/01 职场文书
宣传工作经验材料
2014/06/02 职场文书
婚礼领导致辞大全
2015/07/28 职场文书
小学大队委竞选口号
2015/12/25 职场文书
祝福语集锦:送给闺蜜的生日祝福语
2019/10/08 职场文书
OpenCV全景图像拼接的实现示例
2021/06/05 Python
Nginx 安装SSL证书完成HTTPS部署
2022/04/28 Servers