python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例


Posted in Python onNovember 28, 2019

本文实例讲述了python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据。分享给大家供大家参考,具体如下:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作
from bs4 import BeautifulSoup
import urllib.request
import re
#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()
html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象
#查找a标签,只会查找出一个a标签
#print(soup.a)#<a class="sister" href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" id="xiaodeng"><!-- Elsie --></a>
for k in soup.find_all('a'):
 print(k)
 print(k['class'])#查a标签的class属性
 print(k['id'])#查a标签的id值
 print(k['href'])#查a标签的href值
 print(k.string)#查a标签的string
#如果,标签中含有其他标签,比如..,此时要提取中的数据,需要用k.get_text()
#tag.get('calss'),也可以达到这个效果

Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

更多关于Python相关内容可查看本站专题:《

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python三元运算实现方法
Jan 12 Python
Python实现批量检测HTTP服务的状态
Oct 27 Python
Python cookbook(数据结构与算法)字典相关计算问题示例
Feb 18 Python
浅谈python爬虫使用Selenium模拟浏览器行为
Feb 23 Python
Python之两种模式的生产者消费者模型详解
Oct 26 Python
python将txt文件读取为字典的示例
Dec 22 Python
pycharm 实现显示project 选项卡的方法
Jan 17 Python
Python实现KNN(K-近邻)算法的示例代码
Mar 05 Python
python tkinter实现彩球碰撞屏保
Jul 30 Python
python实现在多维数组中挑选符合条件的全部元素
Nov 26 Python
python使用PIL剪切和拼接图片
Mar 23 Python
python学习之使用Matplotlib画实时的动态折线图的示例代码
Feb 25 Python
解决Python二维数组赋值问题
Nov 28 #Python
python之array赋值技巧分享
Nov 28 #Python
python3 实现函数写文件路径的正确方法
Nov 27 #Python
关于Python3 lambda函数的深入浅出
Nov 27 #Python
python3中rank函数的用法
Nov 27 #Python
Python values()与itervalues()的用法详解
Nov 27 #Python
python3 assert 断言的使用详解 (区别于python2)
Nov 27 #Python
You might like
一个PHP模板,主要想体现一下思路
2006/12/25 PHP
基于php在各种web服务器的运行模式详解
2013/06/03 PHP
destoon二次开发常用数据库操作
2014/06/21 PHP
PHP连接数据库实现注册页面的增删改查操作
2016/03/27 PHP
Yii隐藏URL中index.php的方法
2016/07/12 PHP
Codeigniter里的无刷新上传的实现代码
2019/04/14 PHP
JQUBar 基于JQUERY的柱状图插件
2010/11/23 Javascript
原生javascript兼容性测试实例
2013/07/01 Javascript
javascript闭包的高级使用方法实例
2013/07/04 Javascript
轻松创建nodejs服务器(2):nodejs服务器的构成分析
2014/12/18 NodeJs
js实现随屏幕滚动的带缓冲效果的右下角广告代码
2015/09/04 Javascript
整理Javascript基础入门学习笔记
2015/11/29 Javascript
JS实现的打字机效果完整实例
2016/06/20 Javascript
基于原生js运动方式关键点的总结(推荐)
2017/10/01 Javascript
layerUI下的绑定事件实例代码
2018/08/17 Javascript
Vue2.x通用条件搜索组件的封装及应用详解
2019/05/28 Javascript
vue 解除鼠标的监听事件的方法
2019/11/13 Javascript
JavaScript中遍历的十种方法总结
2020/12/15 Javascript
Python实现队列的方法
2015/05/26 Python
Pandas中把dataframe转成array的方法
2018/04/13 Python
python处理两种分隔符的数据集方法
2018/12/12 Python
HearthSong官网:儿童户外玩具、儿童益智玩具
2017/10/16 全球购物
全球最大的中文旅行网站:去哪儿网
2017/11/16 全球购物
新西兰便宜隐形眼镜购买网站:QUICKLENS New Zealand
2019/03/02 全球购物
Kusmi茶美国官网:优质散叶茶和茶包
2019/10/13 全球购物
当当网软件测试笔试题
2015/11/24 面试题
中文系学生自荐信范文
2013/11/13 职场文书
政府门卫岗位职责
2014/04/29 职场文书
简洁的英文求职信范文
2014/05/03 职场文书
三下乡个人总结
2015/03/04 职场文书
环保守法证明
2015/06/24 职场文书
2016年“12.4”法制宣传日活动总结
2016/04/01 职场文书
Python数据可视化之绘制柱状图和条形图
2021/05/25 Python
Vue鼠标滚轮滚动切换路由效果的实现方法
2021/08/04 Vue.js
疑《守望先锋2》A测截图泄露 或将推出新模式、新界面
2022/04/03 其他游戏
Mysql数据库事务的脏读幻读及不可重复读详解
2022/05/30 MySQL