python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例


Posted in Python onNovember 28, 2019

本文实例讲述了python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据。分享给大家供大家参考,具体如下:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作
from bs4 import BeautifulSoup
import urllib.request
import re
#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()
html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象
#查找a标签,只会查找出一个a标签
#print(soup.a)#<a class="sister" href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" id="xiaodeng"><!-- Elsie --></a>
for k in soup.find_all('a'):
 print(k)
 print(k['class'])#查a标签的class属性
 print(k['id'])#查a标签的id值
 print(k['href'])#查a标签的href值
 print(k.string)#查a标签的string
#如果,标签中含有其他标签,比如..,此时要提取中的数据,需要用k.get_text()
#tag.get('calss'),也可以达到这个效果

Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

更多关于Python相关内容可查看本站专题:《

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python实现各种排序算法的代码示例总结
Dec 11 Python
详解Python 数据库 (sqlite3)应用
Dec 07 Python
Python实现 多进程导入CSV数据到 MySQL
Feb 26 Python
CentOS 6.5下安装Python 3.5.2(与Python2并存)
Jun 05 Python
python 简单的绘图工具turtle使用详解
Jun 21 Python
Python更新数据库脚本两种方法及对比介绍
Jul 27 Python
用python脚本24小时刷浏览器的访问量方法
Dec 07 Python
python实现自动解数独小程序
Jan 21 Python
运用PyTorch动手搭建一个共享单车预测器
Aug 06 Python
详解python中的模块及包导入
Aug 30 Python
使用OpenCV-python3实现滑动条更新图像的Canny边缘检测功能
Dec 12 Python
Python中glob库实现文件名的匹配
Jun 18 Python
解决Python二维数组赋值问题
Nov 28 #Python
python之array赋值技巧分享
Nov 28 #Python
python3 实现函数写文件路径的正确方法
Nov 27 #Python
关于Python3 lambda函数的深入浅出
Nov 27 #Python
python3中rank函数的用法
Nov 27 #Python
Python values()与itervalues()的用法详解
Nov 27 #Python
python3 assert 断言的使用详解 (区别于python2)
Nov 27 #Python
You might like
ThinkPHP权限认证Auth实例详解
2014/07/22 PHP
对比PHP对MySQL的缓冲查询和无缓冲查询
2016/07/01 PHP
mac系统下为 php 添加 pcntl 扩展
2016/08/28 PHP
PHPExcel实现表格导出功能示例【带有多个工作sheet】
2018/06/13 PHP
快速保存网页中所有图片的方法
2006/06/23 Javascript
javascript在事件监听方面的兼容性小结
2010/04/07 Javascript
jquery实现div拖拽宽度示例代码
2013/07/31 Javascript
基于JavaScript实现移除(删除)数组中指定元素
2016/01/04 Javascript
jQuery插件ContextMenu自定义图标
2017/03/15 Javascript
JS简单实现数组去重的方法示例
2017/03/27 Javascript
微信小程序之批量上传并压缩图片的实例代码
2018/07/05 Javascript
移动端滑动切换组件封装 vue-swiper-router实例详解
2018/11/25 Javascript
基于Fixed定位的框选功能的实现代码
2019/05/13 Javascript
[08:44]和酒神一起战斗 DOTA2教你做大人
2014/03/27 DOTA
通过mod_python配置运行在Apache上的Django框架
2015/07/22 Python
Python实现简单的多任务mysql转xml的方法
2017/02/08 Python
Django框架 Pagination分页实现代码实例
2019/09/04 Python
python kafka 多线程消费者&amp;手动提交实例
2019/12/21 Python
Python3 xml.etree.ElementTree支持的XPath语法详解
2020/03/06 Python
Python run()函数和start()函数的比较和差别介绍
2020/05/03 Python
Python tkinter界面实现历史天气查询的示例代码
2020/08/23 Python
CSS3实现大小不一的粒子旋转加载动画
2016/04/21 HTML / CSS
新西兰领先的鞋类和靴子网上商城:Merchant 1948
2017/09/08 全球购物
英国银首饰公司:e&e Jewellery
2021/02/11 全球购物
外企测试工程师面试题
2015/02/01 面试题
食堂员工工作职责
2013/12/18 职场文书
担保书格式及范文
2014/04/01 职场文书
欢迎领导标语
2014/06/27 职场文书
欢度春节标语
2014/07/01 职场文书
医生学习党的群众路线教育实践活动心得体会
2014/11/03 职场文书
重阳节简报
2015/07/20 职场文书
导游词之桂林
2019/08/20 职场文书
Python中seaborn库之countplot的数据可视化使用
2021/06/11 Python
自动在Windows中运行Python脚本并定时触发功能实现
2021/09/04 Python
Python中super().__init__()测试以及理解
2021/12/06 Python
Python绘制散点图之可视化神器pyecharts
2022/07/07 Python