python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例


Posted in Python onNovember 28, 2019

本文实例讲述了python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据。分享给大家供大家参考,具体如下:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作
from bs4 import BeautifulSoup
import urllib.request
import re
#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()
html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象
#查找a标签,只会查找出一个a标签
#print(soup.a)#<a class="sister" href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" id="xiaodeng"><!-- Elsie --></a>
for k in soup.find_all('a'):
 print(k)
 print(k['class'])#查a标签的class属性
 print(k['id'])#查a标签的id值
 print(k['href'])#查a标签的href值
 print(k.string)#查a标签的string
#如果,标签中含有其他标签,比如..,此时要提取中的数据,需要用k.get_text()
#tag.get('calss'),也可以达到这个效果

Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

更多关于Python相关内容可查看本站专题:《

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
天翼开放平台免费短信验证码接口使用实例
Dec 18 Python
Python中使用SAX解析xml实例
Nov 21 Python
Python中的ctime()方法使用教程
May 22 Python
Python设计模式之解释器模式原理与用法实例分析
Jan 10 Python
对python中if语句的真假判断实例详解
Feb 18 Python
Python下opencv图像阈值处理的使用笔记
Aug 04 Python
python中的反斜杠问题深入讲解
Aug 12 Python
numpy 声明空数组详解
Dec 05 Python
Python如何将图像音视频等资源文件隐藏在代码中(小技巧)
Feb 16 Python
python GUI库图形界面开发之PyQt5状态栏控件QStatusBar详细使用方法实例
Feb 28 Python
如何用Python编写一个电子考勤系统
Feb 08 Python
Python实现粒子群算法的示例
Feb 14 Python
解决Python二维数组赋值问题
Nov 28 #Python
python之array赋值技巧分享
Nov 28 #Python
python3 实现函数写文件路径的正确方法
Nov 27 #Python
关于Python3 lambda函数的深入浅出
Nov 27 #Python
python3中rank函数的用法
Nov 27 #Python
Python values()与itervalues()的用法详解
Nov 27 #Python
python3 assert 断言的使用详解 (区别于python2)
Nov 27 #Python
You might like
Php部分常见问题总结
2006/10/09 PHP
PHP中HTTP方式下的Gzip压缩传输方法举偶
2007/02/15 PHP
PHP代码审核的详细介绍
2013/06/13 PHP
win7下memCache的安装过程(具体操作步骤)
2013/06/28 PHP
php字符串函数学习之strstr()
2015/03/27 PHP
3种方法轻松处理php开发中emoji表情的问题
2016/07/18 PHP
User Scripts: Video Download by User Scripts
2007/05/14 Javascript
javascript globalStorage类代码
2009/06/04 Javascript
js 省地市级联选择
2010/02/07 Javascript
使用jquery动态加载javascript以减少服务器压力
2012/10/29 Javascript
jquery ajax实现下拉框三级无刷新联动,且保存保持选中值状态
2013/10/29 Javascript
Extjs4实现两个GridPanel之间数据拖拽功能具体方法
2013/11/21 Javascript
jquery 绑定回车动作扑捉回车键触发的事件
2014/03/26 Javascript
sogou地图API用法实例教程
2014/09/11 Javascript
超精准的javascript验证身份证号的具体实现方法
2015/11/18 Javascript
JavaScript模拟鼠标右键菜单效果
2020/12/08 Javascript
在微信、支付宝、百度钱包实现点击返回按钮关闭当前页面和窗口的方法
2016/08/05 Javascript
JavaScript解析任意形式的json树型结构展示
2017/07/23 Javascript
vue axios数据请求及vue中使用axios的方法
2018/09/10 Javascript
基于Node.js搭建hexo博客过程详解
2019/06/25 Javascript
jquery.pager.js实现分页效果
2019/07/29 jQuery
JavaScript实现简单日历效果
2020/09/11 Javascript
python中pandas.DataFrame排除特定行方法示例
2017/03/12 Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
2018/05/21 Python
python文件操作之批量修改文件后缀名的方法
2018/08/10 Python
Python wxPython库Core组件BoxSizer用法示例
2018/09/03 Python
python基础 range的用法解析
2019/08/23 Python
日本整理专家Marie Kondo的官方在线商店:KonMari
2020/06/29 全球购物
西式婚礼证婚词
2014/01/12 职场文书
消防应急演练方案
2014/02/12 职场文书
企业承诺书格式
2014/05/21 职场文书
组织鉴定材料
2014/06/02 职场文书
实施意见格式范本
2015/06/05 职场文书
无犯罪记录证明样本
2015/06/16 职场文书
用CSS3画一个爱心
2021/04/27 HTML / CSS
把77A收信机改造成收音机
2022/04/05 无线电