python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例


Posted in Python onNovember 28, 2019

本文实例讲述了python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据。分享给大家供大家参考,具体如下:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作
from bs4 import BeautifulSoup
import urllib.request
import re
#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()
html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象
#查找a标签,只会查找出一个a标签
#print(soup.a)#<a class="sister" href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" id="xiaodeng"><!-- Elsie --></a>
for k in soup.find_all('a'):
 print(k)
 print(k['class'])#查a标签的class属性
 print(k['id'])#查a标签的id值
 print(k['href'])#查a标签的href值
 print(k.string)#查a标签的string
#如果,标签中含有其他标签,比如..,此时要提取中的数据,需要用k.get_text()
#tag.get('calss'),也可以达到这个效果

Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

更多关于Python相关内容可查看本站专题:《

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python通过解析网页实现看报程序的方法
Aug 04 Python
详解Python装饰器由浅入深
Dec 09 Python
spyder常用快捷键(分享)
Jul 19 Python
在Python中给Nan值更改为0的方法
Oct 30 Python
Empty test suite.(PyCharm程序运行错误的解决方法)
Nov 30 Python
nohup后台启动Python脚本,log不刷新的解决方法
Jan 14 Python
解决在Python编辑器pycharm中程序run正常debug错误的问题
Jan 17 Python
基于tensorflow指定GPU运行及GPU资源分配的几种方式小结
Feb 03 Python
谈谈Python:为什么类中的私有属性可以在外部赋值并访问
Mar 05 Python
selenium+python配置chrome浏览器的选项的实现
Mar 18 Python
Python3中FuzzyWuzzy库实例用法
Nov 18 Python
Django用内置方法实现简单搜索功能的方法
Dec 18 Python
解决Python二维数组赋值问题
Nov 28 #Python
python之array赋值技巧分享
Nov 28 #Python
python3 实现函数写文件路径的正确方法
Nov 27 #Python
关于Python3 lambda函数的深入浅出
Nov 27 #Python
python3中rank函数的用法
Nov 27 #Python
Python values()与itervalues()的用法详解
Nov 27 #Python
python3 assert 断言的使用详解 (区别于python2)
Nov 27 #Python
You might like
六酷社区论坛HOME页清新格调免费版 下载
2007/03/07 PHP
php 网页播放器用来播放在线视频的代码(自动判断并选择视频文件类型)
2010/06/03 PHP
PHP CodeBase:将时间显示为&quot;刚刚&quot;&quot;n分钟/小时前&quot;的方法详解
2013/06/06 PHP
Smarty中调用FCKeditor的方法
2014/10/27 PHP
PHP 使用 Imagick 裁切/生成缩略图/添加水印自动检测和处理 GIF
2016/02/19 PHP
JQuery触发事件例如click
2013/09/11 Javascript
js 自动播放的实例代码
2013/11/19 Javascript
JavaScript中的异常捕捉介绍
2014/12/31 Javascript
Bootstrap每天必学之前端开发框架
2015/11/19 Javascript
IOS中safari下的select下拉菜单文字过长不换行的解决方法
2016/09/26 Javascript
完美实现js焦点轮播效果(一)
2017/03/07 Javascript
微信小程序 实现动态显示和隐藏某个控件
2017/04/27 Javascript
AngularJS实现的回到顶部指令功能实例
2017/05/17 Javascript
使用puppeteer破解极验的滑动验证码
2018/02/24 Javascript
vue组件间通信六种方式(总结篇)
2019/05/15 Javascript
微信小程序全局变量改变监听的实现方法
2019/07/15 Javascript
微信小程序拼接图片链接无底洞深入探究
2019/09/03 Javascript
使用Easyui实现查询条件的后端传递并自动刷新表格的两种方法
2019/09/09 Javascript
Vue过渡效果之CSS过渡详解(结合transition,animation,animate.css)
2020/02/05 Javascript
node.js实现http服务器与浏览器之间的内容缓存操作示例
2020/02/11 Javascript
python使用cPickle模块序列化实例
2014/09/25 Python
Python使用reportlab将目录下所有的文本文件打印成pdf的方法
2015/05/20 Python
为Python的Tornado框架配置使用Jinja2模板引擎的方法
2016/06/30 Python
python 编码规范整理
2018/05/05 Python
python3解析库lxml的安装与基本使用
2018/06/27 Python
Python将视频或者动态图gif逐帧保存为图片的方法
2019/09/10 Python
python使用 cx_Oracle 模块进行查询操作示例
2019/11/28 Python
Python中logger日志模块详解
2020/08/04 Python
写给女朋友的检讨书
2014/01/28 职场文书
计算机科学与技术专业求职信
2014/09/03 职场文书
2014领导班子专题民主生活会对照检查材料思想汇报
2014/09/23 职场文书
生产车间主任岗位职责
2015/04/08 职场文书
电信营业员岗位职责
2015/04/14 职场文书
中秋联欢会主持词
2015/07/04 职场文书
小学班主任心得体会
2016/01/07 职场文书
openstack中的rpc远程调用的方法
2021/07/09 Python