python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例


Posted in Python onNovember 28, 2019

本文实例讲述了python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据。分享给大家供大家参考,具体如下:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作
from bs4 import BeautifulSoup
import urllib.request
import re
#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()
html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象
#查找a标签,只会查找出一个a标签
#print(soup.a)#<a class="sister" href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" id="xiaodeng"><!-- Elsie --></a>
for k in soup.find_all('a'):
 print(k)
 print(k['class'])#查a标签的class属性
 print(k['id'])#查a标签的id值
 print(k['href'])#查a标签的href值
 print(k.string)#查a标签的string
#如果,标签中含有其他标签,比如..,此时要提取中的数据,需要用k.get_text()
#tag.get('calss'),也可以达到这个效果

Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

更多关于Python相关内容可查看本站专题:《

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python数据结构树和二叉树简介
Apr 29 Python
Python中的map()函数和reduce()函数的用法
Apr 27 Python
Python argv用法详解
Jan 08 Python
Python 专题三 字符串的基础知识
Mar 19 Python
Pycharm学习教程(1) 定制外观
May 02 Python
Python 调用Java实例详解
Jun 02 Python
python简单图片操作:打开\显示\保存图像方法介绍
Nov 23 Python
在Python中实现shuffle给列表洗牌
Nov 08 Python
详解分布式任务队列Celery使用说明
Nov 29 Python
Python:slice与indices的用法
Nov 25 Python
在tensorflow中设置保存checkpoint的最大数量实例
Jan 21 Python
python神经网络 使用Keras构建RNN训练
May 04 Python
解决Python二维数组赋值问题
Nov 28 #Python
python之array赋值技巧分享
Nov 28 #Python
python3 实现函数写文件路径的正确方法
Nov 27 #Python
关于Python3 lambda函数的深入浅出
Nov 27 #Python
python3中rank函数的用法
Nov 27 #Python
Python values()与itervalues()的用法详解
Nov 27 #Python
python3 assert 断言的使用详解 (区别于python2)
Nov 27 #Python
You might like
php中使用Curl、socket、file_get_contents三种方法POST提交数据
2011/08/12 PHP
PHP基于php_imagick_st-Q8.dll实现JPG合成GIF图片的方法
2014/07/11 PHP
jValidate 基于jQuery的表单验证插件
2009/12/12 Javascript
JavaScript中的闭包原理分析
2010/03/08 Javascript
javascript中的一些注意事项 更新中
2010/12/06 Javascript
通过JavaScript使Div居中并随网页大小改变而改变
2013/06/24 Javascript
JS日期和时间选择控件升级版(自写)
2013/08/02 Javascript
JS 实现Table相同行的单元格自动合并示例代码
2013/08/27 Javascript
jquery实现的导航固定效果
2014/04/28 Javascript
nodejs中使用monk访问mongodb
2014/07/06 NodeJs
非jQuery实现照片散落桌子上,单击放大的LightBox效果
2014/11/28 Javascript
Javascript访问器属性实例分析
2014/12/30 Javascript
jQuery中on()方法用法实例
2015/01/19 Javascript
canvas实现探照灯效果
2017/02/07 Javascript
JS实现禁止高频率连续点击的方法【基于ES6语法】
2017/04/25 Javascript
Angular中使用ng-zorro图标库部分图标不能正常显示问题
2019/04/22 Javascript
VueX模块的具体使用(小白教程)
2020/06/05 Javascript
原生js实现html手机端城市列表索引选择城市
2020/06/24 Javascript
[01:22:10]Ti4 循环赛第二日 DK vs Empire
2014/07/11 DOTA
PyQt5重写QComboBox的鼠标点击事件方法
2019/06/25 Python
python2使用bs4爬取腾讯社招过程解析
2019/08/14 Python
python TK库简单应用(实时显示子进程输出)
2019/10/29 Python
Python将列表中的元素转化为数字并排序的示例
2019/12/25 Python
Python实现一个简单的毕业生信息管理系统的示例代码
2020/06/08 Python
python3中确保枚举值代码分析
2020/12/02 Python
HTML5之SVG 2D入门1—SVG(可缩放矢量图形)概述
2013/01/30 HTML / CSS
eDreams澳大利亚:预订机票、酒店和度假产品
2017/04/19 全球购物
Easy Spirit官网:美国休闲鞋履中的代表品牌
2019/04/12 全球购物
空指针到底是什么
2012/08/07 面试题
土木工程实习生自我鉴定
2013/09/19 职场文书
大一自我鉴定范文
2013/12/27 职场文书
致百米运动员广播稿
2014/01/29 职场文书
2015年植树节活动总结
2015/02/06 职场文书
超市店长竞聘书
2015/09/15 职场文书
2016新年晚会开场白
2015/12/03 职场文书
能用CSS实现的就不要麻烦JavaScript了
2021/10/05 HTML / CSS