python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例


Posted in Python onNovember 28, 2019

本文实例讲述了python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据。分享给大家供大家参考,具体如下:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作
from bs4 import BeautifulSoup
import urllib.request
import re
#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()
html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象
#查找a标签,只会查找出一个a标签
#print(soup.a)#<a class="sister" href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" id="xiaodeng"><!-- Elsie --></a>
for k in soup.find_all('a'):
 print(k)
 print(k['class'])#查a标签的class属性
 print(k['id'])#查a标签的id值
 print(k['href'])#查a标签的href值
 print(k.string)#查a标签的string
#如果,标签中含有其他标签,比如..,此时要提取中的数据,需要用k.get_text()
#tag.get('calss'),也可以达到这个效果

Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

更多关于Python相关内容可查看本站专题:《

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python使用多线程不断刷新网页的方法
Mar 31 Python
Python+django实现简单的文件上传
Aug 17 Python
python 表达式和语句及for、while循环练习实例
Jul 07 Python
基于python的多进程共享变量正确打开方式
Apr 28 Python
python3+opencv3识别图片中的物体并截取的方法
Dec 05 Python
python实现定时发送qq消息
Jan 18 Python
python Event事件、进程池与线程池、协程解析
Oct 25 Python
Python队列、进程间通信、线程案例
Oct 25 Python
tensorflow实现在函数中用tf.Print输出中间值
Jan 21 Python
使用pygame实现垃圾分类小游戏功能(已获校级二等奖)
Jul 23 Python
简单了解Python字典copy与赋值的区别
Sep 16 Python
python常见的占位符总结及用法
Jul 02 Python
解决Python二维数组赋值问题
Nov 28 #Python
python之array赋值技巧分享
Nov 28 #Python
python3 实现函数写文件路径的正确方法
Nov 27 #Python
关于Python3 lambda函数的深入浅出
Nov 27 #Python
python3中rank函数的用法
Nov 27 #Python
Python values()与itervalues()的用法详解
Nov 27 #Python
python3 assert 断言的使用详解 (区别于python2)
Nov 27 #Python
You might like
PHP服务器页面间跳转实现方法
2012/08/02 PHP
探讨:使用XMLSerialize 序列化与反序列化
2013/06/08 PHP
php顺序查找和二分查找示例
2014/03/27 PHP
去掉destoon资讯内容页keywords关键字自带的文章标题的方法
2014/08/21 PHP
php格式化日期实例分析
2014/11/12 PHP
laravel5.0在linux下解决.htaccess无效和去除index.php的问题
2019/10/16 PHP
通过JavaScript控制字体大小的代码
2011/10/04 Javascript
JQuery实现简单验证码提示解决方案
2012/12/20 Javascript
jQuery.Callbacks()回调函数队列用法详解
2016/06/14 Javascript
JavaScript鼠标特效大全
2016/09/13 Javascript
如何处理JSON中的特殊字符
2016/11/30 Javascript
详解如何使用webpack打包Vue工程
2017/05/27 Javascript
微信小程序 五星评分的实现实例
2017/08/04 Javascript
jQuery中each遍历的三种方法实例分析
2018/09/07 jQuery
fetch 如何实现请求数据
2018/12/20 Javascript
微信小程序getLocation 需要在app.json中声明permission字段
2020/03/03 Javascript
vue 子组件修改data或调用操作
2020/08/07 Javascript
python实现人人网登录示例分享
2014/01/19 Python
Tornado服务器中绑定域名、虚拟主机的方法
2014/08/22 Python
python实现数据写入excel表格
2018/03/25 Python
使用python批量读取word文档并整理关键信息到excel表格的实例
2018/11/07 Python
Python功能点实现:函数级/代码块级计时器
2019/01/02 Python
使用Python爬取弹出窗口信息的实例
2020/03/14 Python
Python 捕获代码中所有异常的方法
2020/08/03 Python
廉价连衣裙和婚纱礼服在线销售:Tbdress
2019/02/28 全球购物
英国玛莎百货澳大利亚:Marks & Spencer Australia
2019/08/30 全球购物
志愿者活动总结范文
2014/04/26 职场文书
村级环境卫生整治方案
2014/05/04 职场文书
新文化运动的基本口号
2014/06/21 职场文书
应用外语系自荐信
2014/06/26 职场文书
影视广告专业求职信
2014/09/02 职场文书
合同和协议有什么区别?
2014/10/08 职场文书
旷课检讨书范文
2015/01/27 职场文书
幼儿园小班个人工作总结
2015/02/12 职场文书
地道战观后感
2015/06/04 职场文书
Tomcat项目启动失败的原因和解决办法
2022/04/20 Servers