python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例


Posted in Python onNovember 28, 2019

本文实例讲述了python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据。分享给大家供大家参考,具体如下:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作
from bs4 import BeautifulSoup
import urllib.request
import re
#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()
html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象
#查找a标签,只会查找出一个a标签
#print(soup.a)#<a class="sister" href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" id="xiaodeng"><!-- Elsie --></a>
for k in soup.find_all('a'):
 print(k)
 print(k['class'])#查a标签的class属性
 print(k['id'])#查a标签的id值
 print(k['href'])#查a标签的href值
 print(k.string)#查a标签的string
#如果,标签中含有其他标签,比如..,此时要提取中的数据,需要用k.get_text()
#tag.get('calss'),也可以达到这个效果

Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

更多关于Python相关内容可查看本站专题:《

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
使用python BeautifulSoup库抓取58手机维修信息
Nov 21 Python
Python使用scrapy抓取网站sitemap信息的方法
Apr 08 Python
将Python的Django框架与认证系统整合的方法
Jul 24 Python
Python3.x对JSON的一些操作示例
Sep 01 Python
Python实现手写一个类似django的web框架示例
Jul 20 Python
Python实现随机创建电话号码的方法示例
Dec 07 Python
Django上使用数据可视化利器Bokeh解析
Jul 31 Python
Python Sphinx使用实例及问题解决
Jan 17 Python
win10安装python3.6的常见问题
Jul 01 Python
python实现文件分片上传的接口自动化
Nov 19 Python
Python insert() / append() 用法 Leetcode实战演示
Mar 31 Python
Python进阶学习之带你探寻Python类的鼻祖-元类
May 08 Python
解决Python二维数组赋值问题
Nov 28 #Python
python之array赋值技巧分享
Nov 28 #Python
python3 实现函数写文件路径的正确方法
Nov 27 #Python
关于Python3 lambda函数的深入浅出
Nov 27 #Python
python3中rank函数的用法
Nov 27 #Python
Python values()与itervalues()的用法详解
Nov 27 #Python
python3 assert 断言的使用详解 (区别于python2)
Nov 27 #Python
You might like
DOTA2游戏同人动画《龙之血》导演接受采访
2021/03/05 欧美动漫
php读取msn上的用户信息类
2008/12/05 PHP
php使用pack处理二进制文件的方法
2014/07/03 PHP
PHP合并数组+号和array_merge的区别
2015/06/25 PHP
CodeIgniter配置之database.php用法实例分析
2016/01/20 PHP
PHP中ajax无刷新上传图片与图片下载功能
2017/02/21 PHP
thinkPHP框架自动填充原理与用法分析
2018/04/03 PHP
PHP代码加密的方法总结
2020/03/13 PHP
Javascript 类与静态类的实现
2010/04/01 Javascript
JSON.stringify 语法实例讲解
2012/03/14 Javascript
左右悬浮可分组的网站QQ在线客服代码(可谓经典)
2012/12/21 Javascript
Jquery submit()无法提交问题
2013/04/21 Javascript
JQuery的Ajax请求实现局部刷新的简单实例
2014/02/11 Javascript
详解JavaScript的表达式与运算符
2015/11/30 Javascript
ES6概念 ymbol.for()方法
2016/12/25 Javascript
jQuery实现拖拽可编辑模块功能代码
2017/01/12 Javascript
JavaScript中this的用法及this在不同应用场景的作用解析
2017/04/13 Javascript
jQuery遍历节点方法汇总(推荐)
2017/05/13 jQuery
vue.js template模板的使用(仿饿了么布局)
2018/08/13 Javascript
微信小程序左右滚动公告栏效果代码实例
2019/09/16 Javascript
vue使用原生swiper代码实例
2020/02/05 Javascript
Centos 升级到python3后pip 无法使用的解决方法
2018/06/12 Python
Python常见的pandas用法demo示例
2019/03/16 Python
Python实现简单层次聚类算法以及可视化
2019/03/18 Python
python实现从wind导入数据
2019/12/03 Python
解决torch.autograd.backward中的参数问题
2020/01/07 Python
python在linux环境下安装skimage的示例代码
2020/10/14 Python
详解Html5页面实现下载文件(apk、txt等)的三种方式
2018/10/22 HTML / CSS
COSETTE官网:奢华,每天
2020/03/22 全球购物
车贷收入证明范本
2014/01/09 职场文书
商务英语专业求职信范文
2014/01/28 职场文书
房地产项目建议书
2014/03/12 职场文书
党员检讨书
2014/10/13 职场文书
指导教师推荐意见
2015/06/05 职场文书
62句有关感恩节文案(推荐收藏)
2019/11/28 职场文书
mybatis 获取更新记录的id
2022/05/20 Java/Android