python 如何获取页面所有a标签下href的值


Posted in Python onMay 06, 2021

看代码吧~

# -*- coding:utf-8 -*-
#python 2.7
#http://tieba.baidu.com/p/2460150866
#标签操作 
 
from bs4 import BeautifulSoup
import urllib.request
import re 
 
#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc)  
#webpage = urllib.request.urlopen(req)  
#html = webpage.read() 
 
html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow"  rel="external nofollow"  class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow"  rel="external nofollow"  class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow"  class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow"  rel="external nofollow"  class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser')   #文档对象 
 
#查找a标签,只会查找出一个a标签
#print(soup.a)#<a class="sister" href="http://example.com/elsie" rel="external nofollow"  rel="external nofollow"  id="xiaodeng"><!-- Elsie --></a>
 
for k in soup.find_all('a'):
    print(k)
    print(k['class'])#查a标签的class属性
    print(k['id'])#查a标签的id值
    print(k['href'])#查a标签的href值
    print(k.string)#查a标签的string

如果,标签<a>中含有其他标签,比如<em>..</em>,此时要提取<a>中的数据,需要用k.get_text()

soup = BeautifulSoup(html, 'html.parser')   #文档对象
#查找a标签,只会查找出一个a标签
for k in soup.find_all('a'):
    print(k)
    print(k['class'])#查a标签的class属性
    print(k['id'])#查a标签的id值
    print(k['href'])#查a标签的href值
    print(k.string)#查a标签的string

如果,标签<a>中含有其他标签,比如<em>..</em>,此时要提取<a>中的数据,需要用k.get_text()

通常我们使用下面这种模式也是能够处理的,下面的方法使用了get()。

html = urlopen(url)
 soup = BeautifulSoup(html, 'html.parser')
 t1 = soup.find_all('a')
 print t1
 href_list = []
 for t2 in t1:
    t3 = t2.get('href')
    href_list.append(t3)

补充:python爬虫获取任意页面的标签和属性(包括获取a标签的href属性)

看代码吧~

# coding=utf-8 
from bs4 import BeautifulSoup 
import requests 
# 定义一个获取url页面下label标签的attr属性的函数 
def getHtml(url, label, attr): 
    response = requests.get(url) 
    response.encoding = 'utf-8' 
    html = response.text 
    soup = BeautifulSoup(html, 'html.parser'); 
    for target in soup.find_all(label):
 
        try: 
            value = target.get(attr)
 
        except: 
            value = ''
 
        if value: 
            print(value)
 
url = 'https://baidu.com/' 
label = 'a' 
attr = 'href' 
getHtml(url, label, attr)

python 如何获取页面所有a标签下href的值

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。如有错误或未考虑完全的地方,望不吝赐教。

Python 相关文章推荐
Python使用代理抓取网站图片(多线程)
Mar 14 Python
Python中使用copy模块实现列表(list)拷贝
Apr 14 Python
教你用python3根据关键词爬取百度百科的内容
Aug 18 Python
Python探索之修改Python搜索路径
Oct 25 Python
python实现Adapter模式实例代码
Feb 09 Python
Python3 实现文件批量重命名示例代码
Jun 03 Python
pyqt 多窗口之间的相互调用方法
Jun 19 Python
Python面向对象封装操作案例详解 II
Jan 02 Python
Python实现i人事自动打卡的示例代码
Jan 09 Python
python十进制转二进制的详解
Feb 07 Python
详解pandas赋值失败问题解决
Nov 29 Python
Python日志打印里logging.getLogger源码分析详解
Jan 17 Python
Python中常见的导入方式总结
May 06 #Python
Python基础之hashlib模块详解
May 06 #Python
用Python爬虫破解滑动验证码的案例解析
python本地文件服务器实例教程
python字符串常规操作大全
python自动化之如何利用allure生成测试报告
python使用openpyxl库读写Excel表格的方法(增删改查操作)
You might like
Apache 配置详解(最好的APACHE配置教程)
2010/07/04 PHP
php的大小写敏感问题整理
2011/12/29 PHP
解析如何用php screw加密php源代码
2013/06/20 PHP
laravel5.4生成验证码的实例讲解
2017/08/05 PHP
php设计模式之职责链模式实例分析【星际争霸游戏案例】
2020/03/27 PHP
使用jquery插件实现图片延迟加载技术详细说明
2011/03/12 Javascript
JavaScript中判断函数是new还是()调用的区别说明
2011/04/07 Javascript
jquery中防刷IP流量软件影响统计的一点对策
2011/07/10 Javascript
基于jquery实现表格内容筛选功能实例解析
2016/05/09 Javascript
Mint UI 基于 Vue.js 移动端组件库
2017/11/07 Javascript
javascript按顺序加载运行js方法
2017/12/01 Javascript
使用vuex解决刷新页面state数据消失的问题记录
2019/05/08 Javascript
vue-cli 3 全局过滤器的实例代码详解
2019/06/03 Javascript
[02:33]2018 DOTA2亚洲邀请赛回顾视频 再次拾起那些美妙的时刻
2018/04/10 DOTA
[56:17]NB vs Infamous 2019国际邀请赛淘汰赛 败者组 BO3 第三场 8.22
2019/09/05 DOTA
跟老齐学Python之模块的加载
2014/10/24 Python
Django中模型Model添加JSON类型字段的方法
2015/06/17 Python
详解python进行mp3格式判断
2016/12/23 Python
Python随机数用法实例详解【基于random模块】
2017/04/18 Python
使用python 爬虫抓站的一些技巧总结
2018/01/10 Python
python批量实现Word文件转换为PDF文件
2018/03/15 Python
Python数据分析库pandas基本操作方法
2018/04/08 Python
浅谈Python接口对json串的处理方法
2018/12/19 Python
python实现视频读取和转化图片
2019/12/10 Python
Numpy 理解ndarray对象的示例代码
2020/04/03 Python
python PIL模块的基本使用
2020/09/29 Python
北美最大的参茸药食商城:德成行
2020/12/06 全球购物
大学生专业个人学习的自我评价
2013/10/26 职场文书
先进党支部事迹材料
2014/01/13 职场文书
任命书模板
2014/06/04 职场文书
医院领导班子四风对照检查材料
2014/09/27 职场文书
2014年无财产无子女离婚协议书范本
2014/10/09 职场文书
2015年乡镇环保工作总结
2015/04/22 职场文书
裁员通知
2015/04/25 职场文书
python 批量压缩图片的脚本
2021/06/02 Python
安装配置mysql及Navicat prenium的详细流程
2021/06/10 MySQL