Python lxml解析HTML并用xpath获取元素的方法


Posted in Python onJanuary 02, 2019

代码

使用方法见注释

#-*- coding: UTF-8 -*-

from lxml import etree

source = u'''
<div><p class="p1" data-a="1">测试数据1</p>
<p class="p1" data-a="2">测试数据2</p>
<p class="p1" data-a="3" style="height:100px;">
<strong class="s">测试数据3</strong></p>
<p class="p1" data-a="4" width="200"><img src="1.jpg" class="img"/><br/>
图片</p>
'''

# 从字符串解析
page = etree.HTML(source)

# 元素列表
ps = page.xpath("//p")
for p in ps:
  print u"属性:%s" % p.attrib
  print u"文本:%s" % p.text

# 文本列表
ts = page.xpath("//p/text()")
for t in ts:
  print t

# xpath定位 
ls = page.xpath('//p[@class="p1"][last()]/img')
for l in ls:
  print l.attrib

以上这篇Python lxml解析HTML并用xpath获取元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Cpy和Python的效率对比
Mar 20 Python
Python编写生成验证码的脚本的教程
May 04 Python
Python正则表达式使用范例分享
Dec 04 Python
python读取csv文件并把文件放入一个list中的实例讲解
Apr 27 Python
python调用虹软2.0第三版的具体使用
Feb 22 Python
Python IDE Pycharm中的快捷键列表用法
Aug 08 Python
Python 下载及安装详细步骤
Nov 04 Python
tensorflow 获取所有variable或tensor的name示例
Jan 04 Python
python GUI库图形界面开发之PyQt5计数器控件QSpinBox详细使用方法与实例
Feb 28 Python
通过实例解析python subprocess模块原理及用法
Oct 10 Python
Python txt文件如何转换成字典
Nov 03 Python
Python 实现PS滤镜的旋涡特效
Dec 03 Python
用xpath获取指定标签下的所有text的实例
Jan 02 #Python
在python中获取div的文本内容并和想定结果进行对比详解
Jan 02 #Python
python的xpath获取div标签内html内容,实现innerhtml功能的方法
Jan 02 #Python
python后端接收前端回传的文件方法
Jan 02 #Python
python requests.post带head和body的实例
Jan 02 #Python
python批量获取html内body内容的实例
Jan 02 #Python
如何在django里上传csv文件并进行入库处理的方法
Jan 02 #Python
You might like
php+mysql实现用户注册登陆的方法
2015/01/03 PHP
Yii框架学习笔记之session与cookie简单操作示例
2019/04/30 PHP
如何使用jQUery获取选中radio对应的值(一句代码)
2013/06/03 Javascript
jQuery Mobile 导航栏代码
2013/11/01 Javascript
微信WeixinJSBridge API使用实例
2015/05/25 Javascript
使用canvas进行图像编辑的实例
2017/08/29 Javascript
nodejs中安装ghost出错的原因及解决方法
2017/10/23 NodeJs
vue实现word,pdf文件的导出功能
2018/07/31 Javascript
vuex提交state&amp;&amp;实时监听state数据的改变方法
2018/09/16 Javascript
BootStrap中的模态框(modal,弹出层)功能示例代码
2018/11/02 Javascript
a标签调用js的方法总结
2019/09/05 Javascript
vue中defineProperty和Proxy的区别详解
2020/11/30 Vue.js
[20:57]Ti4主赛事第三天开幕式
2014/07/21 DOTA
Python微信企业号开发之回调模式接收微信端客户端发送消息及被动返回消息示例
2017/08/21 Python
详解配置Django的Celery异步之路踩坑
2018/11/25 Python
解决pyqt5中QToolButton无法使用的问题
2019/06/21 Python
wxPython实现文本框基础组件
2019/11/18 Python
Python图片的横坐标汉字实例
2019/12/04 Python
Python面向对象之私有属性和私有方法应用案例分析
2019/12/31 Python
如何使用repr调试python程序
2020/02/28 Python
selenium判断元素是否存在的两种方法小结
2020/12/07 Python
python实现发送QQ邮件(可加附件)
2020/12/23 Python
HTML5中图片之间的缝隙完美解决方法
2017/07/07 HTML / CSS
三星俄罗斯授权在线商店:Samsung俄罗斯
2019/09/28 全球购物
adidas瑞典官方网站:购买阿迪达斯鞋子和运动服
2019/12/11 全球购物
护士的岗位职责
2013/12/04 职场文书
成品仓管员岗位职责
2013/12/11 职场文书
计算机学生求职信范文
2014/01/30 职场文书
保险专业大学生职业规划书
2014/03/03 职场文书
食堂标语大全
2014/06/11 职场文书
中学生旷课检讨书模板
2014/10/08 职场文书
企业与个人合作经营协议书
2014/11/01 职场文书
教师学习中国梦心得体会
2016/01/05 职场文书
低版本Druid连接池+MySQL驱动8.0导致线程阻塞、性能受限
2021/07/01 MySQL
Python调用腾讯API实现人脸身份证比对功能
2022/04/04 Python
MySQL批量更新不同表中的数据
2022/05/11 MySQL