Python lxml解析HTML并用xpath获取元素的方法


Posted in Python onJanuary 02, 2019

代码

使用方法见注释

#-*- coding: UTF-8 -*-

from lxml import etree

source = u'''
<div><p class="p1" data-a="1">测试数据1</p>
<p class="p1" data-a="2">测试数据2</p>
<p class="p1" data-a="3" style="height:100px;">
<strong class="s">测试数据3</strong></p>
<p class="p1" data-a="4" width="200"><img src="1.jpg" class="img"/><br/>
图片</p>
'''

# 从字符串解析
page = etree.HTML(source)

# 元素列表
ps = page.xpath("//p")
for p in ps:
  print u"属性:%s" % p.attrib
  print u"文本:%s" % p.text

# 文本列表
ts = page.xpath("//p/text()")
for t in ts:
  print t

# xpath定位 
ls = page.xpath('//p[@class="p1"][last()]/img')
for l in ls:
  print l.attrib

以上这篇Python lxml解析HTML并用xpath获取元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python网络编程学习笔记(五):socket的一些补充
Jun 09 Python
浅谈Python的异常处理
Jun 19 Python
Python实现带参数与不带参数的多重继承示例
Jan 30 Python
Python读取本地文件并解析网页元素的方法
May 21 Python
对python程序内存泄漏调试的记录
Jun 11 Python
浅析python3中的os.path.dirname(__file__)的使用
Aug 30 Python
Django ORM 聚合查询和分组查询实现详解
Aug 09 Python
Django admin model 汉化显示文字的实现方法
Aug 12 Python
python3多线程知识点总结
Sep 26 Python
PyCharm GUI界面开发和exe文件生成的实现
Mar 04 Python
使用Python将图片转正方形的两种方法实例代码详解
Apr 29 Python
python pyg2plot的原理知识点总结
Feb 28 Python
用xpath获取指定标签下的所有text的实例
Jan 02 #Python
在python中获取div的文本内容并和想定结果进行对比详解
Jan 02 #Python
python的xpath获取div标签内html内容,实现innerhtml功能的方法
Jan 02 #Python
python后端接收前端回传的文件方法
Jan 02 #Python
python requests.post带head和body的实例
Jan 02 #Python
python批量获取html内body内容的实例
Jan 02 #Python
如何在django里上传csv文件并进行入库处理的方法
Jan 02 #Python
You might like
php实现单链表的实例代码
2013/03/22 PHP
php中hashtable实现示例分享
2014/02/13 PHP
php生成xml时添加CDATA标签的方法
2014/10/17 PHP
PHP YII框架开发小技巧之模型(models)中rules自定义验证规则
2015/11/16 PHP
Javascript 遍历对象中的子对象
2009/07/03 Javascript
让你的博文自动带上缩址的实现代码,方便发到微博客上
2010/12/28 Javascript
CheckBoxList多选样式jquery、C#获取选择项
2013/09/06 Javascript
javascript中的变量作用域以及变量提升详细介绍
2013/10/24 Javascript
基于JavaScript实现弹出框效果
2016/02/19 Javascript
js仿支付宝填写支付密码效果实现多方框输入密码
2016/03/09 Javascript
如何用JS判断两个数字的大小
2016/07/21 Javascript
微信小程序加载更多 点击查看更多
2016/11/29 Javascript
BootStrap 导航条实例代码
2017/05/18 Javascript
Nodejs中Express 常用中间件 body-parser 实现解析
2017/05/22 NodeJs
javascript面向对象程序设计实践常用知识点总结
2019/07/29 Javascript
vue遍历对象中的数组取值示例
2019/11/07 Javascript
jQuery实现弹出层效果
2019/12/10 jQuery
vue页面引入three.js实现3d动画场景操作
2020/08/10 Javascript
[02:06]2018完美世界全国高校联赛秋季赛开始报名(附彩蛋)
2018/09/03 DOTA
Python操作sqlite3快速、安全插入数据(防注入)的实例
2014/04/26 Python
Python中的Numeric包和Numarray包使用教程
2015/04/13 Python
django 将model转换为字典的方法示例
2018/10/16 Python
Selenium chrome配置代理Python版的方法
2018/11/29 Python
Django集成CAS单点登录的方法示例
2019/06/10 Python
分布式全文检索引擎ElasticSearch原理及使用实例
2020/11/14 Python
用python制作个音乐下载器
2021/01/30 Python
HashMap和Hashtable的区别
2013/05/18 面试题
盛大二次面试题
2016/11/18 面试题
信息技术专业大学生个人的自我评价
2013/10/05 职场文书
应届护士推荐信
2013/11/16 职场文书
银行简历自我评价
2014/02/11 职场文书
会计人员岗位职责
2014/03/19 职场文书
母校寄语大全
2014/04/10 职场文书
手术室护士节演讲稿
2014/08/27 职场文书
员工工作能力评语
2014/12/31 职场文书
兵马俑的导游词
2015/02/02 职场文书