Python lxml解析HTML并用xpath获取元素的方法


Posted in Python onJanuary 02, 2019

代码

使用方法见注释

#-*- coding: UTF-8 -*-

from lxml import etree

source = u'''
<div><p class="p1" data-a="1">测试数据1</p>
<p class="p1" data-a="2">测试数据2</p>
<p class="p1" data-a="3" style="height:100px;">
<strong class="s">测试数据3</strong></p>
<p class="p1" data-a="4" width="200"><img src="1.jpg" class="img"/><br/>
图片</p>
'''

# 从字符串解析
page = etree.HTML(source)

# 元素列表
ps = page.xpath("//p")
for p in ps:
  print u"属性:%s" % p.attrib
  print u"文本:%s" % p.text

# 文本列表
ts = page.xpath("//p/text()")
for t in ts:
  print t

# xpath定位 
ls = page.xpath('//p[@class="p1"][last()]/img')
for l in ls:
  print l.attrib

以上这篇Python lxml解析HTML并用xpath获取元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用urlparse分析网址中域名的方法
Apr 15 Python
python转换字符串为摩尔斯电码的方法
Jul 06 Python
Python实现基于多线程、多用户的FTP服务器与客户端功能完整实例
Aug 18 Python
Python排序搜索基本算法之归并排序实例分析
Dec 08 Python
Python实现手写一个类似django的web框架示例
Jul 20 Python
浅谈django的render函数的参数问题
Oct 16 Python
使用python批量读取word文档并整理关键信息到excel表格的实例
Nov 07 Python
在PyCharm中实现关闭一个死循环程序的方法
Nov 29 Python
python模块导入的细节详解
Dec 10 Python
Python爬虫实现“盗取”微信好友信息的方法分析
Sep 16 Python
Numpy之将矩阵拉成向量的实例
Nov 30 Python
python爬虫scrapy框架之增量式爬虫的示例代码
Feb 26 Python
用xpath获取指定标签下的所有text的实例
Jan 02 #Python
在python中获取div的文本内容并和想定结果进行对比详解
Jan 02 #Python
python的xpath获取div标签内html内容,实现innerhtml功能的方法
Jan 02 #Python
python后端接收前端回传的文件方法
Jan 02 #Python
python requests.post带head和body的实例
Jan 02 #Python
python批量获取html内body内容的实例
Jan 02 #Python
如何在django里上传csv文件并进行入库处理的方法
Jan 02 #Python
You might like
div li的多行多列 无刷新分页示例代码
2013/10/16 PHP
php file_get_contents抓取Gzip网页乱码的三种解决方法
2013/11/12 PHP
laravel5.2实现区分前后台用户登录的方法
2017/01/11 PHP
javascript 写类方式之九
2009/07/05 Javascript
详细讲解JS节点知识
2010/01/31 Javascript
javascript 正则表达式相关应介绍
2012/11/27 Javascript
JavaScript中跨域调用Flash的方法
2014/08/11 Javascript
javascript学习笔记(五)原型和原型链详解
2014/10/08 Javascript
js读取json的两种常用方法示例介绍
2014/10/19 Javascript
项目中常用的JS方法整理
2015/01/30 Javascript
简述jQuery ajax的执行顺序
2016/01/05 Javascript
浅谈JavaScript的内置对象和浏览器对象
2016/06/03 Javascript
Bootstrap Modal遮罩弹出层(完整版)
2016/11/21 Javascript
Vue过滤器的用法和自定义过滤器使用
2017/02/08 Javascript
表格展示利器 Bootstrap Table实例代码
2017/09/06 Javascript
JavaScript常用数学函数用法示例
2018/05/14 Javascript
解决angular双向绑定无效果,ng-model不能正常显示的问题
2018/10/02 Javascript
如何安装控制器JavaScript生成插件详解
2018/10/21 Javascript
什么时候不能在 Node.js 中使用 Lock Files
2019/06/24 Javascript
在Layui中实现开关按钮的效果实例
2019/09/29 Javascript
原生JS实现萤火虫效果
2020/03/07 Javascript
Python模拟登录验证码(代码简单)
2016/02/06 Python
简单了解python的一些位运算技巧
2019/07/13 Python
python线程池如何使用
2020/05/28 Python
Python读写压缩文件的方法
2020/07/30 Python
python 中的命名空间,你真的了解吗?
2020/08/19 Python
幼儿教师思想汇报
2014/01/10 职场文书
国贸专业大学生职业生涯规划范文
2014/01/10 职场文书
办公设备采购方案
2014/03/16 职场文书
家长写给孩子的评语
2014/04/18 职场文书
婚前协议书标准版
2014/10/19 职场文书
2014年乡镇团委工作总结
2014/12/18 职场文书
英语辞职信范文
2015/02/28 职场文书
2015年党建工作总结
2015/03/30 职场文书
用python删除文件夹中的重复图片(图片去重)
2021/05/12 Python
一文了解Java动态代理的原理及实现
2022/07/07 Java/Android