Python lxml解析HTML并用xpath获取元素的方法


Posted in Python onJanuary 02, 2019

代码

使用方法见注释

#-*- coding: UTF-8 -*-

from lxml import etree

source = u'''
<div><p class="p1" data-a="1">测试数据1</p>
<p class="p1" data-a="2">测试数据2</p>
<p class="p1" data-a="3" style="height:100px;">
<strong class="s">测试数据3</strong></p>
<p class="p1" data-a="4" width="200"><img src="1.jpg" class="img"/><br/>
图片</p>
'''

# 从字符串解析
page = etree.HTML(source)

# 元素列表
ps = page.xpath("//p")
for p in ps:
  print u"属性:%s" % p.attrib
  print u"文本:%s" % p.text

# 文本列表
ts = page.xpath("//p/text()")
for t in ts:
  print t

# xpath定位 
ls = page.xpath('//p[@class="p1"][last()]/img')
for l in ls:
  print l.attrib

以上这篇Python lxml解析HTML并用xpath获取元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
初步解析Python下的多进程编程
Apr 28 Python
Python使用cx_Oracle模块将oracle中数据导出到csv文件的方法
May 16 Python
Django框架下在URLconf中指定视图缓存的方法
Jul 23 Python
Python面向对象程序设计多继承和多态用法示例
Apr 08 Python
Python实现连接MySql数据库及增删改查操作详解
Apr 16 Python
利用python如何在前程无忧高效投递简历
May 07 Python
Python利用sqlacodegen自动生成ORM实体类示例
Jun 04 Python
PyQt5 QTableView设置某一列不可编辑的方法
Jun 25 Python
numpy 返回函数的上三角矩阵实例
Nov 25 Python
python3 tcp的粘包现象和解决办法解析
Dec 09 Python
Python多线程:主线程等待所有子线程结束代码
Apr 25 Python
Numpy中ndim、shape、dtype、astype的用法详解
Jun 14 Python
用xpath获取指定标签下的所有text的实例
Jan 02 #Python
在python中获取div的文本内容并和想定结果进行对比详解
Jan 02 #Python
python的xpath获取div标签内html内容,实现innerhtml功能的方法
Jan 02 #Python
python后端接收前端回传的文件方法
Jan 02 #Python
python requests.post带head和body的实例
Jan 02 #Python
python批量获取html内body内容的实例
Jan 02 #Python
如何在django里上传csv文件并进行入库处理的方法
Jan 02 #Python
You might like
php下实现伪 url 的超简单方法[转]
2007/09/24 PHP
PHP 利用Mail_MimeDecode类提取邮件信息示例
2014/01/26 PHP
修改Laravel5.3中的路由文件与路径
2016/08/10 PHP
PHP调用Mailgun发送邮件的方法
2017/05/04 PHP
PHP删除字符串中非字母数字字符方法总结
2019/01/20 PHP
javascript中获取选中对象的类型
2007/04/02 Javascript
jQuery实现表单input中提示文字value随鼠标焦点移进移出而显示或隐藏的代码
2010/03/21 Javascript
基于Jquery的淡入淡出的特效基础练习
2010/12/13 Javascript
javascript textarea光标定位方法(兼容IE和FF)
2011/03/12 Javascript
浅析JQuery获取和设置Select选项的常用方法总结
2013/07/04 Javascript
jQuery获取样式中颜色值的方法
2015/01/29 Javascript
JavaScript监听文本框回车事件并过滤文本框空格的方法
2015/04/16 Javascript
javascript实现显示和隐藏div方法汇总
2015/08/14 Javascript
JavaScript组件开发完整示例
2015/12/15 Javascript
Jquery通过ajax请求NodeJS返回json数据实例
2016/11/08 NodeJs
基于ExtJs在页面上window再调用Window的事件处理方法
2017/07/26 Javascript
详解基于 Nuxt 的 Vue.js 服务端渲染实践
2017/10/24 Javascript
JavaScript读写二进制数据的方法详解
2018/09/09 Javascript
详解Vue2 添加对scss的支持
2019/01/02 Javascript
在Python的Flask框架中构建Web表单的教程
2016/06/04 Python
Python 读取某个目录下所有的文件实例
2018/06/23 Python
python 缺失值处理的方法(Imputation)
2019/07/02 Python
python Web flask 视图内容和模板实现代码
2019/08/23 Python
淘宝秒杀python脚本 扫码登录版
2019/09/19 Python
对tensorflow中cifar-10文档的Read操作详解
2020/02/10 Python
TensorFlow2.1.0最新版本安装详细教程
2020/04/08 Python
Python通用唯一标识符uuid模块使用案例
2020/09/10 Python
Merchant 1948澳大利亚:新西兰领先的鞋类和靴子供应商
2018/03/24 全球购物
End Clothing美国站:英国男士潮牌商城
2018/04/20 全球购物
说出你对remoting 和webservice的理解和应用
2014/06/08 面试题
Java的类可以定义为Protected或者Private得吗
2015/09/25 面试题
机电一体化毕业生求职信
2013/11/02 职场文书
汽修专业学生自我鉴定
2013/11/16 职场文书
酒店管理专业自荐信
2014/05/23 职场文书
解决golang post文件时Content-Type出现的问题
2021/05/02 Golang
python b站视频下载的五种版本
2021/05/27 Python