Python lxml库的简单介绍及基本使用讲解


Posted in Python onDecember 22, 2020

1.lxml库介绍

lxml是XML和HTML的解析器,其主要功能是解析和提取XML和HTML中的数据;lxml和正则一样,也是用C语言实现的,是一款高性能的python HTML、XML解析器,也可以利用XPath语法,来定位特定的元素及节点信息

HTML是超文本标记语言,主要用于显示数据,他的焦点是数据的外观
XML是可扩展标记语言,主要用于传输和存储数据,他的焦点是数据的内容

2.安装lxml方法

方法1:
在cmd运行窗口中输入:pip install lxml

Python lxml库的简单介绍及基本使用讲解

方法2:
在Pycharm中下载
File?Setting?Project?Project Interpreter?点击右上角的“+”—
第1步

Python lxml库的简单介绍及基本使用讲解

第2步

Python lxml库的简单介绍及基本使用讲解

第3步

Python lxml库的简单介绍及基本使用讲解

方法3:
进入这个网站进行下载:https://lxml.de/index.html

Python lxml库的简单介绍及基本使用讲解

3.基本使用

我们可以利用他解析HTML代码,并且在解析HTML代码的时候,如果HTML代码不规范或者不完整,lxml解析器会自动修复或补全代码,从而提高效率

实例1:
解析HTML代码块

#提取html中的数据
from lxml import etree

text = '''
<html>
    <div class="clearfix">
    <div class="nav_com">
     <ul>
       <li class="active"><a href="/" rel="external nofollow" >推荐</a></li>
       <li class=""><a href="/nav/python" rel="external nofollow" >Python</a></li>
       <li class=""><a href="/nav/java" rel="external nofollow" >Java</a></li>
       <li class=""><a href="/nav/web" rel="external nofollow" >前端</a></li>
       <li class=""><a href="/nav/arch" rel="external nofollow" >架构</a></li>
       <li class=""><a href="/nav/db" rel="external nofollow" >数据库</a></li>
       <li class=""><a href="/nav/5g" rel="external nofollow" >5G</a></li>
       <li class=""><a href="/nav/game" rel="external nofollow" >游戏开发</a></li>
       <li class=""><a href="/nav/mobile" rel="external nofollow" >移动开发</a></li>
       <li class=""><a href="/nav/ops" rel="external nofollow" >运维</a></li>
     </ul>
    </div>
    </div>
</html>>
</html>>

'''
#将字符串解析为html文档
html = etree.HTML(text)
#print(html)
#将字符串序列化为html
result = etree.tostring(html).decode('utf-8')
print(result)

实例2:
读取并解析html文件

#将html文件进行解析
from lxml import etree
#将html文件进行读取
html = etree.parse('data.html')
#将html内容序列化
result = etree.tostring(html).decode('utf-8')
print(result)

到此这篇关于Python lxml库的简单介绍及基本使用讲解的文章就介绍到这了,更多相关Python lxml库使用内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python的urllib模块显示下载进度示例
Jan 17 Python
python判断、获取一张图片主色调的2个实例
Apr 10 Python
在Python中测试访问同一数据的竞争条件的方法
Apr 23 Python
详解Python中for循环的使用方法
May 14 Python
基于Python实现文件大小输出
Jan 11 Python
Python的Scrapy爬虫框架简单学习笔记
Jan 20 Python
Python实现二分查找与bisect模块详解
Jan 13 Python
用Python实现筛选文件脚本的方法
Oct 27 Python
Python配置文件处理的方法教程
Aug 29 Python
Python实现图片批量加入水印代码实例
Nov 30 Python
Python流程控制常用工具详解
Feb 24 Python
Python网络编程之ZeroMQ知识总结
Apr 25 Python
Python中过滤字符串列表的方法
Dec 22 #Python
python中@property的作用和getter setter的解释
Dec 22 #Python
地图可视化神器kepler.gl python接口的使用方法
Dec 22 #Python
Python实现Word文档转换Markdown的示例
Dec 22 #Python
python爬虫利用selenium实现自动翻页爬取某鱼数据的思路详解
Dec 22 #Python
Django中ORM的基本使用教程
Dec 22 #Python
python通用数据库操作工具 pydbclib的使用简介
Dec 21 #Python
You might like
PHP取得一个类的属性和方法的实现代码
2011/05/22 PHP
PHP文件管理之实现网盘及压缩包的功能操作
2017/09/20 PHP
js几个不错的函数 $$()
2006/10/09 Javascript
默认让页面的第一个控件选中的javascript代码
2009/12/26 Javascript
JavaScript中的16进制字符(改进)
2011/11/21 Javascript
获取内联和链接中的样式(js代码)
2013/04/11 Javascript
浏览器窗口加载和大小改变事件示例
2014/02/27 Javascript
jquery mobile的触控点击事件会多次触发问题的解决方法
2014/05/08 Javascript
删除javascript中注释语句的正则表达式
2014/06/11 Javascript
使用jQuery实现返回顶部
2015/01/26 Javascript
jQuery 调用WebService 实例讲解
2016/06/28 Javascript
HTML5基于Tomcat 7.0实现WebSocket连接并实现简单的实时聊天
2016/10/31 Javascript
详解angular2实现ng2-router 路由和嵌套路由
2017/03/24 Javascript
微信小程序三级联动地址选择器的实例代码
2017/07/12 Javascript
JQ图片文件上传之前预览功能的简单实例(分享)
2017/11/12 Javascript
vue-cli3.0 脚手架搭建项目的过程详解
2018/10/19 Javascript
如何使用Node.js爬取任意网页资源并输出PDF文件到本地
2019/06/17 Javascript
JS实现移动端点击按钮复制文本内容
2019/07/28 Javascript
Vue中Table组件行内右键菜单实现方法(基于 vue + AntDesign)
2019/11/21 Javascript
autojs 蚂蚁森林能量自动拾取即给指定好友浇水的实现方法
2020/05/03 Javascript
vue radio单选框,获取当前项(每一项)的value值操作
2020/09/10 Javascript
vue下载二进制流图片操作
2020/10/26 Javascript
[01:14:31]Secret vs VG 2018国际邀请赛淘汰赛BO3 第一场 8.23
2018/08/24 DOTA
Python使用Dijkstra算法实现求解图中最短路径距离问题详解
2018/05/16 Python
python获取指定字符串中重复模式最高的字符串方法
2018/06/29 Python
Python基于opencv实现的简单画板功能示例
2019/03/04 Python
Python爬虫过程解析之多线程获取小米应用商店数据
2020/11/14 Python
欧洲最大的拼图游戏商店:JigsawPuzzle.co.uk
2018/07/04 全球购物
Mountain Warehouse德国官网:英国户外零售商
2019/08/11 全球购物
全球工业:Global Industrial
2020/02/01 全球购物
优秀护士演讲稿
2014/04/30 职场文书
人力资源求职信
2014/05/25 职场文书
任命书怎么写
2014/06/04 职场文书
北京申奥口号
2014/06/19 职场文书
如何写贫困证明申请书
2014/10/29 职场文书
搞笑的婚礼主持词
2015/06/29 职场文书