Python爬虫基于lxml解决数据编码乱码问题


Posted in Python onJuly 31, 2020

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高

XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索

XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有我们想要定位的节点,都可以用XPath来选择

XPath于1999年11月16日成为W3C标准,它被设计为供XSLT、XPointer以及其他XML解析软件使用,更多的文档可以访问其官方网站:https://www.w3.org/TR/xpath/

问题状况:

response = requests.get(url=url, headers=headers).text
html = etree.HTML(response)
name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0]
print(name)

可以正常获取数据,但是结果是

已验证 安全 盾牌

这样子的乱码

解决方法:

name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].encode('ISO-8859-1').decode('UTF-8')

这边的UTF-8根据网页编码情况而定

看网页编码情况

F12

Python爬虫基于lxml解决数据编码乱码问题

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
浅谈Python中copy()方法的使用
May 21 Python
Python基于有道实现英汉字典功能
Jul 25 Python
python3实现爬取淘宝美食代码分享
Sep 23 Python
Pycharm创建项目时如何自动添加头部信息
Nov 14 Python
python使用协程实现并发操作的方法详解
Dec 27 Python
python使用openCV遍历文件夹里所有视频文件并保存成图片
Jan 14 Python
Pycharm配置PyQt5环境的教程
Apr 02 Python
Django 解决distinct无法去除重复数据的问题
May 20 Python
如何打包Python Web项目实现免安装一键启动的方法
May 21 Python
python基础之类属性和实例属性
Oct 24 Python
详解Python中__new__方法的作用
Mar 31 Python
详解Golang如何实现支持随机删除元素的堆
Sep 23 Python
Python如何定义有可选参数的元类
Jul 31 #Python
Python爬虫爬取糗事百科段子实例分享
Jul 31 #Python
Python如何对齐字符串
Jul 30 #Python
Python3爬虫关于代理池的维护详解
Jul 30 #Python
Python读写压缩文件的方法
Jul 30 #Python
Python3爬虫里关于代理的设置总结
Jul 30 #Python
Python 如何创建一个简单的REST接口
Jul 30 #Python
You might like
全国FM电台频率大全 - 31 新疆维吾尔族自治区
2020/03/11 无线电
十天学会php(2)
2006/10/09 PHP
php中隐形字符65279(utf-8的BOM头)问题
2014/08/16 PHP
Laravel使用Caching缓存数据减轻数据库查询压力的方法
2016/03/15 PHP
PHP5中使用mysqli的prepare操作数据库的介绍
2019/03/18 PHP
dwr spring的集成实现代码
2009/03/22 Javascript
基于jquery实现的移入页面上空文本框时,让它变为焦点,移出清除焦点
2011/07/26 Javascript
关于事件mouseover ,mouseout ,mouseenter,mouseleave的区别
2015/10/12 Javascript
vue模板语法-插值详解
2017/03/06 Javascript
bootstrap fileinput组件整合Springmvc上传图片到本地磁盘
2017/05/11 Javascript
angularjs $http实现form表单提交示例
2017/06/09 Javascript
webpack构建vue项目的详细教程(配置篇)
2017/07/17 Javascript
Vue中组件之间数据的传递的示例代码
2017/09/08 Javascript
vue.js单文件组件中非父子组件的传值实例
2018/09/13 Javascript
Echarts之悬浮框中的数据排序问题
2018/11/08 Javascript
微信小程序开发(二):页面跳转并传参操作示例
2020/06/01 Javascript
python遍历文件夹并删除特定格式文件的示例
2014/03/05 Python
python插入排序算法实例分析
2015/07/03 Python
利用python对Excel中的特定数据提取并写入新表的方法
2018/06/14 Python
查看python安装路径及pip安装的包列表及路径
2019/04/03 Python
python3 自动识别usb连接状态,即对usb重连的判断方法
2019/07/03 Python
Python正则表达式匹配日期与时间的方法
2019/07/07 Python
python 实现将list转成字符串,中间用空格隔开
2019/12/25 Python
怎么写有吸引力的自荐信
2013/11/17 职场文书
好家长事迹材料
2014/01/23 职场文书
索桥的故事教学反思
2014/02/06 职场文书
保密承诺书
2014/03/27 职场文书
2014年母亲节寄语
2014/05/07 职场文书
任命书模板
2014/06/04 职场文书
班级学习雷锋活动总结
2014/07/04 职场文书
农民工预备党员思想汇报
2014/09/14 职场文书
工作检讨书怎么写
2014/10/10 职场文书
出差报告范文
2014/11/06 职场文书
新党章的学习心得体会
2014/11/07 职场文书
工作态度怎么写
2015/06/25 职场文书
2015教师个人师德工作总结
2015/10/23 职场文书