python 采集中文乱码问题的完美解决方法


Posted in Python onSeptember 27, 2016

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了,希望对大家有所帮助,多多支持三水点靠木~

Python 相关文章推荐
python实现SOM算法
Feb 23 Python
Python从零开始创建区块链
Mar 06 Python
django ajax json的实例代码
May 29 Python
windows下python安装小白入门教程
Sep 18 Python
python基于C/S模式实现聊天室功能
Jan 09 Python
Python 获取windows桌面路径的5种方法小结
Jul 15 Python
深入浅析Python科学计算库Scipy及安装步骤
Oct 12 Python
使用opencv识别图像红色区域,并输出红色区域中心点坐标
Jun 02 Python
如何用python处理excel表格
Jun 09 Python
完美解决TensorFlow和Keras大数据量内存溢出的问题
Jul 03 Python
Python3 搭建Qt5 环境的方法示例
Jul 16 Python
最简单的matplotlib安装教程(小白)
Jul 28 Python
20招让你的Python飞起来!
Sep 27 #Python
python搭建虚拟环境的步骤详解
Sep 27 #Python
利用python发送和接收邮件
Sep 27 #Python
实现python版本的按任意键继续/退出
Sep 26 #Python
Linux 下 Python 实现按任意键退出的实现方法
Sep 25 #Python
利用Python为iOS10生成图标和截屏
Sep 24 #Python
使用Python多线程爬虫爬取电影天堂资源
Sep 23 #Python
You might like
AJAX for PHP简单表数据查询实例
2007/01/02 PHP
使用Sphinx对索引进行搜索
2013/06/25 PHP
ThinkPHP模板比较标签用法详解
2014/06/30 PHP
php搜索文件程序分享
2015/10/30 PHP
PHP中的print_r 与 var_dump 输出数组
2016/06/13 PHP
详解php反序列化
2020/06/10 PHP
JQuery复制DOM节点的方法
2015/06/11 Javascript
Js获取图片原始宽高的实现代码
2016/05/17 Javascript
全面解析Bootstrap中tooltip、popover的使用方法
2016/06/13 Javascript
任意Json转成无序列表的方法示例
2016/12/09 Javascript
Javascript blur与click冲突解决办法
2017/01/09 Javascript
ES6正则表达式的一些新功能总结
2017/05/09 Javascript
深入浅析Vue.js中 computed和methods不同机制
2018/03/22 Javascript
简单说说angular.json文件的使用
2018/10/29 Javascript
详解如何模拟实现node中的Events模块(通俗易懂版)
2019/04/15 Javascript
一文了解Vue中的nextTick
2019/05/06 Javascript
vue+axios 拦截器实现统一token的案例
2020/09/11 Javascript
[01:04:31]DOTA2-DPC中国联赛定级赛 iG vs Magma BO3第二场 1月8日
2021/03/11 DOTA
python 控制语句
2011/11/03 Python
从零学python系列之数据处理编程实例(二)
2014/05/22 Python
使用django-suit为django 1.7 admin后台添加模板
2014/11/18 Python
Python实现删除排序数组中重复项的两种方法示例
2019/01/31 Python
对Python Pexpect 模块的使用说明详解
2019/02/14 Python
Python正则表达式匹配日期与时间的方法
2019/07/07 Python
python numpy 矩阵堆叠实例
2020/01/17 Python
Python xlrd模块导入过程及常用操作
2020/06/10 Python
Selenium alert 弹窗处理的示例代码
2020/08/06 Python
迪斯尼假期(欧洲、中东及非洲):Disney Holidays EMEA
2021/02/15 全球购物
毕业学生推荐信
2013/12/01 职场文书
商场消防演习方案
2014/02/12 职场文书
文秘档案管理岗位职责
2014/03/06 职场文书
大专生自我鉴定怎么写
2014/09/16 职场文书
预备党员个人总结
2015/02/14 职场文书
MySQL系列之八 MySQL服务器变量
2021/07/02 MySQL
bootstrapv4轮播图去除两侧阴影及线框的方法
2022/02/15 HTML / CSS
javascript之Object.assign()的痛点分析
2022/03/03 Javascript