python 采集中文乱码问题的完美解决方法


Posted in Python onSeptember 27, 2016

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了,希望对大家有所帮助,多多支持三水点靠木~

Python 相关文章推荐
简单理解Python中基于生成器的状态机
Apr 13 Python
利用python获取某年中每个月的第一天和最后一天
Dec 15 Python
Python实现的多进程和多线程功能示例
May 29 Python
TensorFlow数据输入的方法示例
Jun 19 Python
OpenCV 边缘检测
Jul 10 Python
django项目中使用手机号登录的实例代码
Aug 15 Python
Python values()与itervalues()的用法详解
Nov 27 Python
MNIST数据集转化为二维图片的实现示例
Jan 10 Python
使用Pyhton 分析酒店针孔摄像头
Mar 04 Python
Django操作session 的方法
Mar 09 Python
在python下实现word2vec词向量训练与加载实例
Jun 09 Python
Python定义一个函数的方法
Jun 15 Python
20招让你的Python飞起来!
Sep 27 #Python
python搭建虚拟环境的步骤详解
Sep 27 #Python
利用python发送和接收邮件
Sep 27 #Python
实现python版本的按任意键继续/退出
Sep 26 #Python
Linux 下 Python 实现按任意键退出的实现方法
Sep 25 #Python
利用Python为iOS10生成图标和截屏
Sep 24 #Python
使用Python多线程爬虫爬取电影天堂资源
Sep 23 #Python
You might like
PHP中全面阻止SQL注入式攻击分析小结
2012/01/30 PHP
PHP实现读取文件夹及批量重命名文件操作示例
2019/04/15 PHP
IE和Firefox下javascript的兼容写法小结
2008/12/10 Javascript
javascript 数组排序函数
2009/08/20 Javascript
菜鸟javascript基础整理1
2010/12/06 Javascript
基于jquery的可多选的下拉列表框
2012/07/20 Javascript
让html页面不缓存js的实现方法
2014/10/31 Javascript
jQuery中siblings()方法用法实例
2015/01/08 Javascript
jquery实现鼠标经过显示下划线的渐变下拉菜单效果代码
2015/08/24 Javascript
使用jQuery的ajax方法向服务器发出get和post请求的方法
2017/01/13 Javascript
Angular JS 生成动态二维码的方法
2017/02/23 Javascript
ES6新增的math,Number方法
2017/08/06 Javascript
详解利用 Express 托管静态文件的方法
2017/09/18 Javascript
layer弹出子iframe层父子页面传值的实现方法
2018/11/22 Javascript
详解Vue基于vue-quill-editor富文本编辑器使用心得
2019/01/03 Javascript
详解VScode编辑器vue环境搭建所遇问题解决方案
2019/04/26 Javascript
js实现3D照片墙效果
2019/10/28 Javascript
Element Backtop回到顶部的具体使用
2020/07/27 Javascript
[00:55]深扒TI7聊天轮盘语音出处3
2017/05/11 DOTA
python基础教程之类class定义使用方法
2014/02/20 Python
用pywin32实现windows模拟鼠标及键盘动作
2014/04/22 Python
在Linux上安装Python的Flask框架和创建第一个app实例的教程
2015/03/30 Python
python实现2048小游戏
2015/03/30 Python
python操作sqlite的CRUD实例分析
2015/05/08 Python
python判断一个数是否能被另一个整数整除的实例
2018/12/12 Python
Python实现堡垒机模式下远程命令执行操作示例
2019/05/09 Python
pandas基于时间序列的固定时间间隔求均值的方法
2019/07/04 Python
Python Django基础二之URL路由系统
2019/07/18 Python
pytorch 归一化与反归一化实例
2019/12/31 Python
Python爬虫与反爬虫大战
2020/07/30 Python
使用JS+CSS3技术:让你的名字动起来
2013/04/27 HTML / CSS
班长演讲稿范文
2014/04/24 职场文书
社区春季防火方案
2014/06/02 职场文书
2016计算机专业毕业生自荐信
2016/01/28 职场文书
Nginx服务器添加Systemd自定义服务过程解析
2021/03/31 Servers
mysql中int(3)和int(10)的数值范围是否相同
2021/10/16 MySQL