python 采集中文乱码问题的完美解决方法


Posted in Python onSeptember 27, 2016

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了,希望对大家有所帮助,多多支持三水点靠木~

Python 相关文章推荐
将Python代码嵌入C++程序进行编写的实例
Jul 31 Python
python2.7的编码问题与解决方法
Oct 04 Python
Python简单读取json文件功能示例
Nov 30 Python
pandas.dataframe中根据条件获取元素所在的位置方法(索引)
Jun 07 Python
python实现鸢尾花三种聚类算法(K-means,AGNES,DBScan)
Jun 27 Python
Apache部署Django项目图文详解
Jul 30 Python
利用Python小工具实现3秒钟将视频转换为音频
Oct 29 Python
PyCharm第一次安装及使用教程
Jan 08 Python
Python用5行代码实现批量抠图的示例代码
Apr 14 Python
python包的导入方式总结
Mar 02 Python
用Python爬取某乎手机APP数据
Jun 15 Python
python随机打印成绩排名表
Jun 23 Python
20招让你的Python飞起来!
Sep 27 #Python
python搭建虚拟环境的步骤详解
Sep 27 #Python
利用python发送和接收邮件
Sep 27 #Python
实现python版本的按任意键继续/退出
Sep 26 #Python
Linux 下 Python 实现按任意键退出的实现方法
Sep 25 #Python
利用Python为iOS10生成图标和截屏
Sep 24 #Python
使用Python多线程爬虫爬取电影天堂资源
Sep 23 #Python
You might like
将时间以距今多久的形式表示,PHP,js双版本
2012/09/25 PHP
php使HTML标签自动补全闭合函数代码
2012/10/04 PHP
yii2利用自带UploadedFile实现上传图片的示例
2017/02/16 PHP
利用php的ob缓存机制实现页面静态化方法
2017/07/09 PHP
24款非常有用的 jQuery 插件分享
2011/04/06 Javascript
5个javascript的数字格式化函数分享
2011/12/07 Javascript
Underscore.js 的模板功能介绍与应用
2012/12/24 Javascript
js对象转json数组的简单实现案例
2014/02/28 Javascript
javascript校验价格合法性实例(必须输入2位小数)
2014/05/05 Javascript
Javascript学习笔记之 对象篇(三) : hasOwnProperty
2014/06/24 Javascript
js实现改进的仿蓝色论坛导航菜单效果代码
2015/09/06 Javascript
js+css实现超简洁的二级下拉菜单效果代码
2015/09/07 Javascript
JavaScript操作表单实例讲解(上)
2016/06/20 Javascript
jQuery实现ajax无刷新分页页码控件
2017/02/28 Javascript
(模仿京东用户注册)用JQuery实现简单表单验证,初学者必看
2018/01/08 jQuery
vue使用中的内存泄漏【推荐】
2018/07/10 Javascript
Vue侦测相关api的实现方法
2019/05/22 Javascript
js微信分享接口调用详解
2019/07/23 Javascript
浅谈vuex中store的命名空间
2019/11/08 Javascript
js实现数字滚动特效
2019/12/16 Javascript
vue实现移动端图片上传功能
2019/12/23 Javascript
vue内置组件keep-alive事件动态缓存实例
2020/10/30 Javascript
Vue——前端生成二维码的示例
2020/12/19 Vue.js
[01:47]2018年度DOTA2最具人气解说-完美盛典
2018/12/16 DOTA
TensorFlow2.0:张量的合并与分割实例
2020/01/19 Python
Python爬虫requests库多种用法实例
2020/05/28 Python
中文教师求职信
2014/02/22 职场文书
打架检讨书2000字
2014/02/22 职场文书
五年级学生评语
2014/04/22 职场文书
财务会计专业求职信
2014/06/09 职场文书
基层领导干部“四风”问题批评与自我批评
2014/09/23 职场文书
校长四风对照检查材料
2014/09/27 职场文书
2015年社区计生工作总结
2015/04/21 职场文书
学校光盘行动倡议书
2015/04/28 职场文书
ConditionalOnProperty配置swagger不生效问题及解决
2022/06/14 Java/Android
正则表达式基础与常用验证表达式
2022/06/16 Javascript