python 采集中文乱码问题的完美解决方法


Posted in Python onSeptember 27, 2016

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了,希望对大家有所帮助,多多支持三水点靠木~

Python 相关文章推荐
Python中xrange与yield的用法实例分析
Dec 26 Python
教你用Python创建微信聊天机器人
Mar 31 Python
Python实现的寻找前5个默尼森数算法示例
Mar 25 Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 Python
python url 参数修改方法
Dec 26 Python
Python通过paramiko远程下载Linux服务器上的文件实例
Dec 27 Python
基于python的selenium两种文件上传操作实现详解
Sep 19 Python
Python 去除字符串中指定字符串
Mar 05 Python
python实现Oracle查询分组的方法示例
Apr 30 Python
Pytorch学习之torch用法----比较操作(Comparison Ops)
Jun 28 Python
Python常用类型转换实现代码实例
Jul 28 Python
教你怎么用PyCharm为同一服务器配置多个python解释器
May 31 Python
20招让你的Python飞起来!
Sep 27 #Python
python搭建虚拟环境的步骤详解
Sep 27 #Python
利用python发送和接收邮件
Sep 27 #Python
实现python版本的按任意键继续/退出
Sep 26 #Python
Linux 下 Python 实现按任意键退出的实现方法
Sep 25 #Python
利用Python为iOS10生成图标和截屏
Sep 24 #Python
使用Python多线程爬虫爬取电影天堂资源
Sep 23 #Python
You might like
曾在DC漫画界反派角色扮演的演员,谁才是你心目中的小丑之王?
2020/04/09 欧美动漫
PHP开发注意事项总结
2015/02/04 PHP
支持中文、字母、数字的PHP验证码
2015/05/04 PHP
PHP中的类型约束介绍
2015/05/11 PHP
分析php://output和php://stdout的区别
2018/05/06 PHP
php创建多级目录与级联删除文件的方法示例
2019/09/12 PHP
一些经常会用到的Javascript检测函数
2010/05/31 Javascript
JS面向对象编程浅析
2011/08/28 Javascript
如何在JavaScript中实现私有属性的写类方式(一)
2013/12/04 Javascript
js data日期初始化的5种方法
2013/12/29 Javascript
javascript使用onclick事件改变选中行的颜色
2013/12/30 Javascript
javascript中递归函数用法注意点
2015/07/30 Javascript
浅谈js在html中的加载执行顺序,多个jquery ready执行顺序
2016/11/26 Javascript
Bootstrap输入框组件使用详解
2017/06/09 Javascript
利用JavaScript实现栈的数据结构示例代码
2017/08/02 Javascript
js常见遍历操作小结
2019/06/06 Javascript
js如何实现元素曝光上报
2019/08/07 Javascript
python静态方法实例
2015/01/14 Python
Python中多个数组行合并及列合并的方法总结
2018/04/12 Python
python3.6.3+opencv3.3.0实现动态人脸捕获
2018/05/25 Python
在Pycharm中项目解释器与环境变量的设置方法
2018/10/29 Python
Python实现微信好友的数据分析
2019/12/16 Python
Python和Anaconda和Pycharm安装教程图文详解
2020/02/04 Python
Python实现Canny及Hough算法代码实例解析
2020/08/06 Python
python wsgiref源码解析
2021/02/06 Python
纯css3实现效果超级炫的checkbox复选框和radio单选框
2014/09/01 HTML / CSS
HTML5添加禁止缩放功能
2017/11/03 HTML / CSS
Emporio Armani腕表天猫官方旗舰店:乔治·阿玛尼为年轻人设计的副线品牌
2017/07/02 全球购物
德国前卫设计师时装在线商店:Luxury Loft
2019/11/04 全球购物
说一下mysql, oracle等常见数据库的分页实现方案
2012/09/29 面试题
Why we need EJB
2016/10/20 面试题
涨价通知怎么写
2015/04/23 职场文书
加薪申请报告范本
2015/05/15 职场文书
2020年个人安全保证书参考模板
2020/01/08 职场文书
SpringBoot项目多数据源及mybatis 驼峰失效的问题解决方法
2022/07/07 Java/Android
Win11 PC上的Outlook搜索错误怎么办?
2022/07/15 数码科技