python 采集中文乱码问题的完美解决方法


Posted in Python onSeptember 27, 2016

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了,希望对大家有所帮助,多多支持三水点靠木~

Python 相关文章推荐
python BeautifulSoup使用方法详解
Nov 21 Python
Python字符串匹配算法KMP实例
Jul 18 Python
在Python的Django框架中编写编译函数
Jul 20 Python
使用Kivy将python程序打包为apk文件
Jul 29 Python
Python cookbook(数据结构与算法)对切片命名清除索引的方法
Mar 13 Python
使用Python抓取豆瓣影评数据的方法
Oct 17 Python
Python3.6+Django2.0以上 xadmin站点的配置和使用教程图解
Jun 04 Python
python查看数据类型的方法
Oct 12 Python
基于python检查SSL证书到期情况代码实例
Apr 04 Python
Python3通过chmod修改目录或文件权限的方法示例
Jun 08 Python
Python 执行矩阵与线性代数运算
Aug 01 Python
python将数据插入数据库的代码分享
Aug 16 Python
20招让你的Python飞起来!
Sep 27 #Python
python搭建虚拟环境的步骤详解
Sep 27 #Python
利用python发送和接收邮件
Sep 27 #Python
实现python版本的按任意键继续/退出
Sep 26 #Python
Linux 下 Python 实现按任意键退出的实现方法
Sep 25 #Python
利用Python为iOS10生成图标和截屏
Sep 24 #Python
使用Python多线程爬虫爬取电影天堂资源
Sep 23 #Python
You might like
ThinkPHP多语言支持与多模板支持概述
2014/08/22 PHP
大家在抢红包,程序员在研究红包算法
2015/08/31 PHP
再次更新!MSClass (Class Of Marquee Scroll通用不间断滚动JS封装类 Ver 1.6)
2007/02/05 Javascript
限制textbox或textarea输入字符长度的JS代码
2013/10/16 Javascript
Javascript模块化编程详解
2014/12/01 Javascript
实现前后端数据交互方法汇总
2015/04/07 Javascript
纯JS实现本地图片预览的方法
2015/07/31 Javascript
跟我学习javascript的执行上下文
2015/11/18 Javascript
轻松学习jQuery插件EasyUI EasyUI创建RSS Feed阅读器
2015/11/30 Javascript
深入理解JavaScript中的对象复制(Object Clone)
2016/05/18 Javascript
基于zepto.js简单实现上传图片
2016/06/21 Javascript
jQuery实现的placeholder效果完整实例
2016/08/02 Javascript
ECMAScript6--解构
2017/03/30 Javascript
JavaScript实现前端分页控件
2017/04/19 Javascript
详解ECMAScript6入门--Class对象
2017/04/27 Javascript
详解Node.js access_token的获取、存储及更新
2017/06/20 Javascript
浅析微信扫码登录原理(小结)
2018/10/29 Javascript
复制粘贴功能的Python程序
2008/04/04 Python
浅谈python多线程和队列管理shell程序
2015/08/04 Python
Python中内置的日志模块logging用法详解
2016/07/12 Python
Python设计实现的计算器功能完整实例
2017/08/18 Python
Python实现判断一个字符串是否包含子串的方法总结
2017/11/21 Python
Python爬虫实现百度图片自动下载
2018/02/04 Python
dataframe设置两个条件取值的实例
2018/04/12 Python
wxpython+pymysql实现用户登陆功能
2019/11/19 Python
HTML5 script元素async、defer异步加载使用介绍
2013/08/23 HTML / CSS
Chain Reaction Cycles俄罗斯:世界上最大的在线自行车商店
2019/08/27 全球购物
英国伦敦的睡衣品牌:Asceno
2019/10/06 全球购物
物业管理大学生个人的自我评价
2013/10/10 职场文书
最新党员的自我评价分享
2013/11/04 职场文书
债务追讨授权委托书范本
2014/10/16 职场文书
库房管理员岗位职责
2015/02/12 职场文书
2015年扶贫帮困工作总结
2015/05/20 职场文书
2016关于军训的心得体会
2016/01/11 职场文书
《秋天的怀念》教学反思
2016/02/17 职场文书
创业计划书之旅游网站
2019/09/06 职场文书