python 采集中文乱码问题的完美解决方法


Posted in Python onSeptember 27, 2016

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了,希望对大家有所帮助,多多支持三水点靠木~

Python 相关文章推荐
python实现通过代理服务器访问远程url的方法
Apr 29 Python
Python的gevent框架的入门教程
Apr 29 Python
使用Python脚本将Bing的每日图片作为桌面的教程
May 04 Python
Python反转序列的方法实例分析
Mar 21 Python
django+xadmin+djcelery实现后台管理定时任务
Aug 14 Python
python 提取key 为中文的json 串方法
Dec 31 Python
利用selenium爬虫抓取数据的基础教程
Jun 10 Python
Python3显示当前时间、计算时间差及时间加减法示例代码
Sep 07 Python
Python 异常的捕获、异常的传递与主动抛出异常操作示例
Sep 23 Python
pygame实现飞机大战
Mar 11 Python
Python实现自动打开电脑应用的示例代码
Apr 17 Python
python如何变换环境
Jul 21 Python
20招让你的Python飞起来!
Sep 27 #Python
python搭建虚拟环境的步骤详解
Sep 27 #Python
利用python发送和接收邮件
Sep 27 #Python
实现python版本的按任意键继续/退出
Sep 26 #Python
Linux 下 Python 实现按任意键退出的实现方法
Sep 25 #Python
利用Python为iOS10生成图标和截屏
Sep 24 #Python
使用Python多线程爬虫爬取电影天堂资源
Sep 23 #Python
You might like
php实现递归与无限分类的方法
2015/02/16 PHP
php微信开发之上传临时素材
2016/06/24 PHP
Laravel+jQuery实现AJAX分页效果
2016/09/14 PHP
Yii框架日志记录Logging操作示例
2018/07/12 PHP
imgAreaSelect 中文文档帮助说明
2011/10/08 Javascript
jQuery的控件及事件(输入控件及回车事件)使用示例
2013/07/25 Javascript
js 实现 input type="file" 文件上传示例代码
2013/08/07 Javascript
jQuery中$.get、$.post、$.getJSON和$.ajax的用法详解
2014/11/19 Javascript
javascript中indexOf技术详解
2015/05/07 Javascript
Jquery和JS获取ul中li标签的实现方法
2016/06/02 Javascript
JS实现自动阅读单词(有道单词本添加功能)
2016/11/14 Javascript
ajax +NodeJS 实现图片上传实例
2017/06/06 NodeJs
setTimeout时间设置为0详细解析
2018/03/13 Javascript
小程序登录态管理的方法示例
2018/11/13 Javascript
原生JS实现的跳一跳小游戏完整实例
2019/01/27 Javascript
Vue按时间段查询数据组件使用详解
2020/08/21 Javascript
python使用rabbitmq实现网络爬虫示例
2014/02/20 Python
python修改字典内key对应值的方法
2015/07/11 Python
每天迁移MySQL历史数据到历史库Python脚本
2018/04/13 Python
python 给DataFrame增加index行名和columns列名的实现方法
2018/06/08 Python
selenium+python自动化测试之使用webdriver操作浏览器的方法
2019/01/23 Python
Python 实现文件打包、上传与校验的方法
2019/02/13 Python
python选取特定列 pandas iloc,loc,icol的使用详解(列切片及行切片)
2019/08/06 Python
Python查找不限层级Json数据中某个key或者value的路径方式
2020/02/27 Python
python中的错误如何查看
2020/07/08 Python
记一次python 爬虫爬取深圳租房信息的过程及遇到的问题
2020/11/24 Python
详解pandas赋值失败问题解决
2020/11/29 Python
Speedo速比涛德国官方网站:世界领先的泳装品牌
2019/08/26 全球购物
建筑人员岗位职责
2013/12/25 职场文书
建筑系毕业生自我鉴定
2014/01/24 职场文书
商务英语专业求职信范文
2014/01/28 职场文书
环境保护标语
2014/06/20 职场文书
博士生求职信
2014/07/06 职场文书
居委会四风问题个人对照检查材料
2014/09/25 职场文书
2015年挂职锻炼工作总结
2014/12/12 职场文书
JavaScript中document.activeELement焦点元素介绍
2021/11/27 Javascript