编程 Python

python 采集中文乱码问题的完美解决方法

Posted in Python onSeptember 27, 2016

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了，希望对大家有所帮助，多多支持三水点靠木~

python 采集中文乱码问题的完美解决方法

- Author -

jingxian

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python BeautifulSoup使用方法详解

Nov 21 Python

Python字符串匹配算法KMP实例

Jul 18 Python

在Python的Django框架中编写编译函数

Jul 20 Python

使用Kivy将python程序打包为apk文件

Jul 29 Python

Python cookbook(数据结构与算法)对切片命名清除索引的方法

Mar 13 Python

使用Python抓取豆瓣影评数据的方法

Oct 17 Python

Python3.6+Django2.0以上 xadmin站点的配置和使用教程图解

Jun 04 Python

python查看数据类型的方法

Oct 12 Python

基于python检查SSL证书到期情况代码实例

Apr 04 Python

Python3通过chmod修改目录或文件权限的方法示例

Jun 08 Python

Python 执行矩阵与线性代数运算

Aug 01 Python

python将数据插入数据库的代码分享

Aug 16 Python

20招让你的Python飞起来!

Sep 27 #Python

python搭建虚拟环境的步骤详解

Sep 27 #Python

利用python发送和接收邮件

Sep 27 #Python

实现python版本的按任意键继续/退出

Sep 26 #Python

Linux 下 Python 实现按任意键退出的实现方法

Sep 25 #Python

利用Python为iOS10生成图标和截屏

Sep 24 #Python

使用Python多线程爬虫爬取电影天堂资源

Sep 23 #Python

You might like

ThinkPHP多语言支持与多模板支持概述

2014/08/22 PHP

大家在抢红包，程序员在研究红包算法

2015/08/31 PHP

再次更新！MSClass (Class Of Marquee Scroll通用不间断滚动JS封装类 Ver 1.6)

2007/02/05 Javascript

限制textbox或textarea输入字符长度的JS代码

2013/10/16 Javascript

Javascript模块化编程详解

2014/12/01 Javascript

实现前后端数据交互方法汇总

2015/04/07 Javascript

纯JS实现本地图片预览的方法

2015/07/31 Javascript

跟我学习javascript的执行上下文

2015/11/18 Javascript

轻松学习jQuery插件EasyUI EasyUI创建RSS Feed阅读器

2015/11/30 Javascript

深入理解JavaScript中的对象复制(Object Clone)

2016/05/18 Javascript

基于zepto.js简单实现上传图片

2016/06/21 Javascript

jQuery实现的placeholder效果完整实例

2016/08/02 Javascript

ECMAScript6--解构

2017/03/30 Javascript

JavaScript实现前端分页控件

2017/04/19 Javascript

详解ECMAScript6入门--Class对象

2017/04/27 Javascript

详解Node.js access_token的获取、存储及更新

2017/06/20 Javascript

浅析微信扫码登录原理(小结)

2018/10/29 Javascript

复制粘贴功能的Python程序

2008/04/04 Python

浅谈python多线程和队列管理shell程序

2015/08/04 Python

Python中内置的日志模块logging用法详解

2016/07/12 Python

Python设计实现的计算器功能完整实例

2017/08/18 Python

Python实现判断一个字符串是否包含子串的方法总结

2017/11/21 Python

Python爬虫实现百度图片自动下载

2018/02/04 Python

dataframe设置两个条件取值的实例

2018/04/12 Python

wxpython+pymysql实现用户登陆功能

2019/11/19 Python

HTML5 script元素async、defer异步加载使用介绍

2013/08/23 HTML / CSS

Chain Reaction Cycles俄罗斯：世界上最大的在线自行车商店

2019/08/27 全球购物

英国伦敦的睡衣品牌：Asceno

2019/10/06 全球购物

物业管理大学生个人的自我评价

2013/10/10 职场文书

最新党员的自我评价分享

2013/11/04 职场文书

债务追讨授权委托书范本

2014/10/16 职场文书

库房管理员岗位职责

2015/02/12 职场文书

2015年扶贫帮困工作总结

2015/05/20 职场文书

2016关于军训的心得体会

2016/01/11 职场文书

《秋天的怀念》教学反思

2016/02/17 职场文书

创业计划书之旅游网站

2019/09/06 职场文书