编程 Python

Python 字符串处理特殊空格\xc2\xa0\t\n Non-breaking space

Posted in Python onFebruary 23, 2020

今天遇到一个问题，使用python的find函数寻找字符串中的第一个空格时没有找到正确的位置，例如：

http://zc.whmc.edu.cn ==> 无法访问的网站或无效的招标网站

$Python 字符串处理特殊空格\xc2\xa0\t\n Non-breaking space$

使用find(" ")函数寻找时找到的第一个空格对应在==>后面的那个位置。一开始觉得是编码问题，但是文件是用UTF-8编码的，按理说不应该产生编码问题，就用Sublime打开一看是这样的：

可以看到，我的Sublime设置了显示空白，所以第二个红线上方有一个白点，而第一个红线上方却没有，这说明第一个红线上方那个字符确实不是一个空格，也就是说函数的运行没有问题。但那个空格倒底是个什么东西呢？在Sublime中File-->Reopen with Encoding-->Hexadecimal打开文件可以看到是这样的：

$Python 字符串处理特殊空格\xc2\xa0\t\n Non-breaking space$

在网上可以查到，==>对应的UTF-8编码是\x3d\x3d\x3e，所以前面的那个神秘字符的编码就是\xc2\xa0，上网查到这是一个叫做Non-breaking space的东西，用于阻止在此处自动换行和阻止多个空格被压缩成一个。至于解决方法，先用subplace("\xc2\xa0", " ")把这个特殊的空格替换一下就行了。

去除特殊空格：\xc2\xa0

在去除空格的时候遇到一种情况：

a = '2 '
b = '3'
print a.split(),b

输出结果：

['2\xc2\xa0'] 3

在网上可以查到，==>对应的UTF-8编码是\x3d\x3d\x3e，所以前面的那个神秘字符的编码就是\xc2\xa0，上网查到这是一个叫做Non-breaking space的东西，用于阻止在此处自动换行和阻止多个空格被压缩成一个。至于解决方法，先用subplace("\xc2\xa0", " ")

a = '2 '
b = '3'
 
print a.replace("\xc2\xa0", ""),b

输出结果：

$Python 字符串处理特殊空格\xc2\xa0\t\n Non-breaking space$

python 爬虫爬取内容时， \xa0 、 \u3000 的含义与处理方法

处理方法

str.replace(u'\xa0', u' ')

最近用 scrapy 爬某网站，发现拿到的内容里面含有 \xa0 、 \u3000 这样的字符，起初还以为是编码不对，搜了一下才知道是见识太少 233 。

\xa0 是不间断空白符

我们通常所用的空格是 \x20 ，是在标准ASCII可见字符 0x20~0x7e 范围内。
而 \xa0 属于 latin1 （ISO/IEC_8859-1）中的扩展字符集字符，代表空白符nbsp(non-breaking space)。
latin1 字符集向下兼容 ASCII （ 0x20~0x7e ）。通常我们见到的字符多数是 latin1 的，比如在 MySQL 数据库中。

这里也有一张简陋的Latin1字符集对照表。

\u3000 是全角的空白符

根据Unicode编码标准及其基本多语言面的定义， \u3000 属于CJK字符的CJK标点符号区块内，是空白字符之一。它的名字是 Ideographic Space ，有人译作表意字空格、象形字空格等。顾名思义，就是全角的 CJK 空格。它跟 nbsp 不一样，是可以被换行间断的。常用于制造缩进， wiki 还说用于抬头，但没见过。

这里还有一个 Unicode.org 上关于 CJK 标点符号块的字符代码表。

python中去掉字符串中的\xa0、\t、\n

今天帮女朋友从网络上收集一些信息，但是发现提取出的信息中有“\xa0”，并且无法去掉，查阅了相关资料，后发现该字符表示空格。

\xa0 是不间断空白符
我们通常所用的空格是 \x20 ，是在标准ASCII可见字符 0x20~0x7e 范围内。
而 \xa0 属于 latin1 （ISO/IEC_8859-1）中的扩展字符集字符，代表空白符nbsp(non-breaking space)。
latin1 字符集向下兼容 ASCII （ 0x20~0x7e ）。通常我们见到的字符多数是 latin1 的，比如在 MySQL 数据库中。
有如下信息：

'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0,', 'V-neck\xa0\xa0V型领\xa0sleeve\xa0\xa0袖子\xa0,',

我们如何将其中的\xz0去掉呢，试了re模块的sub方法，发现没有作用，于是又开始查阅相关资料，终于解决了该问题。方法如下：

>>> inputstring = u'\n           Door:\xa0Novum     \t   '
>>> move = dict.fromkeys((ord(c) for c in u"\xa0\n\t"))
>>> output = inputstring.translate(move)
>>> output
'           Door:Novum

另外还有一种更简单的方法，利用split方法：

>>> s
'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0'
>>> out = "".join(s.split())
>>> out
'T-shirt短袖圆领衫,体恤衫'

可以发现利用translate方法、split()可以完美解决，并且还可以替换\t \n字符，由此又学到了新知识！

关于ord函数：
ord()函数是chr()函数（对于8位的ASCII字符串）或unichr()函数（对于Unicode对象）的配对函数，它以一个字符（长度为1的字符串）作为参数，返回对应的ASCII数值，或者Unicode数值，如果所给的Unicode字符超出了你的Python定义范围，则会引发一个TypeError的异常。

关于fromkeys方法：
dict中的fromkeys方法目的是创建一个只有key的字典，内部利用for循环，使三个字符的asii码值成为可迭代对象（本来的整数是不可迭代的），分别对其迭代，存入字典。

关于translate方法：
Python translate() 方法根据参数table给出的表(包含 256 个字符)转换字符串的字符, 要过滤掉的字符放到 del 参数中。接收到move返回的表（字典），之后对字符串进行替换。

join()方法：
join()：连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串。可见该处用join方法真的是神来之笔，可谓绝妙！

值得注意的是，split方法中不带参数时，表示分割所有换行符、制表符、空格。

python2 可以这样

s=s.replace(unichr(0xa0),'')

到此这篇关于Python 字符串处理特殊空格\xc2\xa0 Non-breaking space的文章就介绍到这了,更多相关Python 特殊空格内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python 字符串处理特殊空格\xc2\xa0\t\n Non-breaking space

- Author -

mdxy-dxy

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python牛刀小试密码爆破

Feb 03 Python

Python3基础之输入和输出实例分析

Aug 18 Python

Python入门篇之字符串

Oct 17 Python

Pycharm学习教程（5） Python快捷键相关设置

May 03 Python

python实现rsa加密实例详解

Jul 19 Python

python实现音乐下载器

Apr 15 Python

python实现控制电脑鼠标和键盘，登录QQ的方法示例

Jul 06 Python

修改Pandas的行或列的名字(重命名)

Dec 18 Python

python通过matplotlib生成复合饼图

Feb 06 Python

python批量替换文件名中的共同字符实例

Mar 05 Python

python 如何在list中找Topk的数值和索引

May 20 Python

python开发制作好看的时钟效果

May 02 Python

Windows系统下pycharm中的pip换源

Feb 23 #Python

推荐8款常用的Python GUI图形界面开发框架

Feb 23 #Python

PyQt5高级界面控件之QTableWidget的具体使用方法

Feb 23 #Python

PyQt5中QTableWidget如何弹出菜单的示例代码

Feb 23 #Python

Python requests设置代理的方法步骤

Feb 23 #Python

详解Python修复遥感影像条带的两种方式

Feb 23 #Python

python2 对excel表格操作完整示例

Feb 23 #Python

You might like

php中去除所有js,html,css代码

2010/10/12 PHP

Codeigniter上传图片出现“You did not select a file to upload”错误解决办法

2014/06/12 PHP

PHP连接MySQL进行增、删、改、查操作

2017/02/19 PHP

浅谈php调用python文件

2019/03/29 PHP

两种WEB下的模态对话框（asp.net或js的分别实现）

2009/12/02 Javascript

javascript中length属性的探索

2011/07/31 Javascript

javascript题目，重写函数让其无限相加

2012/02/15 Javascript

一个封装js代码-----展开收起效果示例

2013/07/03 Javascript

jQuery把表单元素变为json对象

2013/11/06 Javascript

有关JavaScript中call()和apply() 的一些理解

2016/05/20 Javascript

jQuery插件FusionCharts绘制2D环饼图效果示例【附demo源码】

2017/04/10 jQuery

详解webpack+express多页站点开发

2017/12/22 Javascript

vue-cli webpack模板项目搭建及打包时路径问题的解决方法

2018/02/26 Javascript

LayerClose弹窗关闭刷新方法

2018/08/17 Javascript

Vue批量图片显示时遇到的路径被解析问题

2019/03/28 Javascript

elementUI select组件value值注意事项详解

2019/05/29 Javascript

如何解决日期函数new Date()浏览器兼容性问题

2019/09/11 Javascript

搭建Vue从Vue-cli到router路由护卫的实现

2019/11/14 Javascript

在Python的Django框架中显示对象子集的方法

2015/07/21 Python

Python实现简单的四则运算计算器

2016/11/02 Python

基于Python log 的正确打开方式

2018/04/28 Python

python批量赋值操作实例

2018/10/22 Python

Ubuntu下Anaconda和Pycharm配置方法详解

2019/06/14 Python

Python提取转移文件夹内所有.jpg文件并查看每一帧的方法

2019/06/27 Python

Django对接支付宝实现支付宝充值金币功能示例

2019/12/17 Python

Python爬虫程序架构和运行流程原理解析

2020/03/09 Python

Python批量将图片灰度化的实现代码

2020/04/11 Python

python中判断数字是否为质数的实例讲解

2020/12/06 Python

SmartBuyGlasses中国：唯视良品（销售名牌太阳镜、墨镜和眼镜框）

2017/07/03 全球购物

印度尼西亚电子产品购物网站：Kliknklik

2018/06/05 全球购物

英国领先的游戏零售商：GAME

2019/09/24 全球购物

酒店中秋节促销方案

2014/01/30 职场文书

服装采购员岗位职责

2014/03/15 职场文书

成都人事代理协议书

2014/10/25 职场文书

会计岗位工作总结

2015/08/12 职场文书

2019奶茶店创业计划书范本！

2019/07/15 职场文书