一文带你了解Python中的字符串是什么


Posted in Python onNovember 20, 2018

在《 详解Python拼接字符串的七种方式 》这篇文章里,我提到过,字符串是程序员离不开的事情。后来,我看到了一个英文版本的说法:

There are few guarantees in life: death, taxes, and programmers needing to deal with strings.
它竟然把程序员处理字符串跟死亡大事并列了,可见这是多么命中注定……

回头看其它文章,我发现这种说法得到了佐证,因为我在无意中已零零碎碎地提及了字符串的很多方面,例如:字符串读写文件、字符串打印、字符串不可变性、字符串Intern机制、字符串拼接、 是否会取消字符串 ,等等。而这些,还只能算字符串面目的冰山一角。

既然如此,那干脆再单独写写Python的字符串吧。这篇内容可能会很基(li)础(lun),并不是什么“骚操作”或“冷知识”,权当是一份温故而求知新的笔记。

1 Python字符串是什么?

根据维基百科定义:字符串是由零个或多个字符组成的有限序列。而在Python 3中,它有着更明确的意思: 字符串是由Unicode码点组成的不可变序列 (Strings are immutable sequences of Unicode code points.)

字符串是一种序列,这意味着它具备序列类型都支持的操作:

# 以下的s、t皆表示序列,x表示元素
x in s # 若s包含x,返回True,否则返回False
x not in s # 若s包含x,返回False,否则返回True
s + t # 连接两个序列
s * n # s复制n次
s[i] # s的索引第i项
s[i:j] # s切片从第i项到第j-1项
s[i:j:k] # s切片从第i项到第j-1项,间隔为k
len(s) # s的长度
min(s) # s的最小元素
max(s) # s的最大元素
s.index(x) # x的索引位置
s.count(x) # s中出现x的总次数

字符串序列还具备一些特有的操作,限于篇幅,按下不表。预告一下,下一篇《 你真的知道Python的字符串怎么用吗? 》将会展开介绍,敬请期待……

字符串序列是一种不可变序列,这意味着它不能像可变序列一样,进行就地修改。例如,在字符串“Python”的基础上拼接“Cat”,得到字符串“PythonCat”,新的字符串是一个独立的存在,它与基础字符串“Python”并没有关联关系。

basename = "Python"
myname = basename + "Cat"
id(basename) == id(myname) >>> False
# 作为对比,列表能就地修改
baselist = ["Python"]
baselist.append("Cat")
print(baselist) >>> ['Python', 'Cat']

字符串这种序列与其它序列(如列表、元组)的不同之处在于,它的“元素”限定了只能是Unicode码点。Unicode码点是什么呢?简单理解,就是用Unicode编码的字符。那字符是什么呢? 字符 是人类书写系统的各类符号,例如阿拉伯数字、拉丁字母、中文、日文、藏文、标点符号、控制符号(换行符、制表符等)、其它特殊符号(@#¥%$*等等)。那Unicode编码又是什么呢?Unicode别名是万国码、国际码,它是一种适用性最广的、将书写字符编码为计算机数字的标准。

总所周知,在最底层的计算机硬件世界里,只有0和1。那么,怎么用这个二进制数字,来表示人类的文化性的字符呢?这些字符数量庞大,而且还在日益增长与变化,什么样的编码方案才是最靠谱的呢?

历史上,人类创造了多种多样的字符编码标准,例如ASCII(1963年)编码,以西欧语言的字符为主,它的缺点是只能编码128个字符;例如GB2312(1981年),这是中国推出的编码标准,在兼容ASCII标准的基础上,还加入了对日文、俄文等字符的编码,但缺点仍是编码范围有限,无法表示古汉语、繁体字及更多书写系统的字符。

Unicode编码标准于1991年推出,至今迭代到了第11版,已经能够编码146个书写系统的130000个字符,可谓是无所不包,真不愧是“国际码”。Unicode编码其实是一个二进制字符集,它建立了从书写字符映射成唯一的数字字符的关系,但是,由于各系统平台对字符的理解差异,以及出于节省空间的考虑,Unicode编码还需要再做一次转换,转换后的新的二进制数字才能作为 实际存储及网络传输时的编码 。

这种转换方式被称为 Unicode转换格式 (Unicode Transformation Format,简称为UTF),它又细分为UTF-8、UTF-16、UTF-32等等方式。我们最常用的是UTF-8。为什么UTF-8最常用呢?因为它是可变长度的编码方案,针对不同的字符使用不同的字节数来编码,例如编码英文字母时,只需要一个字节(8个比特),而编码较复杂的汉字时,就会用到三个字节(24个比特)。

一文带你了解Python中的字符串是什么

二进制的编码串可以说是给机器阅读的,为了方便,我们通常会将其转化为十六进制,例如“中”字的Unicode编码可以表示成 0x4e2d ,其UTF-8编码可以表示为 0xe4b8ad ,'0x'用于开头表示十六进制,这样就简洁多了。不过,UTF-8编码的结果会被表示成以字节为单位的形式,例如“中”字用UTF-8编码后的字节形式是 \xe4\xb8\xad 。

Python中为了区分Unicode编码与字节码,分别在开头加“u”和“b”以示区分。在Python 3中,因为Unicode成了默认编码格式,所以“u”被省略掉了。

# 字符转Unicode编码
# Python3中,开头的u被省略,b不可省略
hex(ord('中')) >>> '0x4e2d'
hex(ord('A')) >>> '0x41'
# 字符转UTF-8编码(encode)
'中'.encode('utf-8') >>> b'\xe4\xb8\xad'
'A'.encode('utf-8') >>> b'A'
# Unicode编码还原成字符
chr(0x4e2d) >>> '中'
chr(0x41) >>> 'A'
# UTF-8编码还原成字符(decode)
b'\xe4\xb8\xad'.decode('utf-8') >>> '中'
b'A'.decode('utf-8') >>> 'A'

总结一下,Python 3 中的字符串是由Unicode码点组成的不可变序列,也即是,由采用Unicode标准编码的字符组成的不可变序列。Unicode编码将书写系统的字符映射成了计算机二进制数字,为了方便,通常显示为十六进制;在运算内存中,字符以Unicode编码呈现,当写入磁盘或用于网络传输时,一般采用UTF-8方式编码。

在Python 2中,因为历史包袱,即Python先于Unicode编码而诞生,所以其编码问题是个大难题。幸好抛弃Python 2已成大势所趋,所以我就不再对此做介绍或比对了。

2 Python字符串 VS Java字符串

虽然不提纵向版本间的差异,但是,我想将Python字符串与其它编程语言做一个横向对比。我觉得这会是挺好玩的事。通过跨语言的比较,也许我们能加深对一个事物(字符串)的理解,还可能受到启发,得到对“编程语言”及“编程哲学”的领悟。

由于本人才疏学浅,本文就只对两点皮毛特性作说明,欢迎读者斧正和补充。

(1)字符串的定义方式

Python的字符串是内置类型,所以使用起来很方便,有如下三种定义方式:

str_0 = '''Python字符串可以写在用三引号对内,表示多行字符串。
还可以写在单引号对内,
当然还可以写在双引号对内。
'''
str_1 = 'Python猫是一只猫'
str_2 = "Python猫是一个微信公众号"

Java的字符串不是内置类型,它属于对象,需要通过String类来创建。不过,正因为字符串太常用,所以Java特意预定义了一个字符串类String,使得程序员也可以像这样来定义: String name = "Python猫"; ,而不必这样写: String name = new String("Python猫"); 。

Java的字符串只能写在双引号内,不具备Python中单双引号混用的灵活。至于三引号的多行字符串表示法,Java程序员表示羡慕得要死,那种痛苦,受过折磨的人最懂。写出来让Python程序员开心一下:

String s = "Java 的多行字符串很麻烦,\n"
  + "既要使用换行符,\n"
  + "还需要使用加号拼接";

为什么Java不支持多行字符串、什么时候支持多行字符串?此类问题在Python程序员眼里,可能很费解,但它绝对能排进“Java程序员最希望能实现的特性”的前列。好不容易,官方有计划在Java 11 实现,但今年9月发布的Java 11 仍是没有,现在改计划到Java 12 了。

(2)单个字符与字符序列

Java中其实也有单引号的使用,用在char类型上,例如 char c = 'A'; 。char是一种内置类型,表示单个用Unicode编码的字符。Python中没有char类型,字符串类型通吃一切。

前面说到,Python的字符串是一种字符序列,而Java的字符串并不是一种序列,要表示相近的概念的话,就得用到 字符数组 或者 字符串数组 ,例如:

char[] a = { 'a', 'b', 'c'}; 
String[] str = new String[]{"1","2","3"};

字符数组和字符串数组是一种序列,但并不是字符串,它们之间如果要相互转换,还是挺麻烦的。另外,说是序列,但Java的序列操作绝对无法跟Python相比,别的不说,就上面提及的几个基础操作,试问Java能否实现、实现起来要花费多大力气?

最后来个Ending,关于“Python字符串到底是什么”就说到这啦,希望对你有所帮助。下次,我再跟大家说说“Python字符串到底怎么用”,敬请期待。希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
linux系统使用python监测网络接口获取网络的输入输出
Jan 15 Python
利用python模拟实现POST请求提交图片的方法
Jul 25 Python
python对excel文档去重及求和的实例
Apr 18 Python
Python 实现在文件中的每一行添加一个逗号
Apr 29 Python
在Python中字典根据多项规则排序的方法
Jan 21 Python
Python eval的常见错误封装及利用原理详解
Mar 26 Python
基于Python实现扑克牌面试题
Dec 11 Python
opencv之为图像添加边界的方法示例
Dec 26 Python
python实现梯度下降法
Mar 24 Python
Numpy一维线性插值函数的用法
Apr 22 Python
解决c++调用python中文乱码问题
Jul 29 Python
Python max函数中key的用法及原理解析
Jun 26 Python
pygame游戏之旅 创建游戏窗口界面
Nov 20 #Python
pygame游戏之旅 python和pygame安装教程
Nov 20 #Python
python2和python3的输入和输出区别介绍
Nov 20 #Python
python使用pygame框架实现推箱子游戏
Nov 20 #Python
浅析python的优势和不足之处
Nov 20 #Python
opencv实现图片模糊和锐化操作
Nov 19 #Python
python实现朴素贝叶斯算法
Nov 19 #Python
You might like
Smarty结合Ajax实现无刷新留言本实例
2007/01/02 PHP
PHP删除特定数组内容并且重建数组索引的方法.
2011/03/25 PHP
浅谈php fopen下载远程文件的函数
2016/11/18 PHP
php使用pthreads v3多线程实现抓取新浪新闻信息操作示例
2020/02/21 PHP
PHP超全局变量实现原理及代码解析
2020/09/01 PHP
PHP中的输出echo、print、printf、sprintf、print_r和var_dump的示例代码
2020/12/01 PHP
飞鱼(shqlsl) javascript作品集
2006/12/16 Javascript
js中cookie的使用详细分析
2008/05/28 Javascript
js select常用操作控制代码
2010/03/16 Javascript
10款新鲜出炉的 jQuery 插件(Ajax 插件,有幻灯片、图片画廊、菜单等)
2011/06/08 Javascript
JavaScript 上万关键字瞬间匹配实现代码
2013/07/07 Javascript
深入理解javascript中return的作用
2013/12/30 Javascript
jquery自定义下拉列表示例
2014/04/25 Javascript
node.js WEB开发中图片验证码的实现方法
2014/06/03 Javascript
JavaScript中对象介绍
2014/12/31 Javascript
innerHTML中标签可以换行的方法汇总
2015/08/14 Javascript
跟我学习javascript的隐式强制转换
2015/11/16 Javascript
jQuery Ajax 实例代码 ($.ajax、$.post、$.get)
2016/04/29 Javascript
JS传递对象数组为参数给后端,后端获取的实例代码
2016/06/28 Javascript
js addDqmForPP给标签内属性值加上双引号的函数
2016/12/24 Javascript
Vue父子模版传值及组件传值的三种方法
2017/11/27 Javascript
解决vue v-for src 图片路径问题 404
2019/11/12 Javascript
[00:36]DOTA2风云人物相约完美“圣”典 12月17日不见不散
2016/11/30 DOTA
python抓取百度首页的方法
2015/05/19 Python
python双端队列原理、实现与使用方法分析
2019/11/27 Python
使用pygame编写Flappy bird小游戏
2020/03/14 Python
python类共享变量操作
2020/09/03 Python
贝嫂喜欢的婴儿品牌,个性化的婴儿礼物:My 1st Years
2017/11/19 全球购物
市场部管理制度
2014/02/02 职场文书
土木工程专业推荐信
2014/02/19 职场文书
公务员学习习总书记“三严三实”思想汇报
2014/09/19 职场文书
2014年基层党支部工作总结
2014/12/04 职场文书
我们的节日重阳节活动总结
2015/03/24 职场文书
赵氏孤儿观后感
2015/06/09 职场文书
爱心捐赠活动简讯
2015/07/20 职场文书
2015年董事长秘书工作总结
2015/07/23 职场文书