编程 Python

Python实现针对中文排序的方法

Posted in Python onMay 09, 2017

本文实例讲述了Python实现针对中文排序的方法。分享给大家供大家参考，具体如下：

Python比较字符串大小时，根据的是ord函数得到的编码值。基于它的排序函数sort可以很容易为数字和英文字母排序，因为它们在编码表中就是顺序排列的。

>> print ','< '1'<'A'<'a'<'阿'
True

但要很处理中文就没那么容易了。中文通常有拼音和笔画两种排序方式，在最常用中文标准字符集GB2312中，3755个一级中文汉字是按照拼音序进行编码的，而3008个二级汉字则是按部首笔画排列，

>> print '曙'< '鲑','曾'<'怡'
True True

出现这样的结果是因为‘曙'和‘曾'都是常用字，而‘鲑'和‘怡'都是次常用字，但无论从笔画还是拼音来看，这两对顺序都应该反过来。后来扩充的GBK和GB18030编码为了向下兼容，都没有更改之前的汉字顺序，于是sort之后的次序就很乱了。

另一方面unicode编码的中文是按《康熙字典》的偏旁部首和笔画数来排列的，所以排序结果和GB编码又不一样。

# encoding=utf8
char=['赵','钱','孙','李','佘']
char.sort()
for item in char:
  print item.decode('utf-8').encode('gb2312')

输出是："佘孙李赵钱"；而保存成gb2312编码后

# encoding=gb2312
char=['赵','钱','孙','李','佘']
char.sort()
for item in char:
  print item

输出是：“李钱孙赵佘”。显然，这两个结果都不是我们想要的。那我们究竟怎样才能对中文正确排序呢？

先要弄清楚中文词典的排序规则：先按拼音排列，区分四声，拼音相同的就看笔画数目多少，笔画数也相同的再按笔顺中的具体笔划类型来区分，新华字典采用的顺序是一丨丿丶乙，也称作“天上人间”，应该没有笔划类型也完全一样的。所以中文排序不仅需要带音调的汉字拼音对照表，还需要有具体笔顺的数据。

本以为有现成的模块，试了几个都不理想。pyzh的转换代码只支持不到7千字，而且还没有音调。水木的roy的代码涵盖了2万多字符，但需要pysqlite支持......还是自立更生吧～

我找到最全的数据是slowwind9999上传到csdn的unicode汉字编码表（点击此处本站下载。），包括全部20902个汉字的全拼、五笔、郑码、UNICODE、GBK、笔画数部首，以及笔顺编号（拼音部分没有音调，而且个别注音有误，如 ?郑?g，??茸郑?褂眯枳⒁狻＃┪姨崛×似渲械谋仕呈?荩?钟媒?炯?摹笆涤煤鹤肿?匆簟背绦蛑谱髁?nicode汉字音调版，其中中文汉字用四声标注，319个日韩汉字没有音调以示区别，并根据汉典的数据略作修正（但仍可能存在错误）。有了这两个对照表，下面的工作就简单了。

# 建立拼音辞典
dic_py = dict()
f_py = open('py.txt','r')
content_py = f_py.read()
lines_py = content_py.split('\n')
n=len(lines_py)
for i in range(0,n-1):
  word_py, mean_py = lines_py[i].split('\t', 1)
  dic_py[word_py]=mean_py
f_py.close()

笔顺字典的处理方法也完全相同，虽然文本有两万行，导入还是很快的，0.5秒左右。如果把这两个文件合并起来统一处理，应该可以更快。

# 辞典查找函数
def searchdict(dic,uchar):
  if isinstance(uchar, str):
    uchar = unicode(uchar,'utf-8')
  if uchar >= u'\u4e00' and uchar < = u'\u9fa5':
    value=dic.get(uchar.encode('utf-8'))
    if value == None:
      value = '*'
  else:
    value = uchar
  return value

查找中文，一律转为UTF8字符串，汉字外的其他字符不做处理，原样输出。如果需要声母，只输出拼音的第一个字符就是了。只要资料准确，比较起来就很轻松了。数字在字母之前，爱（ai4）便会比昂（ang2）靠前，而笔顺值的位数代表了笔画数，数值对应笔划权重，直接比较数字大小就可以得到正确的顺序。代码如下：

#比较单个字符
def comp_char_PY(A,B):
  if A==B:
    return -1
  pyA=searchdict(dic_py,A)
  pyB=searchdict(dic_py,B)
  if pyA > pyB:
    return 1
  elif pyA < pyB:
    return 0
  else:
    bhA=eval(searchdict(dic_bh,A))
    bhB=eval(searchdict(dic_bh,B))
    if bhA > bhB:
      return 1
    elif bhA < bhB:
      return 0
    else:
      return 'Are you kidding?'
#比较字符串
def comp_char(A,B):
  charA = A.decode('utf-8')
  charB = B.decode('utf-8')
  n=min(len(charA),len(charB))
  i=0
  while i < n:
    dd=comp_char_PY(charA[i],charB[i])
    if dd == -1:
      i=i+1
      if i==n:
        dd=len(charA)>len(charB)
    else:
      break
  return dd
# 排序函数
def cnsort(nline):
  n = len(nline)
  lines='\n'.join(nline)
  for i in range(1, n): #插入法
    tmp = nline[i]
    j = i
    while j > 0 and comp_char(nline[j-1],tmp):
      nline[j] = nline[j-1]
      j -= 1
    nline[j] = tmp
  return nline

现在我们就可以按照字典的规范给中文排序了。

char=['赵','钱','孙','李','佘']
char=cnsort(char)
for item in char:
  print item.decode('utf-8').encode('gb2312')

终于得到了“李钱佘孙赵”，示例文件点此下载。

这里我没有考虑多音字的情况。如果想让程序自动识别，可以增加多音词组对照表，通过上下文来判断。我不知道哪里有这样的数据，反正对于多音字不太多的情形，手动调整也就够了。

Python实现针对中文排序的方法

- Author -

app_

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用Python编写简单网络爬虫抓取视频下载资源

Nov 04 Python

python实现登陆知乎获得个人收藏并保存为word文件

Mar 16 Python

python函数形参用法实例分析

Aug 04 Python

深入解析Python中的urllib2模块

Nov 13 Python

Python求解任意闭区间的所有素数

Jun 10 Python

python用pandas数据加载、存储与文件格式的实例

Dec 07 Python

Python 多线程不加锁分块读取文件的方法

Dec 11 Python

解决Jupyter Notebook开始菜单栏Anaconda下消失的问题

Apr 13 Python

浅谈keras中的batch_dot,dot方法和TensorFlow的matmul

Jun 18 Python

为什么是 Python -m

Jun 19 Python

Python面向对象多态实现原理及代码实例

Sep 16 Python

Python之qq自动发消息的示例代码

Feb 18 Python

浅谈python socket函数中,send与sendall的区别与使用方法

May 09 #Python

Python利用operator模块实现对象的多级排序详解

May 09 #Python

网站渗透常用Python小脚本查询同ip网站

May 08 #Python

Python获取当前路径实现代码

May 08 #Python

Django自定义分页与bootstrap分页结合

Feb 22 #Python

利用python写个下载teahour音频的小脚本

May 08 #Python

通过源码分析Python中的切片赋值

May 08 #Python

You might like

新手配置 PHP 调试环境（IIS+PHP+MYSQL）

2007/01/10 PHP

PHP中使用memcache存储session的三种配置方法

2014/04/05 PHP

Yii+MYSQL锁表防止并发情况下重复数据的方法

2016/07/14 PHP

PHP正则+Snoopy抓取框架实现的抓取淘宝店信誉功能实例

2017/05/17 PHP

使用prototype.js进行异步操作

2007/02/07 Javascript

javascript下高性能字符串连接StringBuffer类

2010/08/16 Javascript

用JQuery调用Session的实现代码

2010/10/29 Javascript

jQuery 源码分析笔记(2) 变量列表

2011/05/28 Javascript

Jquery通过Ajax方式来提交Form表单的具体实现

2013/11/07 Javascript

jQuery插件jQuery-JSONP开发ajax调用使用注意事项

2013/11/22 Javascript

javascript绘制漂亮的心型线效果完整实例

2016/02/02 Javascript

JavaScript知识点总结(十六)之Javascript闭包（Closure）代码详解

2016/05/31 Javascript

微信小程序 wx.request合法域名配置详解

2016/11/23 Javascript

AngularJS自定义指令实现面包屑功能完整实例

2017/05/17 Javascript

js微信应用场景之微信音乐相册案例分享

2017/08/11 Javascript

angular4 如何在全局设置路由跳转动画的方法

2017/08/30 Javascript

基于vue2.x的电商图片放大镜插件的使用

2018/01/22 Javascript

微信小程序中时间戳和日期的相互转换问题

2018/07/09 Javascript

Ajax请求时无法重定向的问题解决代码详解

2019/06/21 Javascript

详解uniapp的全局变量实现方式

2021/01/11 Javascript

Python牛刀小试密码爆破

2011/02/03 Python

Python实现去除列表中重复元素的方法小结【4种方法】

2018/04/27 Python

pytorch permute维度转换方法

2018/12/14 Python

Python实现程序判断季节的代码示例

2019/01/28 Python

python 基于dlib库的人脸检测的实现

2019/11/08 Python

Python虚拟环境库virtualenvwrapper安装及使用

2020/06/17 Python

python让函数不返回结果的方法

2020/06/22 Python

CSS3中currentColor关键字的妙用

2016/02/27 HTML / CSS

Viking Direct爱尔兰：办公用品和家具

2019/11/21 全球购物

简述索引存取方法的作用和建立索引的原则

2013/03/26 面试题

模范教师事迹材料

2014/02/10 职场文书

《争吵》教学反思

2014/02/15 职场文书

摄影专业毕业生求职信

2014/03/13 职场文书

新颖的化妆品活动方案

2014/08/21 职场文书

2014年电话客服工作总结

2014/12/09 职场文书

欠款起诉书范文

2015/05/19 职场文书