python sort、sorted高级排序技巧


Posted in Python onNovember 21, 2014

Python list内置sort()方法用来排序,也可以用python内置的全局sorted()方法来对可迭代的序列排序生成新的序列。

1)排序基础

简单的升序排序是非常容易的。只需要调用sorted()方法。它返回一个新的list,新的list的元素基于小于运算符(__lt__)来排序。

>>> sorted([5, 2, 3, 1, 4])

[1, 2, 3, 4, 5]

 
你也可以使用list.sort()方法来排序,此时list本身将被修改。通常此方法不如sorted()方便,但是如果你不需要保留原来的list,此方法将更有效。
>>> a = [5, 2, 3, 1, 4]

>>> a.sort()

>>> a

[1, 2, 3, 4, 5]

另一个不同就是list.sort()方法仅被定义在list中,相反地sorted()方法对所有的可迭代序列都有效。
>>> 

sorted({1: 'D', 2: 'B', 3: 'B', 4: 'E', 5: 'A'})

[1, 2, 3, 4, 5]

2)key参数/函数

从python2.4开始,list.sort()和sorted()函数增加了key参数来指定一个函数,此函数将在每个元素比较前被调用。 例如通过key指定的函数来忽略字符串的大小写:

>>> sorted("This is a test string from Andrew".split(), key=str.lower)

['a', 'Andrew', 'from', 'is', 'string', 'test', 'This']

key参数的值为一个函数,此函数只有一个参数且返回一个值用来进行比较。这个技术是快速的因为key指定的函数将准确地对每个元素调用。

更广泛的使用情况是用复杂对象的某些值来对复杂对象的序列排序,例如:

>>> student_tuples = [

        ('john', 'A', 15),

        ('jane', 'B', 12),

        ('dave', 'B', 10),

]

>>> sorted(student_tuples, key=lambda student: student[2])   # sort by age

[('dave', 'B', 10), ('jane', 'B', 12), ('john', 'A', 15)]

同样的技术对拥有命名属性的复杂对象也适用,例如:

>>> class Student:

        def __init__(self, name, grade, age):

                self.name = name

                self.grade = grade

                self.age = age

        def __repr__(self):

                return repr((self.name, self.grade, self.age))

>>> student_objects = [

        Student('john', 'A', 15),

        Student('jane', 'B', 12),

        Student('dave', 'B', 10),

]

>>> sorted(student_objects, key=lambda student: student.age)   # sort by age

[('dave', 'B', 10), ('jane', 'B', 12), ('john', 'A', 15)]

3)Operator 模块函数

上面的key参数的使用非常广泛,因此python提供了一些方便的函数来使得访问方法更加容易和快速。operator模块有itemgetter,attrgetter,从2.6开始还增加了methodcaller方法。使用这些方法,上面的操作将变得更加简洁和快速:

>>> from operator import itemgetter, attrgetter

>>> sorted(student_tuples, key=itemgetter(2))

[('dave', 'B', 10), ('jane', 'B', 12), ('john', 'A', 15)]

>>> sorted(student_objects, key=attrgetter('age'))

[('dave', 'B', 10), ('jane', 'B', 12), ('john', 'A', 15)]

operator模块还允许多级的排序,例如,先以grade,然后再以age来排序:
>>> sorted(student_tuples, key=itemgetter(1,2))

[('john', 'A', 15), ('dave', 'B', 10), ('jane', 'B', 12)]

>>> sorted(student_objects, key=attrgetter('grade', 'age'))

[('john', 'A', 15), ('dave', 'B', 10), ('jane', 'B', 12)]

4)升序和降序

list.sort()和sorted()都接受一个参数reverse(True or False)来表示升序或降序排序。例如对上面的student降序排序如下:

>>> sorted(student_tuples, key=itemgetter(2), reverse=True)

[('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]

>>> sorted(student_objects, key=attrgetter('age'), reverse=True)

[('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]

5)排序的稳定性和复杂排序

从python2.2开始,排序被保证为稳定的。意思是说多个元素如果有相同的key,则排序前后他们的先后顺序不变。

>>> data = [('red', 1), ('blue', 1), ('red', 2), ('blue', 2)]

>>> sorted(data, key=itemgetter(0))

[('blue', 1), ('blue', 2), ('red', 1), ('red', 2)]

注意在排序后'blue'的顺序被保持了,即'blue', 1在'blue', 2的前面。
 
更复杂地你可以构建多个步骤来进行更复杂的排序,例如对student数据先以grade降序排列,然后再以age升序排列。
>>> s = sorted(student_objects, key=attrgetter('age'))     # sort on secondary key

>>> sorted(s, key=attrgetter('grade'), reverse=True)       # now sort on primary key, descending

[('dave', 'B', 10), ('jane', 'B', 12), ('john', 'A', 15)]

6)最老土的排序方法-DSU

我们称其为DSU(Decorate-Sort-Undecorate),原因为排序的过程需要下列三步:
第一:对原始的list进行装饰,使得新list的值可以用来控制排序;
第二:对装饰后的list排序;
第三:将装饰删除,将排序后的装饰list重新构建为原来类型的list;
 

例如,使用DSU方法来对student数据根据grade排序:
>>> decorated = [(student.grade, i, student) for i, student in enumerate(student_objects)]
>>> decorated.sort()
>>> [student for grade, i, student in decorated]               # undecorate
[('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
上面的比较能够工作,原因是tuples是可以用来比较,tuples间的比较首先比较tuples的第一个元素,如果第一个相同再比较第二个元素,以此类推。
 

并不是所有的情况下都需要在以上的tuples中包含索引,但是包含索引可以有以下好处:
第一:排序是稳定的,如果两个元素有相同的key,则他们的原始先后顺序保持不变;
第二:原始的元素不必用来做比较,因为tuples的第一和第二元素用来比较已经是足够了。
 

此方法被RandalL.在perl中广泛推广后,他的另一个名字为也被称为Schwartzian transform。
 

对大的list或list的元素计算起来太过复杂的情况下,在python2.4前,DSU很可能是最快的排序方法。但是在2.4之后,上面解释的key函数提供了类似的功能。
 

7)其他语言普遍使用的排序方法-cmp函数

在python2.4前,sorted()和list.sort()函数没有提供key参数,但是提供了cmp参数来让用户指定比较函数。此方法在其他语言中也普遍存在。

在python3.0中,cmp参数被彻底的移除了,从而简化和统一语言,减少了高级比较和__cmp__方法的冲突。

在python2.x中cmp参数指定的函数用来进行元素间的比较。此函数需要2个参数,然后返回负数表示小于,0表示等于,正数表示大于。例如:

>>> def numeric_compare(x, y):

        return x - y

>>> sorted([5, 2, 4, 1, 3], cmp=numeric_compare)

[1, 2, 3, 4, 5]

或者你可以反序排序:
>>> def reverse_numeric(x, y):

        return y - x

>>> sorted([5, 2, 4, 1, 3], cmp=reverse_numeric)

[5, 4, 3, 2, 1]

当我们将现有的2.x的代码移植到3.x时,需要将cmp函数转化为key函数,以下的wrapper很有帮助:
def cmp_to_key(mycmp):

    'Convert a cmp= function into a key= function'

    class K(object):

        def __init__(self, obj, *args):

            self.obj = obj

        def __lt__(self, other):

            return mycmp(self.obj, other.obj) < 0

        def __gt__(self, other):

            return mycmp(self.obj, other.obj) > 0

        def __eq__(self, other):

            return mycmp(self.obj, other.obj) == 0

        def __le__(self, other):

            return mycmp(self.obj, other.obj) <= 0

        def __ge__(self, other):

            return mycmp(self.obj, other.obj) >= 0

        def __ne__(self, other):

            return mycmp(self.obj, other.obj) != 0

    return K

当需要将cmp转化为key时,只需要:

>>> sorted([5, 2, 4, 1, 3], key=cmp_to_key(reverse_numeric))

[5, 4, 3, 2, 1]

从python2.7,cmp_to_key()函数被增加到了functools模块中。

8)其他注意事项

* 对需要进行区域相关的排序时,可以使用locale.strxfrm()作为key函数,或者使用local.strcoll()作为cmp函数。

* reverse参数任然保持了排序的稳定性,有趣的时,同样的效果可以使用reversed()函数两次来实现:

>>> data = [('red', 1), ('blue', 1), ('red', 2), ('blue', 2)]

>>> assert sorted(data, reverse=True) == list(reversed(sorted(reversed(data))))

* 其实排序在内部是调用元素的__cmp__来进行的,所以我们可以为元素类型增加__cmp__方法使得元素可比较,例如:

>>> Student.__lt__ = lambda self, other: self.age < other.age

>>> sorted(student_objects)

[('dave', 'B', 10), ('jane', 'B', 12), ('john', 'A', 15)]

* key函数不仅可以访问需要排序元素的内部数据,还可以访问外部的资源,例如,如果学生的成绩是存储在dictionary中的,则可以使用此dictionary来对学生名字的list排序,如下:
>>> students = ['dave', 'john', 'jane']

>>> newgrades = {'john': 'F', 'jane':'A', 'dave': 'C'}

>>> sorted(students, key=newgrades.__getitem__)

['jane', 'dave', 'john']

*当你需要在处理数据的同时进行排序的话,sort(),sorted()或bisect.insort()不是最好的方法。在这种情况下,可以使用heap,red-black tree或treap。

Python 相关文章推荐
简明 Python 基础学习教程
Feb 08 Python
python 回调函数和回调方法的实现分析
Mar 23 Python
Python黑魔法Descriptor描述符的实例解析
Jun 02 Python
简单谈谈python中的多进程
Nov 06 Python
Python中顺序表的实现简单代码分享
Jan 09 Python
python基于物品协同过滤算法实现代码
May 31 Python
python对象与json相互转换的方法
May 07 Python
树莓派采用socket方式文件传输(python)
Jun 22 Python
详解python深浅拷贝区别
Jun 24 Python
Python制作微信好友背景墙教程(附完整代码)
Jul 17 Python
在python3.64中安装pyinstaller库的方法步骤
Jun 02 Python
python实现手机推送 代码也就10行左右
Apr 12 Python
python中global与nonlocal比较
Nov 21 #Python
python装饰器decorator介绍
Nov 21 #Python
python多线程操作实例
Nov 21 #Python
Python中的闭包详细介绍和实例
Nov 21 #Python
Python多线程同步Lock、RLock、Semaphore、Event实例
Nov 21 #Python
python多进程操作实例
Nov 21 #Python
Python多进程通信Queue、Pipe、Value、Array实例
Nov 21 #Python
You might like
php 三维饼图的实现代码
2008/09/28 PHP
php面向对象全攻略 (十六) 对象的串行化
2009/09/30 PHP
初学PHP的朋友 经常问的一些问题。不断更新
2011/08/11 PHP
基于Snoopy的PHP近似完美获取网站编码的代码
2011/10/23 PHP
JS+PHP实现用户输入数字后显示最大的值及所在位置
2017/06/19 PHP
PHP检查URL包含特定字符串实例方法
2019/02/11 PHP
jquery BS,dialog控件自适应大小
2009/07/06 Javascript
如何创建一个JavaScript弹出DIV窗口层的效果
2013/09/25 Javascript
AngularJS初始化过程分析(引导程序)
2014/12/06 Javascript
javascript感应鼠标图片透明度显示的方法
2015/02/24 Javascript
jquery实现下拉框左右选择功能
2017/02/21 Javascript
JavaScript的六种继承方式(推荐)
2017/06/26 Javascript
Angular.js中上传指令ng-upload的基本使用教程
2017/07/30 Javascript
Vue js 的生命周期(看了就懂)(推荐)
2019/03/29 Javascript
jQuery单页面文字搜索插件jquery.fullsearch.js的使用方法
2020/02/04 jQuery
[06:30]DOTA2英雄梦之声_第15期_死亡先知
2014/06/21 DOTA
[01:15:45]DOTA2上海特级锦标赛B组小组赛#1 Alliance VS Spirit第一局
2016/02/26 DOTA
把大数据数字口语化(python与js)两种实现
2013/02/21 Python
python学习之第三方包安装方法(两种方法)
2015/07/30 Python
Python六大开源框架对比
2015/10/19 Python
利用标准库fractions模块让Python支持分数类型的方法详解
2017/08/11 Python
Python入门之三角函数全解【收藏】
2017/11/08 Python
使用python读取txt文件的内容,并删除重复的行数方法
2018/04/18 Python
详解python3中的真值测试
2018/08/13 Python
解决安装python库时windows error5 报错的问题
2018/10/21 Python
在python中实现调用可执行文件.exe的3种方法
2019/07/07 Python
Python进程,多进程,获取进程id,给子进程传递参数操作示例
2019/10/11 Python
Python While循环语句实例演示及原理解析
2020/01/03 Python
goodhealth官方海外旗舰店:新西兰国民营养师
2017/12/15 全球购物
万豪国际住宅与别墅集团:Homes & Villas by Marriott International
2020/10/08 全球购物
英语专业毕业生自我鉴定
2013/11/09 职场文书
2014年单位植树节活动方案
2014/03/23 职场文书
大雁塔英文导游词
2015/02/10 职场文书
2016年“9.22”世界无车日活动小结
2016/04/05 职场文书
详解vue中v-for的key唯一性
2021/05/15 Vue.js
Window server 2012 R2 AD域的组策略相关设置
2022/04/28 Servers