Python列表去重复项的N种方法(实例代码)


Posted in Python onMay 12, 2020

说明

Python语言中列表(List)与其他语言的数组(Array)类似,是一种有序的集合数据结构,Python List可支持各种数据类型,长度也可动态调整,与JS中的数组或Java ArrayList很接近。在实际编程中,经常会遇到数组或列表去掉重复项,保持成员唯一性。实现方式有多种,比如新建列表来存储非重复项,或者在原有基础上删除掉重复的项,也可以利用数据结构来达到去重复。具体哪一种方法更好呢?以下约20种方式都可以实现,我们可以通过这些来交流和学习。

Python列表去重复项的N种方法(实例代码)

方式

## 1. 新建列表,如果新列表中不存在,则添加到新列表。 
def unique(data): 
 new_list = [] 
 for item in data: 
 if item not in new_list: 
  new_list.append(item) 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("new_list + not in data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
# result 
$ python -V 
Python 2.7.16 
$ python unique.py 
('for list + not in. data:', ['a', 1, 2, 'b']) 
time:0.0441074371338 ms 
## 2. 新建列表。根据下标判断是否存在新列表中,如果新列表中不存在则添加到新列表。 
def unique(data): 
 new_list = [] 
 for i in range(len(data)): 
 if data[i] not in new_list: 
  new_list.append(data[i]) 
 return new_list 
## 2.1 新建列表,使用列表推导来去重。是前一种的简写。 
def unique(data): 
 new_list = [] 
 [new_list.append(i) for i in data if not i in new_list] 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("for range + not in. data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 3. 通过index找不到该项,则追加到新列表中。index找不到会报错,因此放在异常处理里。 
def unique(data): 
 new_list = [] 
 for i in range(len(data)): 
 item = data[i] 
 try: 
  if (new_list.index(item) < 0): 
  print('new_list:', new_list) 
 except ValueError: 
  new_list.append(item) 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("list index + except:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 4. 新建列表,两个循环。如果内循环与外循环项相同,且下标相同就添加到新列表,其余忽略 
def unique(data): 
 new_list = [] 
 for i in range(len(data)): 
 j = 0 
 while j <= i: 
  if data[i] == data[j]: 
  if i == j: 
   new_list.append(data[i]) 
  break 
  j += 1 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("new list + for. new_list:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 5. 在原有列表上移除重复项目。自后往前遍历,逐个与前面项比较,如果值相同且下标相同,则移除当前项。 
def unique(data): 
 l = len(data) 
 while (l > 0): 
 l -= 1 
 i = l 
 while i > 0: 
  i -= 1 
  if data[i] == data[l]: 
  del data[l] 
  break 
 return data 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("one list while. last -> first result. data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 6. 在原有列表上移除重复项目。自前往后遍历,逐个与后面项比较,如果值相同且下标相同,则移除当前项。 
def unique(data): 
 l = len(data) 
 i = 0 
 while i < l: 
 j = i + 1 
 while j < l: 
  if data[i] == data[j]: 
  del data[j] 
  l -= 1 
  i -= 1 
  break 
  j += 1 
 i += 1 
 return data 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("one list while. first -> last result. data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 7. 新建列表。遍历列表,利用index比较出现的位置,如果出现在第一次的位置则追加到新数组。 
def unique(data): 
 new_list = [] 
 for i in range(len(data)): 
 if i == data.index(data[i]): 
  new_list.append(data[i]) 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("for range + index. data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 8. 利用字典属性唯一性来实现去重复。 
def unique(data): 
 obj = {} 
 for item in data: 
 obj[item] = item 
 return obj.values() 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("list + dict:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 或者直接通过dict.fromkeys来实现 
print("dict fromkeys:", dict.fromkeys(data).keys()) 
## 9. 利用filter函数,即把不符合条件的过滤掉。这里filter不支持下标,因此需要借助外部列表存储不重复项 
def uniq(item): 
 i = data.index(item) 
 if (item not in new_list): 
 new_list.append(item) 
 return True 
 return False 
def unique(item): 
 if obj.get(item) == None: 
 obj[item] = item 
 return True 
 return False 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
new_list = [] 
print('filter + list + not in: ', filter(uniq, data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 10. 利用字典结合过滤来实现去重复。 
def unique(item): 
 if obj.get(item) == None: 
 obj[item] = item 
 return True 
 return False 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
obj = {} 
print("filter + dict + get:", filter(unique, data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 11. 利用map来实现去重复。与map与filter类似,是一个高阶函数。可以针对其中项逐个修改操作。 
## 与filter不同map会保留原有项目,并不会删除,因此值可以改为None,然后再过滤掉。 
def unique(item): 
 if item not in new_list: 
 new_list.append(item) 
 return item 
 return None 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
new_list = [] 
start_time = time.time() 
print("list from Map:", filter(lambda item: item != None, map(unique, data))) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 12. 利用set数据结构里key的唯一性来去重复 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
print("from Set:", list(set(data))) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 13. 提前排序,从后向前遍历,将当前项与前一项对比,如果重复则移除当前项 
def unique(data): 
 data.sort() 
 l = len(data) 
 while (l > 0): 
 l -= 1 
 if (data[l] == data[l - 1]): 
  data.remove(data[l]) 
 return data 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("sort + remove:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 14. 提前排序,自前往后遍历,将当前项与后一项对比,如果重复则移除当前项 
def unique(data): 
 """ 
 in python 3: TypeError: '<' not supported between instances of 'int' and 'str' 
 need to keep the same Type of member in List 
 """ 
 data.sort() 
 l = len(data) - 1 
 i = 0 
 while i < l: 
 if (data[i] == data[i + 1]): 
  del data[i] 
  i -= 1 
  l -= 1 
 i += 1 
 return data 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("sort+del ASE:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 15. 利用reduce函数来去重复。reduce具有累计的作用,判断如果不在累计结果中出现,则追加到结果中。 
import functools 
def unique(data): 
 new_list = [] 
 def foo(result, item): 
 if isinstance(result, list) == False: 
  result = [result] 
 return result if item in result else result + [item] 
 return functools.reduce(foo, data) 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("functools.reduce:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 16. 利用递归调用来去重复。递归自后往前逐个调用,当长度为1时终止。 
## 当后一项与前任一项相同说明有重复,则删除当前项。相当于利用自我调用来替换循环 
def recursion_unique(data, len): 
 if (len <= 1): 
 return data 
 l = len 
 last = l - 1 
 is_repeat = False 
 while (l > 1): 
 l -= 1 
 if (data[last] == data[l - 1]): 
  is_repeat = True 
  break 
 if (is_repeat): 
 del data[last] 
 return recursion_unique(data, len - 1) 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("recursion_unique:", recursion_unique(data, len(data))) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 17. 利用递归调用来去重复的另外一种方式。递归自后往前逐个调用,当长度为1时终止。 
## 与上一个递归不同,这里将不重复的项目作为结果拼接起来 
def recursion_unique_new(data, len): 
 if (len <= 1): 
 return data 
 l = len 
 last = l - 1 
 is_repeat = False 
 while (l > 1): 
 l -= 1 
 if (data[last] == data[l - 1]): 
  is_repeat = True 
  break 
 if (is_repeat): 
 del data[last:] 
 result = [] 
 else: 
 result = [data[last]] 
 return recursion_unique_new(data, len - 1) + result 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("recursion_unique_new:", recursion_unique_new(data, len(data))) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 18. 利用numpy lib库. 需提前安装 `pip install numpy` 
import numpy as np 
def unique(data): 
 res = np.array(data) 
 return list(np.unique(res)) 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("import numpy as np.unique:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms")
Python列表去重复项的N种方法(实例代码)

讨论

从以上例子上可以看出,相对来讲,Python比起其它语言要灵活得多,与JS并列最流行的脚本类语言,这也就是为何Python如此流行的原因吧。

哪一种方式更适合呢?你常用那种方式来实现去重复项?新建数组、非新建、借助Dict或Set等结构,亦或是其它方式?

Python列表去重复项的N种方法(实例代码)

总结

到此这篇关于Python列表去重复项的N种方法的文章就介绍到这了,更多相关python列表去重复项内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python 接口_从协议到抽象基类详解
Aug 24 Python
python如何实现视频转代码视频
Jun 17 Python
Python读取xlsx文件的实现方法
Jul 04 Python
Python安装selenium包详细过程
Jul 23 Python
Python简易版图书管理系统
Aug 12 Python
Python 多线程,threading模块,创建子线程的两种方式示例
Sep 29 Python
TensorFlow基本的常量、变量和运算操作详解
Feb 03 Python
Python 实现将某一列设置为str类型
Jul 14 Python
Python爬虫爬取微信朋友圈
Aug 06 Python
Python基于Socket实现简易多人聊天室的示例代码
Nov 29 Python
pytho matplotlib工具栏源码探析一之禁用工具栏、默认工具栏和工具栏管理器三种模式的差异
Feb 25 Python
python3中apply函数和lambda函数的使用详解
Feb 28 Python
python3中的logging记录日志实现过程及封装成类的操作
May 12 #Python
Pycharm激活方法及详细教程(详细且实用)
May 12 #Python
PyTorch在Windows环境搭建的方法步骤
May 12 #Python
pycharm 2018 激活码及破解补丁激活方式
Sep 21 #Python
pycharm 激活码及使用方式的详细教程
May 12 #Python
Python-jenkins模块之folder相关操作介绍
May 12 #Python
使用python-Jenkins批量创建及修改jobs操作
May 12 #Python
You might like
php环境配置 php5 MySQL5 apache2 phpmyadmin安装与配置图文教程
2007/03/16 PHP
神盾加密解密教程(二)PHP 神盾解密
2014/06/08 PHP
基于Codeigniter框架实现的student信息系统站点动态发布功能详解
2017/03/23 PHP
Paypal实现循环扣款(订阅)功能
2017/03/23 PHP
PHP简单实现正则匹配省市区的方法
2018/04/13 PHP
ThinkPHP中获取指定日期后工作日的具体日期方法
2018/10/14 PHP
PHP中非常有用却鲜有人知的函数集锦
2019/08/17 PHP
javascript返回顶部效果(自写代码)
2013/01/06 Javascript
Js实现滚动变色的文字效果
2014/06/16 Javascript
Jquery中$.post和$.ajax的用法小结
2015/04/28 Javascript
avalonjs实现仿微博的图片拖动特效
2015/05/06 Javascript
Vue自定义指令使用方法详解
2017/08/21 Javascript
浅谈vue2 单页面如何设置网页title
2017/11/08 Javascript
微信小程序input框中加入小图标的实现方法
2018/06/19 Javascript
基于vue通用表单解决方案的思考与分析
2019/03/16 Javascript
Vue父组件如何获取子组件中的变量
2019/07/24 Javascript
Vue实现简单的拖拽效果
2020/08/25 Javascript
js 图片懒加载的实现
2020/10/21 Javascript
JS实现页面侧边栏效果探究
2021/01/08 Javascript
js实现验证码干扰(静态)
2021/02/22 Javascript
[01:21]DOTA2 新英雄 森海飞霞
2020/12/18 DOTA
python 判断一个进程是否存在
2009/04/09 Python
python实现排序算法
2014/02/14 Python
关于Python元祖,列表,字典,集合的比较
2017/01/06 Python
Python实现调度算法代码详解
2017/12/01 Python
浅析Git版本控制器使用
2017/12/10 Python
pandas.DataFrame删除/选取含有特定数值的行或列实例
2018/11/07 Python
python3.8下载及安装步骤详解
2020/01/15 Python
Python带参数的装饰器运行原理解析
2020/06/09 Python
如何用python爬取微博热搜数据并保存
2021/02/20 Python
Allsole美国/加拿大:英国一家专门出售品牌鞋子的网站
2018/10/21 全球购物
留学推荐信中文范文三篇
2014/01/25 职场文书
贷款委托书
2014/08/01 职场文书
课外访万家心得体会
2014/09/03 职场文书
2016五一手机促销广告语
2016/01/28 职场文书
中国现代文学之经典散文三篇
2019/09/18 职场文书