Python列表去重复项的N种方法(实例代码)


Posted in Python onMay 12, 2020

说明

Python语言中列表(List)与其他语言的数组(Array)类似,是一种有序的集合数据结构,Python List可支持各种数据类型,长度也可动态调整,与JS中的数组或Java ArrayList很接近。在实际编程中,经常会遇到数组或列表去掉重复项,保持成员唯一性。实现方式有多种,比如新建列表来存储非重复项,或者在原有基础上删除掉重复的项,也可以利用数据结构来达到去重复。具体哪一种方法更好呢?以下约20种方式都可以实现,我们可以通过这些来交流和学习。

Python列表去重复项的N种方法(实例代码)

方式

## 1. 新建列表,如果新列表中不存在,则添加到新列表。 
def unique(data): 
 new_list = [] 
 for item in data: 
 if item not in new_list: 
  new_list.append(item) 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("new_list + not in data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
# result 
$ python -V 
Python 2.7.16 
$ python unique.py 
('for list + not in. data:', ['a', 1, 2, 'b']) 
time:0.0441074371338 ms 
## 2. 新建列表。根据下标判断是否存在新列表中,如果新列表中不存在则添加到新列表。 
def unique(data): 
 new_list = [] 
 for i in range(len(data)): 
 if data[i] not in new_list: 
  new_list.append(data[i]) 
 return new_list 
## 2.1 新建列表,使用列表推导来去重。是前一种的简写。 
def unique(data): 
 new_list = [] 
 [new_list.append(i) for i in data if not i in new_list] 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("for range + not in. data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 3. 通过index找不到该项,则追加到新列表中。index找不到会报错,因此放在异常处理里。 
def unique(data): 
 new_list = [] 
 for i in range(len(data)): 
 item = data[i] 
 try: 
  if (new_list.index(item) < 0): 
  print('new_list:', new_list) 
 except ValueError: 
  new_list.append(item) 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("list index + except:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 4. 新建列表,两个循环。如果内循环与外循环项相同,且下标相同就添加到新列表,其余忽略 
def unique(data): 
 new_list = [] 
 for i in range(len(data)): 
 j = 0 
 while j <= i: 
  if data[i] == data[j]: 
  if i == j: 
   new_list.append(data[i]) 
  break 
  j += 1 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("new list + for. new_list:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 5. 在原有列表上移除重复项目。自后往前遍历,逐个与前面项比较,如果值相同且下标相同,则移除当前项。 
def unique(data): 
 l = len(data) 
 while (l > 0): 
 l -= 1 
 i = l 
 while i > 0: 
  i -= 1 
  if data[i] == data[l]: 
  del data[l] 
  break 
 return data 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("one list while. last -> first result. data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 6. 在原有列表上移除重复项目。自前往后遍历,逐个与后面项比较,如果值相同且下标相同,则移除当前项。 
def unique(data): 
 l = len(data) 
 i = 0 
 while i < l: 
 j = i + 1 
 while j < l: 
  if data[i] == data[j]: 
  del data[j] 
  l -= 1 
  i -= 1 
  break 
  j += 1 
 i += 1 
 return data 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("one list while. first -> last result. data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 7. 新建列表。遍历列表,利用index比较出现的位置,如果出现在第一次的位置则追加到新数组。 
def unique(data): 
 new_list = [] 
 for i in range(len(data)): 
 if i == data.index(data[i]): 
  new_list.append(data[i]) 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("for range + index. data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 8. 利用字典属性唯一性来实现去重复。 
def unique(data): 
 obj = {} 
 for item in data: 
 obj[item] = item 
 return obj.values() 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("list + dict:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 或者直接通过dict.fromkeys来实现 
print("dict fromkeys:", dict.fromkeys(data).keys()) 
## 9. 利用filter函数,即把不符合条件的过滤掉。这里filter不支持下标,因此需要借助外部列表存储不重复项 
def uniq(item): 
 i = data.index(item) 
 if (item not in new_list): 
 new_list.append(item) 
 return True 
 return False 
def unique(item): 
 if obj.get(item) == None: 
 obj[item] = item 
 return True 
 return False 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
new_list = [] 
print('filter + list + not in: ', filter(uniq, data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 10. 利用字典结合过滤来实现去重复。 
def unique(item): 
 if obj.get(item) == None: 
 obj[item] = item 
 return True 
 return False 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
obj = {} 
print("filter + dict + get:", filter(unique, data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 11. 利用map来实现去重复。与map与filter类似,是一个高阶函数。可以针对其中项逐个修改操作。 
## 与filter不同map会保留原有项目,并不会删除,因此值可以改为None,然后再过滤掉。 
def unique(item): 
 if item not in new_list: 
 new_list.append(item) 
 return item 
 return None 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
new_list = [] 
start_time = time.time() 
print("list from Map:", filter(lambda item: item != None, map(unique, data))) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 12. 利用set数据结构里key的唯一性来去重复 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
print("from Set:", list(set(data))) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 13. 提前排序,从后向前遍历,将当前项与前一项对比,如果重复则移除当前项 
def unique(data): 
 data.sort() 
 l = len(data) 
 while (l > 0): 
 l -= 1 
 if (data[l] == data[l - 1]): 
  data.remove(data[l]) 
 return data 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("sort + remove:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 14. 提前排序,自前往后遍历,将当前项与后一项对比,如果重复则移除当前项 
def unique(data): 
 """ 
 in python 3: TypeError: '<' not supported between instances of 'int' and 'str' 
 need to keep the same Type of member in List 
 """ 
 data.sort() 
 l = len(data) - 1 
 i = 0 
 while i < l: 
 if (data[i] == data[i + 1]): 
  del data[i] 
  i -= 1 
  l -= 1 
 i += 1 
 return data 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("sort+del ASE:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 15. 利用reduce函数来去重复。reduce具有累计的作用,判断如果不在累计结果中出现,则追加到结果中。 
import functools 
def unique(data): 
 new_list = [] 
 def foo(result, item): 
 if isinstance(result, list) == False: 
  result = [result] 
 return result if item in result else result + [item] 
 return functools.reduce(foo, data) 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("functools.reduce:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 16. 利用递归调用来去重复。递归自后往前逐个调用,当长度为1时终止。 
## 当后一项与前任一项相同说明有重复,则删除当前项。相当于利用自我调用来替换循环 
def recursion_unique(data, len): 
 if (len <= 1): 
 return data 
 l = len 
 last = l - 1 
 is_repeat = False 
 while (l > 1): 
 l -= 1 
 if (data[last] == data[l - 1]): 
  is_repeat = True 
  break 
 if (is_repeat): 
 del data[last] 
 return recursion_unique(data, len - 1) 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("recursion_unique:", recursion_unique(data, len(data))) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 17. 利用递归调用来去重复的另外一种方式。递归自后往前逐个调用,当长度为1时终止。 
## 与上一个递归不同,这里将不重复的项目作为结果拼接起来 
def recursion_unique_new(data, len): 
 if (len <= 1): 
 return data 
 l = len 
 last = l - 1 
 is_repeat = False 
 while (l > 1): 
 l -= 1 
 if (data[last] == data[l - 1]): 
  is_repeat = True 
  break 
 if (is_repeat): 
 del data[last:] 
 result = [] 
 else: 
 result = [data[last]] 
 return recursion_unique_new(data, len - 1) + result 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("recursion_unique_new:", recursion_unique_new(data, len(data))) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 18. 利用numpy lib库. 需提前安装 `pip install numpy` 
import numpy as np 
def unique(data): 
 res = np.array(data) 
 return list(np.unique(res)) 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("import numpy as np.unique:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms")
Python列表去重复项的N种方法(实例代码)

讨论

从以上例子上可以看出,相对来讲,Python比起其它语言要灵活得多,与JS并列最流行的脚本类语言,这也就是为何Python如此流行的原因吧。

哪一种方式更适合呢?你常用那种方式来实现去重复项?新建数组、非新建、借助Dict或Set等结构,亦或是其它方式?

Python列表去重复项的N种方法(实例代码)

总结

到此这篇关于Python列表去重复项的N种方法的文章就介绍到这了,更多相关python列表去重复项内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Django在win10下的安装并创建工程
Nov 20 Python
python实现百度语音识别api
Apr 10 Python
Ubuntu下Anaconda和Pycharm配置方法详解
Jun 14 Python
python安装virtualenv虚拟环境步骤图文详解
Sep 18 Python
使用python动态生成波形曲线的实现
Dec 04 Python
Python面向对象程序设计之静态方法、类方法、属性方法原理与用法分析
Mar 23 Python
python json.dumps中文乱码问题解决
Apr 01 Python
python使用for...else跳出双层嵌套循环的方法实例
May 17 Python
利用OpenCV中对图像数据进行64F和8U转换的方式
Jun 03 Python
python实现猜数游戏(保存游戏记录)
Jun 22 Python
详解tensorflow之过拟合问题实战
Nov 01 Python
python eventlet绿化和patch原理
Nov 21 Python
python3中的logging记录日志实现过程及封装成类的操作
May 12 #Python
Pycharm激活方法及详细教程(详细且实用)
May 12 #Python
PyTorch在Windows环境搭建的方法步骤
May 12 #Python
pycharm 2018 激活码及破解补丁激活方式
Sep 21 #Python
pycharm 激活码及使用方式的详细教程
May 12 #Python
Python-jenkins模块之folder相关操作介绍
May 12 #Python
使用python-Jenkins批量创建及修改jobs操作
May 12 #Python
You might like
使用迭代器 遍历文件信息的详解
2013/06/08 PHP
PHP中的类型约束介绍
2015/05/11 PHP
PHP使用Curl实现模拟登录及抓取数据功能示例
2018/04/27 PHP
用javascript操作xml
2006/11/04 Javascript
js跨域问题之跨域iframe自适应大小实现代码
2010/07/17 Javascript
jquery异步调用页面后台方法&amp;#8207;(asp.net)
2011/03/01 Javascript
jQuery EasyUI API 中文文档 - Pagination分页
2011/09/29 Javascript
jQuery判断checkbox是否选中的小例子
2013/12/02 Javascript
JS控制输入框内字符串长度
2014/05/21 Javascript
自己封装的javascript事件队列函数版
2014/06/12 Javascript
jquery 3D 标签云示例代码
2014/06/12 Javascript
jQuery学习笔记之基础中的基础
2015/01/19 Javascript
jQuery中animate用法实例分析
2015/03/09 Javascript
jquery原理以及学习技巧介绍
2015/11/11 Javascript
AngularJS中实现显示或隐藏动画效果的方式总结
2015/12/31 Javascript
js获取元素的外链样式的简单实现方法
2016/06/06 Javascript
AngularJS基础 ng-include 指令示例讲解
2016/08/01 Javascript
JavaScript简单下拉菜单特效
2016/09/13 Javascript
js实现开启密码大写提示
2016/12/21 Javascript
vue中v-model的应用及使用详解
2018/06/27 Javascript
小程序实现多列选择器
2019/02/15 Javascript
JavaScript冒泡算法原理与实现方法深入理解
2020/06/04 Javascript
[00:18]天涯墨客三技能展示
2018/08/25 DOTA
你眼中的Python大牛 应该都有这份书单
2017/10/31 Python
python判断完全平方数的方法
2018/11/13 Python
python 将日期戳(五位数时间)转换为标准时间
2019/07/11 Python
Python如何操作docker redis过程解析
2020/08/10 Python
Python Pillow(PIL)库的用法详解
2020/09/19 Python
python可视化分析的实现(matplotlib、seaborn、ggplot2)
2021/02/03 Python
HTML5 播放 RTSP 视频的实例代码
2019/07/29 HTML / CSS
伦敦一卡通:The London Pass
2018/11/30 全球购物
秋季运动会稿件
2014/01/30 职场文书
解除劳动合同协议书
2014/04/14 职场文书
结对共建工作方案
2014/06/02 职场文书
党建工作目标管理责任书
2015/01/29 职场文书
python的列表生成式,生成器和generator对象你了解吗
2022/03/16 Python