Perl中著名的Schwartzian转换问题解决实现


Posted in Python onJune 02, 2015

Perl中著名的Schwartzian转换,其产生背景主要涉及到排序问题:
比如说,根据文件名以字母顺序排序,代码如下:

use strict;  

use warnings;  

   

my @files = glob "*.xml";          #perl中文件操作符glob提供相当于shell中的通配符的功能  

my @sorted_files = sort @files;    #sort(),排序,默认是字母顺序排序

比如说,根据文件名长度排序,其代码如下:
use strict;  

use warnings;  

  

#length求长度。 太空船操作符<=>,默认变量是$a,$b,返回值为-1,0,1分别表示大于,==,小于。 sort进行排序  

my $files = ".xml";  

my @sorted_length = sort { length($a) <=> length($b) } @files; 

上面的两种情况,对很多文件操作来说,速度还不算慢,如果是下面这种情况。
比如说:要批量比较文件大小,其代码如下:
use strict;  

use warnings;  

   

my @files     = glob "*.xml";     

my @sort_size = sort { -s $a <=> -s $b } @files;  #比较大小 

上面的代码设计到三重(次)操作:
1. 从硬盘上获取文件大小(-s $b)
2. 比较文件大小(太空船操作)
3. 对其进行排序(sort操作)
考虑到要比较$a,$b大小时,要从硬盘中获取两次,所以次数是6次!也就是说,如果有1万个文件,总共是6万次。
其算法复杂度是: n*long(n),考虑到后两项(比较文件大小,进行排序)必然要进行的操作,但第一项却可以降低!
即一次性从硬盘中读取所有文件大小,将其放置到Perl中的默认的变量,并存储到内存中!于是又下面算法实现:
use strict;  

use warnings;  

  

my @files = glob "*.xml";  

  

my @unsorted_pairs = map  { [$_, -s $_] } @files;  

my @sorted_pairs   = sort { $a->[1] <=> $b->[1] } @unsorted_pairs;  

my @sorted_files   = map  { $_->[0] } @sorted_pairs; 

看上去比较复杂,分三个步骤解释下:
第一步:遍历文件列表,对每个文件创建一个数组引用。数组引用包含两个元素:
       第一个是文件名($_),第二个是文件大小(-s $_)。这样,处理每个文件只访问一次磁盘。
第二步:对二维数组排序。因比较文件大小,所以需取元素[1],比较它们的值。得到另一个二维数组。
第三步:丢掉文件大小元素,创建一个只含文件名的列表。完成目标!
上面的代码使用了两个临时数组,但这并不是必须的。我们可以一个语句就能完成所有的工作。为了达到目的,需要按照“数据从右流向左”的原理反转句子顺序,不如果将每个句子放在单独一行,并且留出足够的空间,我们依然可以写出可读性高的代码。
my @quickly_sorted_files =  

    map  { $_->[0] }  

    sort { $a->[1] <=> $b->[1] }  

    map  { [$_, -s $_] }  

    @files; 

这就是以Randal L. Schwartz命名的Schwartzian转换,对数据量特多的情况下,其速度要比前者快数倍!
下面写了小程序,包括在生成1万个xml文件,在两种情况下,完整代码如下:
#!/usr/bin/perl -w  

use strict;  

use warnings;  

use autodie;  

use v5.10;  

  

######################################  

###  创建要比较的10,000个.xml文件 ###  

######################################  

my $profix = ".xml";  

  

foreach my $num (1..10000) {  

    open(my $fh, '>', $num . $profix) || die "Can not create the file: $!\n";  

    print $fh "This is file size testing!";  

}  

  

print "All the 10_1000 files created! \n";  

  

  

######################################  

### 常规转换:      遍历20次       ###  

######################################  

my $t1  = time();  

  

foreach (1..20){   

    my @files     = glob "*.xml";  

    my @sorted    = sort { -s $a <=> -s $b } @files;  

}  

  

say "常规算法需要时间: => ", time()- $t1;  

  

  

######################################  

### Schwartzian转换: 遍历20次     ###  

######################################  

my $t2  = time();  

  

foreach (1..20){   

    my @files = glob "*.xml";  

        my @sorted =   

            map  {$_->[0]}  

            sort {$a->[1] <=> $b->[1]}  

            map  {[$_, -s $_]}  

       @files;  

} 
say "Schwartzian算法需要时间: => ", time()- $t2; 

输出结果:
All the 10_1000 files created!
常规算法需要时间:          => 185
Schwartzian算法需要时间: => 115

Python 相关文章推荐
python 实现堆排序算法代码
Jun 05 Python
介绍Python中的fabs()方法的使用
May 14 Python
python用模块zlib压缩与解压字符串和文件的方法
Dec 16 Python
Python操作SQLite数据库的方法详解【导入,创建,游标,增删改查等】
Jul 11 Python
Python内置函数 next的具体使用方法
Nov 24 Python
机器学习10大经典算法详解
Dec 07 Python
python实现黑客字幕雨效果
Jun 21 Python
python后端接收前端回传的文件方法
Jan 02 Python
在django中图片上传的格式校验及大小方法
Jul 28 Python
解决pyshp UnicodeDecodeError的问题
Dec 06 Python
selenium+python实现自动登陆QQ邮箱并发送邮件功能
Dec 13 Python
Pyecharts绘制全球流向图的示例代码
Jan 08 Python
python通过ssh-powershell监控windows的方法
Jun 02 #Python
Python lxml模块安装教程
Jun 02 #Python
Python脚本文件打包成可执行文件的方法
Jun 02 #Python
python统计cpu利用率的方法
Jun 02 #Python
Python2.x中文乱码问题解决方法
Jun 02 #Python
python实现的守护进程(Daemon)用法实例
Jun 02 #Python
Python中使用ElementTree解析XML示例
Jun 02 #Python
You might like
织梦模板标记简介
2007/03/11 PHP
php更新修改excel中的内容实例代码
2014/02/26 PHP
PHP新特性之字节码缓存和内置服务器
2017/08/11 PHP
PHP的mysqli_ssl_set()函数讲解
2019/01/23 PHP
JQuery 写的个性导航菜单
2009/12/24 Javascript
利用js获取服务器时间的两个简单方法
2010/01/08 Javascript
在Linux上用forever实现Node.js项目自启动
2014/07/09 Javascript
JavaScript事件委托用法分析
2015/01/24 Javascript
jQuery给动态添加的元素绑定事件的方法
2015/03/09 Javascript
JavaScript与jQuery实现的闪烁输入效果
2016/02/18 Javascript
jQuery代码实现表格中点击相应行变色功能
2016/05/09 Javascript
浅谈jQuery中的eq()与DOM中element.[]的区别
2016/10/28 Javascript
深入掌握 react的 setState的工作机制
2017/09/27 Javascript
vue-router重定向不刷新问题的解决
2018/06/25 Javascript
微信小程序动态生成二维码的实现代码
2018/07/25 Javascript
JavaScript两种计时器的实例讲解
2019/01/31 Javascript
使用Layer组件弹出多个对话框(非嵌套)与关闭及刷新的例子
2019/09/25 Javascript
JavaScript检测是否开启了控制台(F12调试工具)
2020/10/02 Javascript
vue实现简易的双向数据绑定
2020/12/29 Vue.js
[02:58]献给西雅图的情书_高清
2014/05/29 DOTA
Python中方法链的使用方法
2016/02/23 Python
python 阶乘累加和的实例
2019/02/01 Python
宝塔面板成功部署Django项目流程(图文)
2020/06/22 Python
如何以Winsows Service方式运行JupyterLab
2020/08/30 Python
Python grpc超时机制代码示例
2020/09/14 Python
Python pathlib模块使用方法及实例解析
2020/10/05 Python
Scrapy+Selenium自动获取cookie爬取网易云音乐个人喜爱歌单
2021/02/01 Python
海蓝之谜(LA MER)澳大利亚官方商城:全球高端奢华护肤品牌
2017/10/27 全球购物
硕士研究生自我鉴定
2013/11/08 职场文书
英文自荐信格式
2013/11/28 职场文书
商务英语大学生职业生涯规划书范文
2014/01/01 职场文书
通信研究生自荐信
2014/02/01 职场文书
幼儿园新年寄语
2014/04/03 职场文书
儿子满月酒致辞
2015/07/29 职场文书
校园音乐节目广播稿
2015/08/19 职场文书
银行文明优质服务培训心得体会
2016/01/09 职场文书