Perl中著名的Schwartzian转换问题解决实现


Posted in Python onJune 02, 2015

Perl中著名的Schwartzian转换,其产生背景主要涉及到排序问题:
比如说,根据文件名以字母顺序排序,代码如下:

use strict;  

use warnings;  

   

my @files = glob "*.xml";          #perl中文件操作符glob提供相当于shell中的通配符的功能  

my @sorted_files = sort @files;    #sort(),排序,默认是字母顺序排序

比如说,根据文件名长度排序,其代码如下:
use strict;  

use warnings;  

  

#length求长度。 太空船操作符<=>,默认变量是$a,$b,返回值为-1,0,1分别表示大于,==,小于。 sort进行排序  

my $files = ".xml";  

my @sorted_length = sort { length($a) <=> length($b) } @files; 

上面的两种情况,对很多文件操作来说,速度还不算慢,如果是下面这种情况。
比如说:要批量比较文件大小,其代码如下:
use strict;  

use warnings;  

   

my @files     = glob "*.xml";     

my @sort_size = sort { -s $a <=> -s $b } @files;  #比较大小 

上面的代码设计到三重(次)操作:
1. 从硬盘上获取文件大小(-s $b)
2. 比较文件大小(太空船操作)
3. 对其进行排序(sort操作)
考虑到要比较$a,$b大小时,要从硬盘中获取两次,所以次数是6次!也就是说,如果有1万个文件,总共是6万次。
其算法复杂度是: n*long(n),考虑到后两项(比较文件大小,进行排序)必然要进行的操作,但第一项却可以降低!
即一次性从硬盘中读取所有文件大小,将其放置到Perl中的默认的变量,并存储到内存中!于是又下面算法实现:
use strict;  

use warnings;  

  

my @files = glob "*.xml";  

  

my @unsorted_pairs = map  { [$_, -s $_] } @files;  

my @sorted_pairs   = sort { $a->[1] <=> $b->[1] } @unsorted_pairs;  

my @sorted_files   = map  { $_->[0] } @sorted_pairs; 

看上去比较复杂,分三个步骤解释下:
第一步:遍历文件列表,对每个文件创建一个数组引用。数组引用包含两个元素:
       第一个是文件名($_),第二个是文件大小(-s $_)。这样,处理每个文件只访问一次磁盘。
第二步:对二维数组排序。因比较文件大小,所以需取元素[1],比较它们的值。得到另一个二维数组。
第三步:丢掉文件大小元素,创建一个只含文件名的列表。完成目标!
上面的代码使用了两个临时数组,但这并不是必须的。我们可以一个语句就能完成所有的工作。为了达到目的,需要按照“数据从右流向左”的原理反转句子顺序,不如果将每个句子放在单独一行,并且留出足够的空间,我们依然可以写出可读性高的代码。
my @quickly_sorted_files =  

    map  { $_->[0] }  

    sort { $a->[1] <=> $b->[1] }  

    map  { [$_, -s $_] }  

    @files; 

这就是以Randal L. Schwartz命名的Schwartzian转换,对数据量特多的情况下,其速度要比前者快数倍!
下面写了小程序,包括在生成1万个xml文件,在两种情况下,完整代码如下:
#!/usr/bin/perl -w  

use strict;  

use warnings;  

use autodie;  

use v5.10;  

  

######################################  

###  创建要比较的10,000个.xml文件 ###  

######################################  

my $profix = ".xml";  

  

foreach my $num (1..10000) {  

    open(my $fh, '>', $num . $profix) || die "Can not create the file: $!\n";  

    print $fh "This is file size testing!";  

}  

  

print "All the 10_1000 files created! \n";  

  

  

######################################  

### 常规转换:      遍历20次       ###  

######################################  

my $t1  = time();  

  

foreach (1..20){   

    my @files     = glob "*.xml";  

    my @sorted    = sort { -s $a <=> -s $b } @files;  

}  

  

say "常规算法需要时间: => ", time()- $t1;  

  

  

######################################  

### Schwartzian转换: 遍历20次     ###  

######################################  

my $t2  = time();  

  

foreach (1..20){   

    my @files = glob "*.xml";  

        my @sorted =   

            map  {$_->[0]}  

            sort {$a->[1] <=> $b->[1]}  

            map  {[$_, -s $_]}  

       @files;  

} 
say "Schwartzian算法需要时间: => ", time()- $t2; 

输出结果:
All the 10_1000 files created!
常规算法需要时间:          => 185
Schwartzian算法需要时间: => 115

Python 相关文章推荐
pymongo实现控制mongodb中数字字段做加法的方法
Mar 26 Python
Ubuntu 16.04 LTS中源码安装Python 3.6.0的方法教程
Dec 27 Python
Python对文件和目录进行操作的方法(file对象/os/os.path/shutil 模块)
May 08 Python
Python中将变量按行写入txt文本中的方法
Apr 03 Python
python获取程序执行文件路径的方法(推荐)
Apr 26 Python
python采集百度搜索结果带有特定URL的链接代码实例
Aug 30 Python
tensorflow 环境变量设置方式
Feb 06 Python
Python爬虫实现百度翻译功能过程详解
May 29 Python
python主要用于哪些方向
Jul 05 Python
pytorch学习教程之自定义数据集
Nov 10 Python
基于tensorflow __init__、build 和call的使用小结
Feb 26 Python
尝试使用Python爬取城市租房信息
Apr 12 Python
python通过ssh-powershell监控windows的方法
Jun 02 #Python
Python lxml模块安装教程
Jun 02 #Python
Python脚本文件打包成可执行文件的方法
Jun 02 #Python
python统计cpu利用率的方法
Jun 02 #Python
Python2.x中文乱码问题解决方法
Jun 02 #Python
python实现的守护进程(Daemon)用法实例
Jun 02 #Python
Python中使用ElementTree解析XML示例
Jun 02 #Python
You might like
用PHP实现小型站点广告管理(修正版)
2006/10/09 PHP
Linux下实现PHP多进程的方法分享
2012/08/16 PHP
PHP命名空间(namespace)的使用基础及示例
2014/08/18 PHP
WordPress网站性能优化指南
2015/11/18 PHP
关于php中的json_encode()和json_decode()函数的一些说明
2016/11/20 PHP
PHP简单获取随机数的常用方法小结
2017/06/07 PHP
PHP实现的日历功能示例
2018/09/01 PHP
PHP删除字符串中非字母数字字符方法总结
2019/01/20 PHP
PHP添加PNG图片背景透明水印操作类定义与用法示例
2019/03/12 PHP
TP5框架实现一次选择多张图片并预览的方法示例
2020/04/04 PHP
小议javascript 设计模式 推荐
2009/10/28 Javascript
jquery动态加载图片数据练习代码
2011/08/04 Javascript
jQuery中eq()方法用法实例
2015/01/05 Javascript
jQuery扩展实现text提示还能输入多少字节的方法
2016/11/28 Javascript
JS交互点击WKWebView中的图片实现预览效果
2018/01/05 Javascript
关于node-bindings无法在Electron中使用的解决办法
2018/12/18 Javascript
浅谈Vue.js组件(二)
2019/04/09 Javascript
Vue源码之关于vm.$delete()/Vue.use()内部原理详解
2019/05/01 Javascript
jquery获取并修改触发事件的DOM元素示例【基于target 属性】
2019/10/10 jQuery
JS数组及对象遍历方法代码汇总
2020/06/16 Javascript
vue+iview分页组件的封装
2020/11/17 Vue.js
python二分法实现实例
2013/11/21 Python
Python实现的破解字符串找茬游戏算法示例
2017/09/25 Python
用python实现k近邻算法的示例代码
2018/09/06 Python
[原创]Python入门教程4. 元组基本操作
2018/10/31 Python
Python Unittest根据不同测试环境跳过用例的方法
2018/12/16 Python
Python3 无重复字符的最长子串的实现
2019/10/08 Python
Python3.7 基于 pycryptodome 的AES加密解密、RSA加密解密、加签验签
2019/12/04 Python
Python实现进度条和时间预估的示例代码
2020/06/02 Python
python爬虫中抓取指数的实例讲解
2020/12/01 Python
CSS3 选择器 属性选择器介绍
2012/01/21 HTML / CSS
Forever 21美国官网:美国标志性快时尚品牌
2017/02/20 全球购物
什么是数组名
2012/05/10 面试题
MySQL通过binlog恢复数据
2021/05/27 MySQL
Python编写nmap扫描工具
2021/07/21 Python
Linux、ubuntu系统下查看显卡型号、显卡信息详解
2022/04/07 Servers