用PHP读取超大文件的实例代码


Posted in PHP onApril 01, 2012

去年年底的各种网站帐号信息的数据库泄漏,很是给力啊,趁机也下载了几个数据库,准备学学数据分析家来分析一下这些帐号信息。虽然这些数据信息都已经被“整理”过的,不过自己拿来学习也挺有用的,毕竟有这么大的数据量。

数据量大带来的问题就是单个文件很大,能够打开这个文件相当不容易,记事本就不要指望了,果断死机。用MSSQL的客户端也打不开这么大的SQL文件,直接报内存不足,原因据说是MSSQL在读取数据的时候,是一次性地将读取到的数据放在内存中,如果数据量过大,而内存不足,则会直接导致系统瘫掉。

Navicat Premium
这儿推荐一个软件Navicat Premium,相当给力啊,几百兆的SQL文件轻松就打开了,一点都不卡。而且这个客户端软件支持MSSQL、MYSQL、Oracle……等等各种数据库的连接,其它的很多功能就自己慢慢研究了。

虽然用Navicat可以打开CSDN这个274MB的SQL文件,但是内容却是没意义的,而且也不方便对这些帐号信息进行查询、分类、统计等等操作。唯一的方法就是把这些数据一条一条地读取出来,然后分拆每条记录的不同片段,再将这些片段以数据字段的格式存入数据库,这样就可以方便以后的使用了。

使用PHP读取超大文件
PHP有很多种文件读取的方式,根据目标文件的不同,采取更合适的方法,可有效地提高执行效率。由于CSDN数据库文件很大,所以我们尽量不在短时间内全都读取出来,毕竟每读取一条数据还要对其分拆和写入操作。那么比较合适的方式就是对文件进行分区域地读取,通过使用PHP的fseek和fread相结合,即可做到随意读取文件中的某一部份数据,下面是实例代码:

function readBigFile($filename, $count = 20, $tag = "\r\n") { 
$content = "";//最终内容 
$current = "";//当前读取内容寄存 
$step= 1;//每次走多少字符 
$tagLen = strlen($tag); 
$start = 0;//起始位置 
$i = 0;//计数器 
$handle = fopen($filename,'r+');//读写模式打开文件,指针指向文件起始位置 
while($i < $count && !feof($handle)) { 
fseek($handle, $start, SEEK_SET);//指针设置在文件开头 
$current = fread($handle,$step);//读取文件 
$content .= $current;//组合字符串 
$start += $step;//依据步长向前移动 
//依据分隔符的长度截取字符串最后免得几个字符 
$substrTag = substr($content, -$tagLen); 
if ($substrTag == $tag) { //判断是否为判断是否是换行或其他分隔符 
$i++; 
$content .= "<br />"; 
} 
} 
//关闭文件 
fclose($handle); 
//返回结果 
return $content; 
} 
$filename = "csdn.sql";//需要读取的文件 
$tag = "\n";//行分隔符 注意这里必须用双引号 
$count = 100;//读取行数 
$data = readBigFile($filename,$count,$tag); 
echo $data;

关于函数传入的变量$tag的值,根据系统不一样,传入的值也是有区别的:Windows用”\r\n”,linux/unix用”\n”,Mac OS用”\r”。

程序执行的大概流程:先定义读取文件的一些基础变量,然后打开文件,将指针定位在文件的指定位置,并读取指定大小的内容。每读取一次将内容存储在变量中,直到达到读取要求的行数或文件结束。

绝不要假定程序中的一切都将按计划运行。

根据上面的代码,虽然能够得到文件中指定位置、指定大小的数据,但这整个过程只执行了一次,并不能得到所有的数据。其实要得到所有的数据,可以在这个循环的外层再添加判断文件是否结束的循环,但这很浪费系统资源,甚至由于文件过大一直没法读完而导致PHP执行超时。另一种方法就是记录并存储上次读取数据后指针所在的位置,然后再次执行该循环的时候,将指针定位在上次结束的位置,这样就不存在一次循环要把文件从头读到尾的情况。

其实CSDN这个数据库我到现在都还没有导入数据库,因为当时泄漏后没几天CNBETA上就有一个分析了,呵呵,动作太快了。当看到别人已经做了这个事之后,自动就没有多少动力来做了,不过为了学习,还是要抽时间把这个事完成了。

PHP 相关文章推荐
php empty,isset,is_null判断比较(差异与异同)
Oct 19 PHP
PHP中MVC模式的模板引擎开发经验分享
Mar 23 PHP
一些php项目中比较通用的php自建函数的详解
Jun 06 PHP
PHP设计模式之解释器模式的深入解析
Jun 13 PHP
PHP用strstr()函数阻止垃圾评论(通过判断a标记)
Sep 28 PHP
smarty实现多级分类的方法
Dec 05 PHP
php+Mysqli利用事务处理转账问题实例
Feb 11 PHP
PHP中使用GD库绘制折线图 折线统计图的绘制方法
Nov 09 PHP
php获取当前页面完整URL地址
Dec 30 PHP
TP(thinkPHP)框架多层控制器和多级控制器的使用示例
Jun 13 PHP
php使用array_chunk函数将一个数组分割成多个数组
Dec 05 PHP
使用PHP开发留言板功能
Nov 19 PHP
PHP新手用的Insert和Update语句构造类
Mar 31 #PHP
PHP中SESSION使用中的一点经验总结
Mar 30 #PHP
PHP __autoload()方法真的影响性能吗?
Mar 30 #PHP
phpmyadmin3 安装配置图解教程
Mar 29 #PHP
php 注释规范
Mar 29 #PHP
php 计划任务 检测用户连接状态
Mar 29 #PHP
MySQL的FIND_IN_SET函数使用方法分享
Mar 27 #PHP
You might like
解析php中的fopen()函数用打开文件模式说明
2013/06/20 PHP
ThinkPHP框架里隐藏index.php
2016/04/12 PHP
php字符串过滤strip_tags()函数用法实例分析
2019/06/24 PHP
复制Input内容的js代码_支持所有浏览器,修正了Firefox3.5以上的问题
2010/06/21 Javascript
Jquery 绑定时间实现代码
2011/05/03 Javascript
js的压缩及jquery压缩探讨(提高页面加载性能/保护劳动成果)
2013/01/29 Javascript
jquery mobile开发常见问题分析
2016/01/21 Javascript
javascript实现起伏的水波背景效果
2016/05/16 Javascript
BootStrap组件之进度条的基本用法
2017/01/19 Javascript
微信小程序倒计时功能实现代码
2017/11/09 Javascript
详解微信小程序中组件通讯
2018/10/30 Javascript
了解Javascript中函数作为对象的魅力
2019/06/19 Javascript
js中的面向对象之对象常见创建方法详解
2019/12/16 Javascript
nodejs中的异步编程知识点详解
2021/01/17 NodeJs
[02:51]DOTA2战队出征照拍摄花絮 TI3明星化身时尚男模
2013/07/22 DOTA
python list语法学习(带例子)
2013/11/01 Python
Python中asyncore的用法实例
2014/09/29 Python
Python基于identicon库创建类似Github上用的头像功能
2017/09/25 Python
python3利用smtplib通过qq邮箱发送邮件方法示例
2017/12/03 Python
对python内置map和six.moves.map的区别详解
2018/12/19 Python
pandas dataframe添加表格框线输出的方法
2019/02/08 Python
Python调用百度根据经纬度查询地址的示例代码
2019/07/07 Python
Jupyter Notebook折叠输出的内容实例
2020/04/22 Python
python语言实现贪吃蛇游戏
2020/11/13 Python
利用CSS3 动画 绘画 圆形动态时钟
2018/03/20 HTML / CSS
公务员培训自我鉴定
2013/09/19 职场文书
《藤野先生》教学反思
2014/02/19 职场文书
房产委托公证书
2014/04/08 职场文书
捐书倡议书
2014/08/29 职场文书
2015年入党决心书
2015/02/05 职场文书
创业计划书之牛肉汤快餐店
2019/10/08 职场文书
导游词之张家界
2019/10/31 职场文书
mysql中varchar类型的日期进行比较、排序等操作的实现
2021/11/17 MySQL
在HTML中引入CSS的几种方式介绍
2021/12/06 HTML / CSS
Vue自定义铃声提示音组件的实现
2022/01/22 Vue.js
HTML5之高度塌陷问题的解决
2022/06/01 HTML / CSS