编程 Python

基于Python实现大文件分割和命名脚本过程解析

Posted in Python onSeptember 29, 2019

日志文件分割、命名

工作中经常会收到测试同学、客户同学提供的日志文件，其中不乏几百M一G的也都有，毕竟压测一晚上产生的日志量还是很可观的，xDxD，因此不可避免的需要对日志进行分割，通常定位问题需要针对时间点，因此最好对分割后的日志文件使用文件中日志的开始、结束时间点来命名，这样使用起来最为直观，下面给大家分享两个脚本，分别作分割、命名，希望能够给大家提供一点点帮助；

大文件分割

用法：

python split_big_file.py
输入文件全路径名
输入期望的分割后每个小文件的行数
Just wait.

# -*- coding:utf-8 -*-

 import os,re,shutil
 import platform

 sys_name = platform.system().lower()
 SPLIT_CHAR = '\\' if sys_name.find('windows') != -1 else '/'

 print('input big files`s path:')
 _path = raw_input()
 names = []
 pathes = []
 if os.path.isfile(_path):
   print('is file')
   names.append(_path)
 else:
   print('is nothing')
 '''
 elif os.path.isdir(_path):
   print('This is dir')
   pathes = os.listdir(_path)
   print('pathes='+str(pathes))
   for i in range(len(pathes)):
     fullpath = _path+SPLIT_CHAR+pathes[i]
     print('fullpath='+fullpath)
     if os.path.isfile(fullpath):
       names.append(fullpath)
       files.append(open(fullpath).read().split('\n'))
 '''

 print(len(names))

 line_num = int(raw_input('every file`line num = '))
 print('line number='+str(line_num))

 for i in range(len(names)):
   _name = names[i]
   ori_name = _name.split(SPLIT_CHAR)[len(_name.split(SPLIT_CHAR))-1]
   dir_name = _name.replace(ori_name,'DIR_'+ori_name)
   dir_name = dir_name.replace('.','_')
   print ori_name
   print dir_name
   os.system('mkdir '+dir_name)
   count = 1
   print '已处理：'+str(count)+'行'
   part_file = open(dir_name+SPLIT_CHAR+str(0)+'.part.txt','w')
   with open(_name, 'rb') as f:
     for line in f:
     if count%line_num == 0:
       part_file.close()
       part_file = open(dir_name+SPLIT_CHAR+str(int(count/line_num))+'.part.txt','w')
     part_file.write(line+'\n')
     count+=1
     if count%100000 == 0:
       print '已处理：'+str(count)+'行'
   print '已处理：'+str(count)+'行'
   os.system('python ./get_name_logfile.py '+dir_name)

文件按照开始、结束行时间戳重命名

用法：

python get_name_logfile.py log.txt

python get_name_logfile.py logs

参数选择文件或者文件夹均可，如果是文件夹，则会针对文件夹中的每个文件做处理（不会递归到文件夹下文件夹中的文件哦）；

# -*- coding:utf-8 -*-


  import os,re,shutil
  import sys
  import platform

  sys_name = platform.system().lower()
  SPLIT_CHAR = '\\' if sys_name.find('windows') != -1 else '/'

  _path = sys.argv[1]
  names = []
  files = []
  pathes = []
  if os.path.isfile(_path):
    print('is file')
    names[0] = _path
  elif os.path.isdir(_path):
    print('This is dir')
    pathes = os.listdir(_path)
    print('pathes='+str(pathes))
    for i in range(len(pathes)):
      fullpath = _path+SPLIT_CHAR+pathes[i]
      print('fullpath='+fullpath)
      if os.path.isfile(fullpath):
        names.append(fullpath)
  else:
    print('is nothing')
    
  print(len(names))

  #  日期格式 ： 05-26 18:20:42.093  r'\d{4}-\d{2}-\d{2}T\d{2}:\d{2}:\d{2}.\d{3}'
  #  
  #  05-26 18:20:43.093：r'\d{2}-\d{2} {1,}\d{2}:\d{2}:\d{2}.\d{1,10}'

  date_reg = r'\d{2}-\d{2} {1,}\d{2}:\d{2}:\d{2}.\d{1,10}'
  time_reg = r'\d{2}:\d{2}:\d{2}.\d{1,10}'

  for i in range(len(names)):
    _name = names[i]
    print('name='+_name)
    # head 尝试在10行内查找日期
    head_len = 10
    start_time = '(start_time-'
    _file_ = open(_name, 'rb')
    reads = _file_.read()
    _file = reads.split('\n')
    if len(_file)/2 < 10:
      head_len = len(_file)/2
    for j in range(head_len):
      res = re.search(date_reg, _file[j])
      if res!=None and res.group(0)!=None:
        start_time = res.group(0)
        print('start_time='+start_time)
        break
    # tail
    tail_len = len(_file)-head_len
    end_time = '-end_time)'
    for j in range(len(_file)-1,tail_len-1,-1):
      res = re.search(time_reg, _file[j])
      if res!=None and res.group(0)!=None:
        end_time = res.group(0)
        print('end_time='+end_time)
        break
    _file_.close()
    ori_name = _name.split(SPLIT_CHAR)[len(_name.split(SPLIT_CHAR))-1]
    print('ori_name='+ori_name)
    new_name = start_time.replace(':','-')+'__'+end_time.replace(':','-')+os.path.splitext(ori_name)[1]
    print('new_name='+new_name)
    print("copy %s %s" % (_name, _name.replace(ori_name,new_name)))
    #os.system ("copy %s %s" % (_name, _name.replace(ori_name,new_name)))
    shutil.copy(_name,_name.replace(ori_name,new_name))
    os.system ("rm -rf "+_name)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

基于Python实现大文件分割和命名脚本过程解析

- Author -

HoLoong

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现比较两段文本不同之处的方法

May 30 Python

python3 pillow生成简单验证码图片的示例

Sep 19 Python

Python单元测试简单示例

Jul 03 Python

python判断一个数是否能被另一个整数整除的实例

Dec 12 Python

对python requests发送json格式数据的实例详解

Dec 19 Python

详解pandas库pd.read_excel操作读取excel文件参数整理与实例

Feb 17 Python

使用 Supervisor 监控 Python3 进程方式

Dec 05 Python

解决Django中checkbox复选框的传值问题

Mar 31 Python

解决python中import文件夹下面py文件报错问题

Jun 01 Python

在keras里面实现计算f1-score的代码

Jun 15 Python

tensorflow 2.0模式下训练的模型转成 tf1.x 版本的pb模型实例

Jun 22 Python

Matplotlib.pyplot 三维绘图的实现示例

Jul 28 Python

Python2比较当前图片跟图库哪个图片相似的方法示例

Sep 28 #Python

python使用opencv实现马赛克效果示例

Sep 28 #Python

python打包成so文件过程解析

Sep 28 #Python

python基于FTP实现文件传输相关功能代码实例

Sep 28 #Python

python网络爬虫 Scrapy中selenium用法详解

Sep 28 #Python

在vscode中配置python环境过程解析

Sep 28 #Python

python爬虫线程池创建并获取文件代码实例

Sep 28 #Python

You might like

PHP 网页过期时间的控制代码

2009/06/29 PHP

支持中文和其他编码的php截取字符串函数分享(截取中文字符串)

2014/03/13 PHP

PHP SPL标准库之接口(Interface)详解

2015/05/11 PHP

js客户端快捷键管理类的较完整实现和应用

2010/06/08 Javascript

通过继承IHttpHandle实现JS插件的组织与管理

2010/07/13 Javascript

动态的改变IFrame的高度实现IFrame自动伸展适应高度

2012/12/28 Javascript

js数组的操作详解

2013/03/27 Javascript

jquery ajax修改全局变量示例代码

2013/11/08 Javascript

详解Javascript 装载和执行

2014/11/17 Javascript

jQuery插件form-validation-engine正则表达式操作示例

2017/02/09 Javascript

JS一个简单的注册页面实例

2017/09/05 Javascript

react中fetch之cors跨域请求的实现方法

2018/03/14 Javascript

微信小程序学习笔记之跳转页面、传递参数获得数据操作图文详解

2019/03/28 Javascript

js实现简单分页导航栏效果

2019/06/28 Javascript

vue2 拖动排序 vuedraggable组件的实现

2019/08/08 Javascript

vue实现计算器功能

2020/02/22 Javascript

redux处理异步action解决方案

2020/03/22 Javascript

js验证账户名是否重复

2020/05/26 Javascript

[42:36]DOTA2上海特级锦标赛B组败者赛 VG VS Spirit第二局

2016/02/26 DOTA

Python中3种内建数据结构：列表、元组和字典

2014/11/30 Python

Python中序列的修改、散列与切片详解

2017/08/27 Python

Python读取图片为16进制表示简单代码

2018/01/19 Python

python删除某个字符

2018/03/19 Python

django-crontab 定时执行任务方法的实现

2019/09/06 Python

python对Excel按条件进行内容补充(推荐)

2019/11/24 Python

解决Jupyter无法导入已安装的 module问题

2020/04/17 Python

Python面向对象多态实现原理及代码实例

2020/09/16 Python

真正了解CSS3背景下的@font face规则

2017/05/04 HTML / CSS

HTML5 Canvas绘制圆点虚线实例

2015/01/01 HTML / CSS

土耳其风格手工珠宝：Ottoman Hands

2019/07/26 全球购物

澳大利亚当地社区首选的光学商店：1001 Optical

2019/08/24 全球购物

乡镇平安建设汇报材料

2014/08/25 职场文书

法定代表人授权委托书格式

2014/10/14 职场文书

学生个人总结范文

2015/02/15 职场文书

2015年高中班主任工作总结

2015/04/30 职场文书

Java版简易五子棋小游戏

2022/05/04 Java/Android