Python实现的大数据分析操作系统日志功能示例


Posted in Python onFebruary 11, 2019

本文实例讲述了Python实现的大数据分析操作系统日志功能。分享给大家供大家参考,具体如下:

一 代码

1、大文件切分

import os
import os.path
import time
def FileSplit(sourceFile, targetFolder):
  if not os.path.isfile(sourceFile):
    print(sourceFile, ' does not exist.')
    return
  if not os.path.isdir(targetFolder):
    os.mkdir(targetFolder)
  tempData = []
  number = 1000
  fileNum = 1
  linesRead = 0
  with open(sourceFile, 'r') as srcFile:
    dataLine = srcFile.readline().strip()
    while dataLine:
      for i in range(number):
        tempData.append(dataLine)
        dataLine = srcFile.readline()
        if not dataLine:
          break
      desFile = os.path.join(targetFolder, sourceFile[0:-4] + str(fileNum) + '.txt')
      with open(desFile, 'a+') as f:
        f.writelines(tempData)
      tempData = []
      fileNum = fileNum + 1
if __name__ == '__main__':
  #sourceFile = input('Input the source file to split:')
  #targetFolder = input('Input the target folder you want to place the split files:')
  sourceFile = 'test.txt'
  targetFolder = 'test'
  FileSplit(sourceFile, targetFolder)

2、Mapper代码

import os
import re
import threading
import time
def Map(sourceFile):
  if not os.path.exists(sourceFile):
    print(sourceFile, ' does not exist.')
    return
  pattern = re.compile(r'[0-9]{1,2}/[0-9]{1,2}/[0-9]{4}')
  result = {}
  with open(sourceFile, 'r') as srcFile:
    for dataLine in srcFile:
      r = pattern.findall(dataLine)
      if r:
        t = result.get(r[0], 0)
        t += 1
        result[r[0]] = t
  desFile = sourceFile[0:-4] + '_map.txt'
  with open(desFile, 'a+') as fp:
    for k, v in result.items():
      fp.write(k + ':' + str(v) + '\n')
if __name__ == '__main__':
  desFolder = 'test'
  files = os.listdir(desFolder)
  #如果不使用多线程,可以直接这样写
  '''for f in files:
    Map(desFolder + '\\' + f)'''
  #使用多线程
  def Main(i):
    Map(desFolder + '\\' + files[i])
  fileNumber = len(files)
  for i in range(fileNumber):
    t = threading.Thread(target = Main, args =(i,))
    t.start()

3.Reducer代码

import os
def Reduce(sourceFolder, targetFile):
  if not os.path.isdir(sourceFolder):
    print(sourceFolder, ' does not exist.')
    return
  result = {}
  #Deal only with the mapped files
  allFiles = [sourceFolder+'\\'+f for f in os.listdir(sourceFolder) if f.endswith('_map.txt')]
  for f in allFiles:
    with open(f, 'r') as fp:
      for line in fp:
        line = line.strip()
        if not line:
          continue
        position = line.index(':')
        key = line[0:position]
        value = int(line[position + 1:])
        result[key] = result.get(key,0) + value
  with open(targetFile, 'w') as fp:
    for k,v in result.items():
      fp.write(k + ':' + str(v) + '\n')
if __name__ == '__main__':
  Reduce('test', 'test\\result.txt')

二 运行结果

依次运行上面3个程序,得到最终结果:

07/10/2013:4634
07/16/2013:51
08/15/2013:3958
07/11/2013:1
10/09/2013:733
12/11/2013:564
02/12/2014:4102
05/14/2014:737

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
零基础写python爬虫之使用Scrapy框架编写爬虫
Nov 07 Python
Python实现设置windows桌面壁纸代码分享
Mar 28 Python
R vs. Python 数据分析中谁与争锋?
Oct 18 Python
python中hashlib模块用法示例
Oct 30 Python
高效使用Python字典的清单
Apr 04 Python
pandas表连接 索引上的合并方法
Jun 08 Python
pandas值替换方法
Jul 10 Python
将python运行结果保存至本地文件中的示例讲解
Jul 11 Python
基于python实现从尾到头打印链表
Nov 02 Python
Python 脚本拉取 Docker 镜像问题
Nov 10 Python
用Python在Excel里画出蒙娜丽莎的方法示例
Apr 28 Python
TensorFlow Autodiff自动微分详解
Jul 06 Python
Python实现对特定列表进行从小到大排序操作示例
Feb 11 #Python
实例讲解Python中浮点型的基本内容
Feb 11 #Python
实例介绍Python中整型
Feb 11 #Python
python开发准备工作之配置虚拟环境(非常重要)
Feb 11 #Python
pycharm配置pyqt5-tools开发环境的方法步骤
Feb 11 #Python
pycharm+PyQt5+python最新开发环境配置(踩坑)
Feb 11 #Python
Python requests模块实例用法
Feb 11 #Python
You might like
PHP PDOStatement:bindParam插入数据错误问题分析
2013/11/13 PHP
CodeIgniter启用缓存和清除缓存的方法
2014/06/12 PHP
PHP根据传入参数合并多个JS和CSS文件的简单实现
2014/06/13 PHP
PHP自带ZIP压缩、解压缩类ZipArchiv使用指南
2015/03/03 PHP
laravel-admin 实现在指定的相册下添加照片
2019/10/21 PHP
Laravel 验证码认证学习记录小结
2019/12/20 PHP
[原创]图片分页查看
2006/08/28 Javascript
JQuery中根据属性或属性值获得元素(6种情况获取方法)
2013/01/17 Javascript
IOS中safari下的select下拉菜单文字过长不换行的解决方法
2016/09/26 Javascript
一个Js文件函数中调用另一个Js文件函数的方法演示
2017/08/14 Javascript
JS传播事件、取消事件默认行为、阻止事件传播详解
2017/08/14 Javascript
利用hasOwnProperty给数组去重的面试题分享
2018/11/05 Javascript
常见的浏览器存储方式(cookie、localStorage、sessionStorage)
2019/05/07 Javascript
Python中的ceil()方法使用教程
2015/05/14 Python
详解详解Python中writelines()方法的使用
2015/05/25 Python
Python中在脚本中引用其他文件函数的实现方法
2016/06/23 Python
Python ldap实现登录实例代码
2016/09/30 Python
Python科学计算之Pandas详解
2017/01/15 Python
Python异常处理知识点总结
2019/02/18 Python
pygame实现贪吃蛇游戏(上)
2019/10/29 Python
python tkinter之 复选、文本、下拉的实现
2020/03/04 Python
pycharm无法安装第三方库的问题及解决方法以scrapy为例(图解)
2020/05/09 Python
django在开发中取消外键约束的实现
2020/05/20 Python
Python定义一个函数的方法
2020/06/15 Python
python和JavaScript哪个容易上手
2020/06/23 Python
美国鞋类购物网站:Shiekh Shoes
2016/08/21 全球购物
教室布置标语
2014/06/26 职场文书
2015年度村委会工作总结
2015/04/29 职场文书
2016年庆祝六一儿童节活动总结
2016/04/06 职场文书
CSS的class与id常用的命名规则
2021/05/18 HTML / CSS
python通过函数名调用函数的几种方法总结
2021/06/07 Python
手把手教你用SpringBoot将文件打包成zip存放或导出
2021/06/11 Java/Android
MongoDB 常用的crud操作语句
2021/06/20 MongoDB
JS 4个超级实用的小技巧 提升开发效率
2021/10/05 Javascript
Python实现为PDF去除水印的示例代码
2022/04/03 Python
前端传参数进行Mybatis调用mysql存储过程执行返回值详解
2022/08/14 MySQL