编程 Python

使用Python机器学习降低静态日志噪声

Posted in Python onSeptember 29, 2018

持续集成(CI)作业可以产生大量的数据。当作业失败时，找出了什么问题可能是一个繁琐的过程，需要对日志进行调查以发现根本原因-这通常是在作业总输出的一小部分中发现的。为了更容易地将最相关的数据从其他数据中分离出来，日志还原机器学习模型使用以前成功的作业运行来训练，以从失败的运行日志中提取异常。
此原则也可应用于其他用例，例如，从期刊或其他系统范围的常规日志文件。

利用机器学习降低噪声

一个典型的日志文件包含许多名义事件(“基线”)以及一些与开发人员相关的异常。基线可能包含难以检测和删除的随机元素，如时间戳或唯一标识符。要删除基线事件，我们可以使用k最近邻模式识别算法 (k-NN)。

的日志事件必须转换为数值。k-NN回归。使用通用特征提取工具HashingVectorizer允许将该进程应用于任何类型的日志。它对每个单词进行散列，并在稀疏矩阵中对每个事件进行编码。为了进一步减少搜索空间，令牌化将删除已知的随机单词，例如日期或IP地址。

使用Python机器学习降低静态日志噪声

一旦模型被训练，k-NN搜索告诉我们每个新事件与基线之间的距离。

使用Python机器学习降低静态日志噪声

Jupyter notebook演示了稀疏矩阵向量的过程，并绘制了稀疏矩阵向量图。

使用Python机器学习降低静态日志噪声

介绍LOGPREIN

LogReallyPython软件透明地实现了这个过程。的最初目标是协助祖尔CI使用构建数据库进行作业失败分析，现在将其集成到软件厂发展锻造的工作日志过程。
最简单的是，LogReduce比较文件或目录，并删除类似的行。Log冷水为每个源文件构建一个模型，并使用以下语法输出距离超过定义阈值的任何目标行：距离文件名：行号：行内容.

$ logreduce varlogauditaudit.log.1 varlogauditaudit.log
INFO logreduce.Classifier - Training took 21.982s at 0.364MBs 1.314kls 8.000 MB - 28.884 kilo-lines
0.244 audit.log:19963:    =USER_AUTH ="root" ="/usr/bin/su" hostname=managesf.sftests.com
INFO logreduce.Classifier - Testing took 18.297s at 0.306MBs 1.094kls 5.607 MB - 20.015 kilo-lines
99.99 reduction from 20015 lines to

更高级的LogReduce使用可以将模型离线训练成可重用的模型。基线的许多变体可以用来适应k-NN搜索树

$ logreduce dir-train audit.clf varlogauditaudit.log.
INFO logreduce.Classifier - Training took 80.883s at 0.396MBs 1.397kls 32.001 MB - 112.977 kilo-lines
DEBUG logreduce.Classifier - audit.clf: written
$ logreduce dir-run audit.clf varlogauditaudit.log

LogReduce还实现了接口，以发现日志时间范围(天/周/月)和Zuul CI作业构建历史记录的基线。它还可以生成HTML报告，在一个简单的接口中发现多个文件中的组异常。

使用Python机器学习降低静态日志噪声

管理基线

使用的关键k-神经网络回归异常检测是有一个已知的良好基线的数据库，该模型用于检测偏离过远的线。该方法依赖于包含所有标称事件的基线，因为基线中没有发现的任何事件都将被报告为异常。

Ci工作是我们的主要目标。k-NN回归，因为作业输出通常是确定性的，以前的运行可以自动用作基线。Log还原功能可以将Zuul作业角色用作失败的作业发布任务的一部分，以便发布简明的报告(而不是完整的作业日志)。这一原则可适用于其他情况，只要可以事先建立基线。例如，一个标称系统的SOS报告可用于查找有缺陷的部署中的问题。

使用Python机器学习降低静态日志噪声

异常分类服务

下一个版本的Logreduce引入了一种服务器模式，用于将日志处理卸载到外部服务，在该服务中可以进一步分析报表。它还支持导入现有的报告和请求来分析Zuul构建。服务运行异步地进行分析，并提供一个Web界面来调整分数和删除假阳性。

使用Python机器学习降低静态日志噪声

评审报告可以作为独立的数据集存档，目标日志文件和记录在平面JSON文件中的异常行的分数。

项目路线图

LogReduce已经被有效地使用了，但是有很多改进工具的机会。今后的计划包括：

管理日志文件中发现的许多带注释的异常，并生成公共域数据集，以便进一步研究。日志文件中的异常检测是一个具有挑战性的主题，拥有一个通用的数据集来测试新的模型将有助于确定新的解决方案。
使用模型重用带注释的异常，以细化所报告的距离。例如，当用户通过将其距离设置为零将行标记为假阳性时，该模型可以减少这些行在未来报告中的得分。
指纹归档异常以检测新的报告何时包含已知的异常。因此，服务可以通知用户作业遇到了已知的问题，而不是报告异常的内容。解决问题后，服务可以自动重新启动作业。
支持更多的目标基线发现接口，如SOS报告、Jenkins构建、Travis CI等。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

使用Python机器学习降低静态日志噪声

- Author -

Tristan de Cacqueray

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python enumerate遍历数组示例应用

Sep 06 Python

python正则表达式判断字符串是否是全部小写示例

Dec 25 Python

github配置使用指南

Nov 18 Python

Linux系统上Nginx+Python的web.py与Django框架环境

Dec 25 Python

Mac 上切换Python多版本

Jun 17 Python

Python tkinter模块弹出窗口及传值回到主窗口操作详解

Jul 28 Python

python使用super()出现错误解决办法

Aug 14 Python

Django uwsgi Nginx 的生产环境部署详解

Feb 02 Python

Python3模拟curl发送post请求操作示例

May 03 Python

Pandas之read_csv()读取文件跳过报错行的解决

Apr 21 Python

Keras在训练期间可视化训练误差和测试误差实例

Jun 16 Python

python实现图书馆抢座(自动预约)功能的示例代码

Sep 29 Python

python实现字符串和字典的转换

Sep 29 #Python

python实现字符串中字符分类及个数统计

Sep 28 #Python

python中使用zip函数出现错误的原因

Sep 28 #Python

python中的for循环

Sep 28 #Python

Django migrations 默认目录修改的方法教程

Sep 28 #Python

python数据结构之线性表的顺序存储结构

Sep 28 #Python

python实现顺序表的简单代码

Sep 28 #Python

You might like

在PHP中养成7个面向对象的好习惯

2010/01/28 PHP

二招解决php乱码问题

2012/03/25 PHP

PHP 类相关函数的使用详解

2013/05/10 PHP

CI框架中集成CKEditor编辑器的教程

2014/06/09 PHP

初识php MVC

2014/09/10 PHP

PHP mysqli事务操作常用方法分析

2017/07/22 PHP

PHP有序表查找之插值查找算法示例

2018/02/10 PHP

解决thinkphp5未定义变量会抛出异常,页面错误,请稍后再试的问题

2019/10/16 PHP

jquery事件重复绑定的快速解决方法

2014/01/03 Javascript

父页面显示遮罩层弹出半透明状态的dialog

2014/03/04 Javascript

推荐一款jQuery插件模板

2015/01/09 Javascript

JQuery组件基于Bootstrap的DropDownList（完整版）

2016/07/05 Javascript

概述一个页面从输入URL到页面加载完的过程

2016/12/16 Javascript

Angular4自制一个市县二级联动组件示例

2017/11/21 Javascript

Vue底层实现原理总结

2018/02/17 Javascript

浅谈在vue中用webpack打包之后运行文件的问题以及相关配置方法

2018/02/21 Javascript

使用Vue开发自己的Chrome扩展程序过程详解

2019/06/21 Javascript

vue cli3 配置proxy代理无效的解决

2019/10/30 Javascript

浅析python 内置字符串处理函数的使用方法

2014/06/11 Python

python采用requests库模拟登录和抓取数据的简单示例

2014/07/05 Python

python实现根据图标提取分类应用程序实例

2014/09/28 Python

Python字符串通过'+'和join函数拼接新字符串的性能测试比较

2019/03/05 Python

pycharm创建scrapy项目教程及遇到的坑解析

2019/08/15 Python

Python 给下载文件显示进度条和下载时间的实现

2020/04/02 Python

Python实现UDP程序通信过程图解

2020/05/15 Python

sklearn和keras的数据切分与交叉验证的实例详解

2020/06/19 Python

地图可视化神器kepler.gl python接口的使用方法

2020/12/22 Python

python实现发送QQ邮件（可加附件）

2020/12/23 Python

Jones Bootmaker官网：优质靴子和鞋子在线

2020/11/30 全球购物

挂牌仪式策划方案

2014/05/18 职场文书

2014年公务员个人工作总结

2014/11/22 职场文书

职代会闭幕词

2015/01/28 职场文书

工作自我推荐信范文

2015/03/25 职场文书

硕士学位申请报告

2015/05/15 职场文书

车位出租协议书范本

2016/03/19 职场文书

动画《平凡职业成就世界最强》宣布制作OVA

2022/04/01 日漫