Python 分析Nginx访问日志并保存到MySQL数据库实例


Posted in Python onMarch 13, 2014

使用Python 分析Nginx access 日志,根据Nginx日志格式进行分割并存入MySQL数据库。
一、Nginx access日志格式如下:

$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent" "$http_x_forwarded_for"' #使用的是nginx默认日志格式

二、Nginx access 日志内容如下:
182.19.31.129 - - [2013-08-13T00:00:01-07:00] "GET /css/anniversary.css HTTP/1.1" 304 0 "http://www.chlinux.net/" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36" "-"

三、下面是Python 分析nginx日志的Python代码:
#!/usr/bin/env python
#coding:utf8
import os
import fileinput
import re
import sys
import MySQLdb
#日志的位置
logfile=open("access_20130812.log")
#使用的nginx默认日志格式$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent" "$http_x_forwarded_for"'
#日志分析正则表达式
#203.208.60.230
ipP = r"?P<ip>[\d.]*"
#以[开始,除[]以外的任意字符 防止匹配上下个[]项目(也可以使用非贪婪匹配*?) 不在中括号里的.可以匹配换行外的任意字符 *这样地重复是"贪婪的“ 表达式引擎会试着重复尽可能多的次数。#以]结束
#[21/Jan/2011:15:04:41 +0800]
timeP = r"""?P<time>\[[^\[\]]*\]"""
#以"开始, #除双引号以外的任意字符 防止匹配上下个""项目(也可以使用非贪婪匹配*?),#以"结束
#"GET /EntpShop.do?method=view&shop_id=391796 HTTP/1.1"
#"GET /EntpShop.do?method=view&shop_id=391796 HTTP/1.1"
requestP = r"""?P<request>\"[^\"]*\""""
statusP = r"?P<status>\d+"
bodyBytesSentP = r"?P<bodyByteSent>\d+"
#以"开始, 除双引号以外的任意字符 防止匹配上下个""项目(也可以使用非贪婪匹配*?),#以"结束
#"http://test.myweb.com/myAction.do?method=view&mod_id=&id=1346"
referP = r"""?P<refer>\"[^\"]*\""""
#以"开始, 除双引号以外的任意字符 防止匹配上下个""项目(也可以使用非贪婪匹配*?),以"结束
#"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"'
userAgentP = r"""?P<userAgent>\"[^\"]*\""""
#以(开始, 除双引号以外的任意字符 防止匹配上下个()项目(也可以使用非贪婪匹配*?),以"结束
#(compatible; Googlebot/2.1; +http://www.google.com/bot.html)"'
userSystems = re.compile(r'\([^\(\)]*\)')
#以"开始,除双引号以外的任意字符防止匹配上下个""项目(也可以使用非贪婪匹配*?),以"结束
userlius = re.compile(r'[^\)]*\"')
#原理:主要通过空格和-来区分各不同项目,各项目内部写各自的匹配表达式
nginxLogPattern = re.compile(r"(%s)\ -\ -\ (%s)\ (%s)\ (%s)\ (%s)\ (%s)\ (%s)" %(ipP, timeP, requestP, statusP, bodyBytesSentP, referP, userAgentP), re.VERBOSE)
#数据库连接信息
conn=MySQLdb.connect(host='192.168.1.22',user='test',passwd='pass',port=3306,db='python')
cur=conn.cursor()
sql = "INSERT INTO python.test VALUES(%s,%s,%s,%s,%s,%s,%s,%s,%s)"
while True:
    line = logfile.readline()
    if not line:break
    matchs = nginxLogPattern.match(line)
    if matchs != None:
        allGroup = matchs.groups()
        ip = allGroup[0]
        time = allGroup[1]
        request = allGroup[2]
        status = allGroup[3]
        bodyBytesSent = allGroup[4]
        refer = allGroup[5]
        userAgent = allGroup[6]
        Time = time.replace('T',' ')[1:-7]
        if len(userAgent) > 20:
            userinfo = userAgent.split(' ')
            userkel =  userinfo[0]
            try:
                usersystem = userSystems.findall(userAgent)
                usersystem = usersystem[0]
                print usersystem
                userliu = userlius.findall(userAgent)
                value = [ip,Time,request,status,bodyBytesSent,refer,userkel,usersystem,userliu[1]]
                conn.commit()
                print value
            except IndexError:
                userinfo = userAgent
                value = [ip,Time,request,status,bodyBytesSent,refer,userinfo,"",""]
        else:
            useraa = userAgent
            value = [ip,Time,request,status,bodyBytesSent,refer,useraa,"",""]
    try:
        result = cur.execute(sql,value)
        #conn.commit()
        print result
    except MySQLdb.Error,e:
        print "Mysql Error %d: %s" % (e.args[0], e.args[1])
conn.commit()
conn.close()

四、存入数据库后数据是如下图:

Python 相关文章推荐
Python中函数及默认参数的定义与调用操作实例分析
Jul 25 Python
python基本语法练习实例
Sep 19 Python
python执行使用shell命令方法分享
Nov 08 Python
Python延时操作实现方法示例
Aug 14 Python
Python文件常见操作实例分析【读写、遍历】
Dec 10 Python
python numpy 按行归一化的实例
Jan 21 Python
Django框架中间件(Middleware)用法实例分析
May 24 Python
在Python中构建增广矩阵的实现方法
Jul 01 Python
Python Numpy,mask图像的生成详解
Feb 19 Python
浅谈python输出列表元素的所有排列形式
Feb 26 Python
使用opencv中匹配点对的坐标提取方式
Jun 04 Python
PyQt5的相对布局管理的实现
Aug 07 Python
详解Python中的__init__和__new__
Mar 12 #Python
python文件和目录操作方法大全(含实例)
Mar 12 #Python
Python 文件读写操作实例详解
Mar 12 #Python
Python 异常处理实例详解
Mar 12 #Python
Python break语句详解
Mar 11 #Python
Python continue语句用法实例
Mar 11 #Python
Python pass 语句使用示例
Mar 11 #Python
You might like
php线性表的入栈与出栈实例分析
2015/06/12 PHP
Javascript YUI 读码日记之 YAHOO.util.Dom - Part.2 0
2008/03/22 Javascript
JQERY limittext 插件0.2版(长内容限制显示)
2010/08/27 Javascript
按钮JS复制文本框和表格的代码
2011/04/01 Javascript
js图片预加载示例
2014/04/30 Javascript
功能强大的Bootstrap效果展示(二)
2016/08/03 Javascript
更靠谱的H5横竖屏检测方法(js代码)
2016/09/13 Javascript
浅谈JavaScript的函数及作用域
2016/12/30 Javascript
基于JS实现仿百度百家主页的轮播图效果
2017/03/06 Javascript
Vue.use源码分析
2017/04/22 Javascript
浅谈express 中间件机制及实现原理
2017/08/31 Javascript
JavaScript实现带有子菜单和控件的slider轮播图效果
2017/11/01 Javascript
js中时间格式化的几种方法
2018/07/22 Javascript
javascript数据结构之多叉树经典操作示例【创建、添加、遍历、移除等】
2018/08/01 Javascript
玩转vue的slot内容分发
2018/09/22 Javascript
webpack配置proxyTable时pathRewrite无效的解决方法
2018/12/13 Javascript
微信小程序wepy框架学习和使用心得详解
2019/05/24 Javascript
vue调用语音播放的方法
2019/09/27 Javascript
JavaScript实现页面高亮操作提示和蒙板
2021/01/04 Javascript
[51:39]DOTA2-DPC中国联赛 正赛 Magma vs LBZS BO3 第二场 2月7日
2021/03/11 DOTA
pytyon 带有重复的全排列
2013/08/13 Python
跟老齐学Python之重回函数
2014/10/10 Python
python3生成随机数实例
2014/10/20 Python
python使用pil生成图片验证码的方法
2015/05/08 Python
Python使用剪切板的方法
2017/06/06 Python
在linux系统下安装python librtmp包的实现方法
2019/07/22 Python
python 一篇文章搞懂装饰器所有用法(建议收藏)
2019/08/23 Python
python抓取多种类型的页面方法实例
2019/11/20 Python
详解django中Template语言
2020/02/22 Python
python中PyQuery库用法分享
2021/01/15 Python
css3的transition属性详解
2014/12/15 HTML / CSS
2014年圣诞节倒计时网页的制作过程
2014/12/05 HTML / CSS
淘宝活动总结范文
2014/06/26 职场文书
六查六看心得体会
2014/10/14 职场文书
2014年乡镇妇联工作总结
2014/12/02 职场文书
党员干部学习心得体会
2016/01/23 职场文书