编程 Python

Python 获取 datax 执行结果保存到数据库的方法

Posted in Python onJuly 11, 2019

执行 datax 作业，创建执行文件，在 crontab 中每天1点（下面有关系）执行：

其中 job_start 及 job_finish 这两行记录是自己添加的，为了方便识别出哪张表。

#!/bin/bash
source /etc/profile
user1="root"
pass1="pwd"
user2="root"
pass2="pwd"
job_path="/opt/datax/job/"
 
jobfile=(
job_table_a.json
job_table_b.json
)
 
for filename in ${jobfile[@]}
do
	echo "job_start: "`date "+%Y-%m-%d %H:%M:%S"`" ${filename}"
	python /opt/datax/bin/datax.py -p "-Duser1=${user1} -Dpass1=${pass1} -Duser2=${user2} -Dpass2=${pass2}" ${job_path}${filename}
	echo "job_finish: "`date "+%Y-%m-%d %H:%M:%S"`" ${filename}"
done
 
# 0 1 * * * /opt/datax/job/dc_to_ods_incr.sh >> /opt/datax/job/log/dc_to_ods_incr_$(date +\%Y\%m\%d_\%H\%M\%S).log 2>&1
# egrep '任务|速度|总数|job_start|job_finish' /opt/datax/job/log/

datax 执行日志：

job_start: 2018-08-08 01:13:28 job_table_a.json
任务启动时刻          : 2018-08-08 01:13:28
任务结束时刻          : 2018-08-08 01:14:49
任务总计耗时          :         81s
任务平均流量          :     192.82KB/s
记录写入速度          :      1998rec/s
读出记录总数          :       159916
读写失败总数          :          0
job_finish: 2018-08-08 01:14:49 job_table_a.json
job_start: 2018-08-08 01:14:49 job_table_b.json
任务启动时刻          : 2018-08-08 01:14:50
任务结束时刻          : 2018-08-08 01:15:01
任务总计耗时          :         11s
任务平均流量          :        0B/s
记录写入速度          :       0rec/s
读出记录总数          :          0
读写失败总数          :          0
job_finish: 2018-08-08 01:15:01 job_table_b.json

接下来读取这些信息保存到数据库，在数据库中创建表：

CREATE TABLE `datax_job_result` (
 `log_file` varchar(200) DEFAULT NULL,
 `job_file` varchar(200) DEFAULT NULL,
 `start_time` datetime DEFAULT NULL,
 `end_time` datetime DEFAULT NULL,
 `seconds` int(11) DEFAULT NULL,
 `traffic` varchar(50) DEFAULT NULL,
 `write_speed` varchar(50) DEFAULT NULL,
 `read_record` int(11) DEFAULT NULL,
 `failed_record` int(11) DEFAULT NULL,
 `job_start` varchar(200) DEFAULT NULL,
 `job_finish` varchar(200) DEFAULT NULL,
 `insert_time` datetime DEFAULT CURRENT_TIMESTAMP
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

定时执行以下文件，因为 datax 作业 1 点执行，为了获取一天内最新生产的日志，脚本中取 82800内生产的日志文件，及23 小时内生产的那个最新日志。所以一天内任何时间执行都可以。此文件也是定时每天执行（判断 datax 作业完成后执行）

#!/usr/bin/python
# -*- coding: UTF-8 -*-
# 0 5 * * * source /etc/profile && /usr/bin/python2.7 /opt/datax/job/save_log_to_db.py > /dev/null 2>&1
 
import re
import os
import sqlalchemy
import pandas as pd
import datetime as dt
 
def save_to_db(df):
	engine = sqlalchemy.create_engine("mysql+pymysql://root:pwd@localhost:3306/test", encoding="utf-8") 
	df.to_sql("datax_job_result", engine, index=False, if_exists='append') 
 
def get_the_latest_file(path):
	t0 = dt.datetime.utcfromtimestamp(0)
	d2 = (dt.datetime.now() - t0).total_seconds()
	d1 = d2 - 82800
	for (dirpath, dirnames, filenames) in os.walk(path):
		for filename in sorted(filenames, reverse = True):
			if filename.endswith(".log"):
				f = os.path.join(dirpath,filename)
				ctime = os.stat(f)[-1]
				if ctime>=d1 and ctime <=d2:
					return f
			
def get_job_result_from_logfile(path):
	result = pd.DataFrame(columns=['log_file','job_file','start_time','end_time','seconds','traffic','write_speed','read_record','failed_record','job_start','job_finish'])
	log_file = get_the_latest_file(path)
	index = 0
	content = open(log_file, "r")
	for line in content:
		result.loc[index, 'log_file'] = log_file
		if re.compile(r'job_start').match(line):
			result.loc[index, 'job_file'] = line.split(' ')[4].strip()
			result.loc[index, 'job_start'] = line,
		elif re.compile(r'任务启动时刻').match(line):
			result.loc[index, 'start_time'] = line.split('刻')[1].strip().split(' ')[1].strip() + ' ' + line.split('刻')[1].strip().split(' ')[2].strip()
		elif re.compile(r'任务结束时刻').match(line):
			result.loc[index, 'end_time'] = line.split('刻')[1].strip().split(' ')[1].strip() + ' ' + line.split('刻')[1].strip().split(' ')[2].strip()
		elif re.compile(r'任务总计耗时').match(line):
			result.loc[index, 'seconds'] = line.split(':')[1].strip().replace('s','')
		elif re.compile(r'任务平均流量').match(line):
			result.loc[index, 'traffic'] = line.split(':')[1].strip()
		elif re.compile(r'记录写入速度').match(line):
			result.loc[index, 'write_speed'] = line.split(':')[1].strip()
		elif re.compile(r'读出记录总数').match(line):
			result.loc[index, 'read_record'] = line.split(':')[1].strip()
		elif re.compile(r'读写失败总数').match(line):
			result.loc[index, 'failed_record'] = line.split(':')[1].strip()
		elif re.compile(r'job_finish').match(line):
			result.loc[index, 'job_finish'] = line,
			index = index + 1
		else:
			pass
	save_to_db(result)
 
get_job_result_from_logfile("/opt/datax/job/log")

以上这篇Python 获取 datax 执行结果保存到数据库的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Python 获取 datax 执行结果保存到数据库的方法

- Author -

薛定谔的DBA

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

phpsir 开发一个检测百度关键字网站排名的python 程序

Sep 17 Python

Python 绘图和可视化详细介绍

Feb 11 Python

Python矩阵常见运算操作实例总结

Sep 29 Python

Python3编码问题 Unicode utf-8 bytes互转方法

Oct 26 Python

详解Python:面向对象编程

Apr 10 Python

使用Puppeteer爬取微信文章的实现

Feb 11 Python

python之MSE、MAE、RMSE的使用

Feb 24 Python

Python修改列表值问题解决方案

Mar 06 Python

浅谈pytorch中的BN层的注意事项

Jun 23 Python

Python进行统计建模

Aug 10 Python

python自动统计zabbix系统监控覆盖率的示例代码

Apr 03 Python

用Python实现屏幕截图详解

Jan 22 Python

python opencv捕获摄像头并显示内容的实现

Jul 11 #Python

python 将日期戳（五位数时间）转换为标准时间

Jul 11 #Python

用Python获取摄像头并实时控制人脸的实现示例

Jul 11 #Python

python实现LBP方法提取图像纹理特征实现分类的步骤

Jul 11 #Python

Python用字典构建多级菜单功能

Jul 11 #Python

Python + OpenCV 实现LBP特征提取的示例代码

Jul 11 #Python

python切片的步进、添加、连接简单操作示例

Jul 11 #Python

You might like

第三节定义一个类 [3]

2006/10/09 PHP

PHP判断远程图片或文件是否存在的实现代码

2014/02/20 PHP

PHP实现分布式memcache设置web集群session同步的方法

2018/04/10 PHP

Thinkphp5.0 框架的请求方式与响应方式分析

2019/10/14 PHP

JavaScript 基础篇之运算符、语句（二）

2012/04/07 Javascript

JQuery中form验证出错信息的查看方法

2013/10/08 Javascript

JavaScript中用sort()方法对数组元素进行排序的操作

2015/06/09 Javascript

JQ技术实现注册页面带有校验密码强度

2015/07/27 Javascript

表单验证插件Validation应用的实例讲解

2015/10/10 Javascript

JavaScript基于原型链的继承

2016/06/22 Javascript

javascript宿主对象之window.navigator详解

2016/09/07 Javascript

jquery+ajax实现省市区三级联动效果简单示例

2017/01/04 Javascript

详解nuxt sass全局变量(公共scss解决方案)

2018/06/27 Javascript

nodejs高大上的部署方式(PM2)

2018/09/11 NodeJs

vue路由--网站导航功能详解

2019/03/29 Javascript

JS前后端实现身份证号验证代码解析

2020/07/23 Javascript

nuxt.js写项目时增加错误提示页面操作

2020/11/05 Javascript

vue 基于abstract 路由模式实现页面内嵌的示例代码

2020/12/14 Vue.js

Python中使用PyQt把网页转换成PDF操作代码实例

2015/04/23 Python

用python的requests第三方模块抓取王者荣耀所有英雄的皮肤实例

2017/12/14 Python

Python3.6笔记之将程序运行结果输出到文件的方法

2018/04/22 Python

python修改文件内容的3种方法详解

2019/11/15 Python

浅谈python的elementtree模块处理中文注意事项

2020/03/06 Python

jupyter notebook oepncv 显示一张图像的实现

2020/04/24 Python

英国家电直销：Appliances Direct

2016/09/22 全球购物

新西兰床上用品和家居用品购物网站：Adairs

2018/04/27 全球购物

俄罗斯香水在线商店：AromaCode

2019/12/04 全球购物

为什么在使用动态 SQL 语句时必须为低层数据库对象授予权限

2012/12/13 面试题

小学敬老月活动方案

2014/02/11 职场文书

业务员的岗位职责

2014/03/15 职场文书

《果园机器人》教学反思

2014/04/13 职场文书

六年级语文下册教学计划

2015/01/22 职场文书

2015年效能监察工作总结

2015/04/23 职场文书

2015年公务员工作总结

2015/04/24 职场文书

python编程实现清理微信重复缓存文件

2021/11/01 Python

win10此电脑打不开怎么办 win10双击此电脑无响应的解决办法

2022/07/23 数码科技