python聚类算法解决方案(rest接口/mpp数据库/json数据/下载图片及数据)


Posted in Python onAugust 28, 2019

1. 场景描述

一直做java,因项目原因,需要封装一些经典的算法到平台上去,就一边学习python,一边网上寻找经典算法代码,今天介绍下经典的K-means聚类算法,算法原理就不介绍了,只从代码层面进行介绍,包含:rest接口、连接mpp数据库、回传json数据、下载图片及数据。

2. 解决方案

2.1 项目套路

(1)python经典算法是单独的服务器部署,提供rest接口出来,供java平台调用,交互的方式是http+json;

(2)数据从mpp数据库-Greenplum中获取;

(3)返回的数据包括三个:1是生成聚类图片的地址;2是聚类项目完整数据地址;3是返回给前端的200条json预览数据。

2.2 restapi类

分两个类,第一个是restapi类,封装rest接口类,其他的经典算法在这里都有对应的方法,是个公共类。

完整代码:

# -*- coding: utf-8 -*-

from flask import Flask, request, send_from_directory
from k_means import exec
import logging
app = Flask(__name__)

#1.服务器上更改为服务器地址,用于存放数据
dirpath = 'E:\\ruanjianlaowang'

#2. 测试连通性,软件老王
@app.route('/')
def index():
  return "Hello, World!"


#3. k-means算法 软件老王
@app.route('/getKmeansInfoByLaowang', methods=['POST'])
def getKmeansInfoByLaowang():
  try:
     result = exec(request.get_json(), dirpath)
  except IndexError as e:
    logging.error(str(e))
    return 'exception:' + str(e)
  except KeyError as e:
    logging.error(str(e))
    return 'exception:' + str(e)
  except ValueError as e:
    logging.error(str(e))
    return 'exception:' + str(e)
  except Exception as e:
    logging.error(str(e))
    return 'exception:' + str(e)
  else:
    return result

#4.文件下载(图片及csv)
@app.route("/<path:filename>")
def getImages(filename):
  return send_from_directory(dirpath, filename, as_attachment=True)

#5.启动
if __name__ == '__main__':
  app.run(host="0.0.0.0", port=5000, debug=True)

代码说明:

使用的是第三方的flask提供的rest服务

(1)服务器上更改为服务器地址,用于存放数据

(2)测试连通性,软件老王

(3)k-means算法 软件老王

(4)文件下载(图片及csv)

(5)启动

2.3 k-means算法类

完整代码:

import pandas as pd
import dbgp as dbgp
from pandas.io import json
from numpy import *
import matplotlib.pyplot as plt
import numpy as np
plt.switch_backend('agg')
import logging

# 执行 软件老王
def exec(params, dirpath):

  #1.获取参数,软件老王
  sql = params.get("sql")
  xlines = params.get("xlines")
  ylines = params.get("ylines")
  xlinesname = params.get("xlinesname")
  ylinesname = params.get("ylinesname")
  grouplinesname = params.get("grouplinesname")

  times = int(params.get("times"))
  groupnum = int(params.get("groupnum"))
  url = params.get("url")
  name = params.get("name")

  #2. 校验是否为空,软件老王
  flag = checkparam(sql, xlines, ylines, times, groupnum)
  if not flag is None and len(flag) != 0:
    return flag

  #3. 从数据库获取数据,软件老王
  try:
    data = dbgp.queryGp(sql)
  except IndexError:
    return sql
  except KeyError:
    return sql
  except ValueError:
    return sql
  except Exception:
    return sql

  if data.empty:
    return "exception:此数据集无数据,请确认后重试"
  #4 调用第三方sklearn的KMeans聚类算法,软件老王
  # data_zs = 1.0 * (data - data.mean()) / data.std() 数据标准化,不需要标准话
  from sklearn.cluster import KMeans
  model = KMeans(n_clusters=groupnum, n_jobs=4, max_iter=times)
  model.fit(data) # 开始聚类

  return export(model, data, data, url, dirpath, name,grouplinesname,xlines, ylines,xlinesname,ylinesname)

  # 5.生成导出excel 软件老王
def export(model, data, data_zs, url, dirpath, name,grouplinesname,xlines, ylines,xlinesname,ylinesname):


  # #详细输出原始数据及其类别
  detail_data = pd.DataFrame().append(data)
  if not grouplinesname is None and len(grouplinesname) != 0:
    detail_data.columns = grouplinesname.split(',')

  r_detail_new = pd.concat([detail_data, pd.Series(model.labels_, index=detail_data.index)], axis=1) # 详细输出每个样本对应的类别
  r_detail_new.columns = list(detail_data.columns) + [u'聚类类别'] # 重命名表头
  outputfile = dirpath + name + '.csv'
  r_detail_new.to_csv(outputfile, encoding='utf_8_sig') # 保存结果


  #重命名表头
  r1 = pd.Series(model.labels_).value_counts() # 统计各个类别的数目
  r2 = pd.DataFrame(model.cluster_centers_) # 找出聚类中心
  r = pd.concat([r2, r1], axis=1) # 横向连接(0是纵向),得到聚类中心对应的类别下的数目
  r.columns = list(data.columns) + [u'类别数目'] # 重命名表头

  return generateimage(r, data_zs, url, dirpath, name,model,xlines, ylines,xlinesname,ylinesname)

#6.生成图片及返回json,软件老王
def generateimage(r, data_zs, url, dirpath, name,model,xlines, ylines,xlinesname,ylinesname):
  image = dirpath + name + '.jpg'

  #6.1 中文处理,软件老王
  plt.rcParams['font.sans-serif'] = ['simhei']
  plt.rcParams['font.family'] = 'sans-serif'
  plt.rcParams['axes.unicode_minus'] = False
  # 6.2 画图,生成图片,软件老王
  labels = model.labels_
  centers = model.cluster_centers_
  data_zs['label'] = labels
  data_zs['label'] = data_zs['label'].astype(np.int)
  # 图标集合
  markers = ['o', 's', '+', 'x', '^', 'v', '<', '>']
  colors = ['b', 'c', 'g', 'k', 'm', 'r', 'y']
  symbols = []
  for m in markers:
    for c in colors:
      symbols.append((m, c))
  # 画每个类别的散点及质心
  for i in range(0, len(centers)):
    df_i = data_zs.loc[data_zs['label'] == i]
    symbol = symbols[i]
    center = centers[i]

    x = df_i[xlines].values.tolist()
    y = df_i[ylines].values.tolist()

    plt.scatter(x, y, marker=symbol[0], color=symbol[1], s=10)
    plt.scatter(center[0], center[1], marker='*', color=symbol[1], s=50)

  plt.title(name)
  plt.xlabel(xlinesname)
  plt.ylabel(ylinesname)
  plt.savefig(image, dpi=150)
  plt.clf()
  plt.close(0)

  # 6.3 返回json数据给前端展示,软件老王
  result = {}
  result['image_url'] = url + '/' + name + '.jpg'
  result['details_url'] = url + '/' + name + '.csv'
  result['data'] = r[:200]  #显示200,多的话,相当于预览
  result = json.dumps(result, ensure_ascii=False)
  result = result.replace('\\', '')
  return result

def checkparam(sql, xlines, ylines, times, groupnum):
  if sql is None or sql.strip() == '' or len(sql.strip()) == 0:
    return "数据集或聚类数据列,不能为空"
  if xlines is None or xlines.strip() == '' or len(xlines.strip()) == 0:
    return "X轴,不能为空"
  if ylines is None or ylines.strip() == '' or len(ylines.strip()) == 0:
    return "Y轴,不能为空"
  if times is None or times <= 0:
    return "聚类个数,不能为空或小于等于0"
  if groupnum is None or groupnum <= 0:
    return "迭代次数,不能为空或小于等于0"

代码说明:

(1)获取参数,软件老王;

(2)校验是否为空,软件老王;

(3)从数据库获取数据,软件老王;

(4)第三方sklearn的KMeans聚类算法,软件老王;

(5)生成导出excel 软件老王

(6)生成图片及返回json,软件老王

​ (6.1) 中文处理,软件老王

​ (6.2) 画图,生成图片,软件老王

​ (6.3) 返回json数据给前端展示,软件老王

2.4 执行效果

2.4.1 json返回

{"image_url":"http://10.192.168.1:5000/ruanjianlaowang_65652.jpg","details_url":"http://10.192.168.1:5000/ruanjianlaowang_65652.csv","data":{"empno":{"0":7747.2,"1":7699.625,"2":7839.0},"mgr":{"0":7729.8,"1":7745.25,"2":7566.0},"sal":{"0":2855.0,"1":1218.75,"2":5000.0},"comm":{"0":29.5110766,"1":117.383964625,"2":31.281453},"deptno":{"0":20.0,"1":25.0,"2":10.0},"类别数目":{"0":5,"1":8,"2":1}}}

2.4.2 返回图片

python聚类算法解决方案(rest接口/mpp数据库/json数据/下载图片及数据)

2.4.3 返回的数据

python聚类算法解决方案(rest接口/mpp数据库/json数据/下载图片及数据)

另外说明: 目前项目环境上用的是8核16G的虚拟机,执行数据量是30万,运行状况良好。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python的web框架中配置app的教程
Apr 30 Python
Python环境下搭建属于自己的pip源的教程
May 05 Python
python实现发送邮件及附件功能
Mar 02 Python
Python获取SQLite查询结果表列名的方法
Jun 21 Python
详解Python异常处理中的Finally else的功能
Dec 29 Python
Python查找第n个子串的技巧分享
Jun 27 Python
python 数字类型和字符串类型的相互转换实例
Jul 17 Python
Python使用matplotlib绘制三维图形示例
Aug 25 Python
浅谈django 模型类使用save()方法的好处与注意事项
Mar 28 Python
Python中的Cookie模块如何使用
Jun 04 Python
python中可以声明变量类型吗
Jun 18 Python
Python基于locals返回作用域字典
Oct 17 Python
Numpy的简单用法小结
Aug 28 #Python
Python 通过截图匹配原图中的位置(opencv)实例
Aug 27 #Python
Python 转换文本编码实现解析
Aug 27 #Python
python-opencv获取二值图像轮廓及中心点坐标的代码
Aug 27 #Python
python定位xpath 节点位置的方法
Aug 27 #Python
python实现截取屏幕保存文件,删除N天前截图的例子
Aug 27 #Python
python自动化UI工具发送QQ消息的实例
Aug 27 #Python
You might like
在smarty模板中使用PHP函数的方法
2011/04/23 PHP
php模拟ping命令(php exec函数的使用方法)
2013/10/25 PHP
php从身份证获取性别和出生年月
2017/02/09 PHP
PHP实现上传图片到数据库并显示输出的方法
2018/05/31 PHP
分享别人写的一个小型js框架
2007/08/13 Javascript
YUI 读码日记之 YAHOO.util.Dom - Part.1
2008/03/22 Javascript
jquery插件jbox使用iframe关闭问题
2009/02/09 Javascript
js动态创建表格,删除行列的小例子
2013/07/20 Javascript
用js通过url传参把数据从一个页面传到另一个页面
2014/09/01 Javascript
Bootstrap每天必学之滚动监听
2016/03/16 Javascript
第一篇初识bootstrap
2016/06/21 Javascript
jquery中用函数来设置css样式
2016/12/22 Javascript
js绑定事件和解绑事件
2017/04/27 Javascript
详解VueJS 数据驱动和依赖追踪分析
2017/07/26 Javascript
重学 JS:为啥 await 不能用在 forEach 中详解
2019/04/15 Javascript
一看就会的vuex实现登录验证(附案例)
2020/01/09 Javascript
Vue3 响应式侦听与计算的实现
2020/11/11 Javascript
Python中__name__的使用实例
2015/04/14 Python
对numpy中布尔型数组的处理方法详解
2018/04/17 Python
python 使用正则表达式按照多个空格分割字符的实例
2018/12/20 Python
Scrapy框架爬取Boss直聘网Python职位信息的源码
2019/02/22 Python
python算法与数据结构之冒泡排序实例详解
2019/06/22 Python
Python 获取windows桌面路径的5种方法小结
2019/07/15 Python
Python 利用邮件系统完成远程控制电脑的实现(关机、重启等)
2019/11/19 Python
常用的10个Python实用小技巧
2020/08/10 Python
CSS3中的content属性使用示例
2015/07/20 HTML / CSS
canvas 阴影和图形变换的示例代码
2018/01/02 HTML / CSS
床上用品全球在线购物:BeddingInn
2016/12/18 全球购物
全球销量第一生发产品:Viviscal
2017/12/21 全球购物
ddl,dml和dcl的含义
2016/05/08 面试题
公务员职业生涯规划书范文  
2014/01/19 职场文书
幼儿园六一儿童节主持词
2015/06/30 职场文书
个人的事迹材料怎么写
2019/04/24 职场文书
小公司融资,商业计划书的8切记
2019/07/15 职场文书
HTML中的表格元素介绍
2022/02/28 HTML / CSS
PostgreSQL基于pgrouting的路径规划处理方法
2022/04/18 PostgreSQL