编程 Python

python em算法的实现

Posted in Python onOctober 03, 2020

'''
数据集：伪造数据集（两个高斯分布混合）
数据集长度：1000
------------------------------
运行结果：
----------------------------
the Parameters set is:
alpha0:0.3, mu0:0.7, sigmod0:-2.0, alpha1:0.5, mu1:0.5, sigmod1:1.0
----------------------------
the Parameters predict is:
alpha0:0.4, mu0:0.6, sigmod0:-1.7, alpha1:0.7, mu1:0.7, sigmod1:0.9
----------------------------
'''

import numpy as np
import random
import math
import time

def loadData(mu0, sigma0, mu1, sigma1, alpha0, alpha1):
  '''
  初始化数据集
  这里通过服从高斯分布的随机函数来伪造数据集
  :param mu0: 高斯0的均值
  :param sigma0: 高斯0的方差
  :param mu1: 高斯1的均值
  :param sigma1: 高斯1的方差
  :param alpha0: 高斯0的系数
  :param alpha1: 高斯1的系数
  :return: 混合了两个高斯分布的数据
  '''
  # 定义数据集长度为1000
  length = 1000

  # 初始化第一个高斯分布，生成数据，数据长度为length * alpha系数，以此来
  # 满足alpha的作用
  data0 = np.random.normal(mu0, sigma0, int(length * alpha0))
  # 第二个高斯分布的数据
  data1 = np.random.normal(mu1, sigma1, int(length * alpha1))

  # 初始化总数据集
  # 两个高斯分布的数据混合后会放在该数据集中返回
  dataSet = []
  # 将第一个数据集的内容添加进去
  dataSet.extend(data0)
  # 添加第二个数据集的数据
  dataSet.extend(data1)
  # 对总的数据集进行打乱（其实不打乱也没事，只不过打乱一下直观上让人感觉已经混合了
  # 读者可以将下面这句话屏蔽以后看看效果是否有差别）
  random.shuffle(dataSet)

  #返回伪造好的数据集
  return dataSet

def calcGauss(dataSetArr, mu, sigmod):
  '''
  根据高斯密度函数计算值
  依据：“9.3.1 高斯混合模型” 式9.25
  注：在公式中y是一个实数，但是在EM算法中(见算法9.2的E步)，需要对每个j
  都求一次yjk，在本实例中有1000个可观测数据，因此需要计算1000次。考虑到
  在E步时进行1000次高斯计算，程序上比较不简洁，因此这里的y是向量，在numpy
  的exp中如果exp内部值为向量，则对向量中每个值进行exp，输出仍是向量的形式。
  所以使用向量的形式1次计算即可将所有计算结果得出，程序上较为简洁
  :param dataSetArr: 可观测数据集
  :param mu: 均值
  :param sigmod: 方差
  :return: 整个可观测数据集的高斯分布密度（向量形式）
  '''
  # 计算过程就是依据式9.25写的，没有别的花样
  result = (1 / (math.sqrt(2*math.pi)*sigmod**2)) * np.exp(-1 * (dataSetArr-mu) * (dataSetArr-mu) / (2*sigmod**2))
  # 返回结果
  return result


def E_step(dataSetArr, alpha0, mu0, sigmod0, alpha1, mu1, sigmod1):
  '''
  EM算法中的E步
  依据当前模型参数，计算分模型k对观数据y的响应度
  :param dataSetArr: 可观测数据y
  :param alpha0: 高斯模型0的系数
  :param mu0: 高斯模型0的均值
  :param sigmod0: 高斯模型0的方差
  :param alpha1: 高斯模型1的系数
  :param mu1: 高斯模型1的均值
  :param sigmod1: 高斯模型1的方差
  :return: 两个模型各自的响应度
  '''
  # 计算y0的响应度
  # 先计算模型0的响应度的分子
  gamma0 = alpha0 * calcGauss(dataSetArr, mu0, sigmod0)
  # 模型1响应度的分子
  gamma1 = alpha1 * calcGauss(dataSetArr, mu1, sigmod1)

  # 两者相加为E步中的分布
  sum = gamma0 + gamma1
  # 各自相除，得到两个模型的响应度
  gamma0 = gamma0 / sum
  gamma1 = gamma1 / sum

  # 返回两个模型响应度
  return gamma0, gamma1

def M_step(muo, mu1, gamma0, gamma1, dataSetArr):
  # 依据算法9.2计算各个值
  # 这里没什么花样，对照书本公式看看这里就好了
  mu0_new = np.dot(gamma0, dataSetArr) / np.sum(gamma0)
  mu1_new = np.dot(gamma1, dataSetArr) / np.sum(gamma1)

  sigmod0_new = math.sqrt(np.dot(gamma0, (dataSetArr - muo)**2) / np.sum(gamma0))
  sigmod1_new = math.sqrt(np.dot(gamma1, (dataSetArr - mu1)**2) / np.sum(gamma1))

  alpha0_new = np.sum(gamma0) / len(gamma0)
  alpha1_new = np.sum(gamma1) / len(gamma1)

  # 将更新的值返回
  return mu0_new, mu1_new, sigmod0_new, sigmod1_new, alpha0_new, alpha1_new


def EM_Train(dataSetList, iter=500):
  '''
  根据EM算法进行参数估计
  算法依据“9.3.2 高斯混合模型参数估计的EM算法” 算法9.2
  :param dataSetList:数据集（可观测数据）
  :param iter: 迭代次数
  :return: 估计的参数
  '''
  # 将可观测数据y转换为数组形式，主要是为了方便后续运算
  dataSetArr = np.array(dataSetList)

  # 步骤1：对参数取初值，开始迭代
  alpha0 = 0.5
  mu0 = 0
  sigmod0 = 1
  alpha1 = 0.5
  mu1 = 1
  sigmod1 = 1

  # 开始迭代
  step = 0
  while (step < iter):
    # 每次进入一次迭代后迭代次数加1
    step += 1
    # 步骤2：E步：依据当前模型参数，计算分模型k对观测数据y的响应度
    gamma0, gamma1 = E_step(dataSetArr, alpha0, mu0, sigmod0, alpha1, mu1, sigmod1)
    # 步骤3：M步
    mu0, mu1, sigmod0, sigmod1, alpha0, alpha1 = M_step(mu0, mu1, gamma0, gamma1, dataSetArr)

  # 迭代结束后将更新后的各参数返回
  return alpha0, mu0, sigmod0, alpha1, mu1, sigmod1


if __name__ == '__main__':
  start = time.time()

  # 设置两个高斯模型进行混合，这里是初始化两个模型各自的参数
  # 见“9.3 EM算法在高斯混合模型学习中的应用”
  # alpha是“9.3.1 高斯混合模型” 定义9.2中的系数α
  # mu0是均值μ
  # sigmod是方差σ
  # 在设置上两个alpha的和必须为1，其他没有什么具体要求，符合高斯定义就可以
  alpha0 = 0.3 # 系数α
  mu0 = -2 # 均值μ
  sigmod0 = 0.5 # 方差σ

  alpha1 = 0.7 # 系数α
  mu1 = 0.5 # 均值μ
  sigmod1 = 1 # 方差σ

  # 初始化数据集
  dataSetList = loadData(mu0, sigmod0, mu1, sigmod1, alpha0, alpha1)

  #打印设置的参数
  print('---------------------------')
  print('the Parameters set is:')
  print('alpha0:%.1f, mu0:%.1f, sigmod0:%.1f, alpha1:%.1f, mu1:%.1f, sigmod1:%.1f' % (
    alpha0, alpha1, mu0, mu1, sigmod0, sigmod1
  ))

  # 开始EM算法，进行参数估计
  alpha0, mu0, sigmod0, alpha1, mu1, sigmod1 = EM_Train(dataSetList)

  # 打印参数预测结果
  print('----------------------------')
  print('the Parameters predict is:')
  print('alpha0:%.1f, mu0:%.1f, sigmod0:%.1f, alpha1:%.1f, mu1:%.1f, sigmod1:%.1f' % (
    alpha0, alpha1, mu0, mu1, sigmod0, sigmod1
  ))

  # 打印时间
  print('----------------------------')
  print('time span:', time.time() - start)

以上就是python em算法的实现的详细内容，更多关于python em算法的资料请关注三水点靠木其它相关文章！

python em算法的实现

- Author -

返回主页chenxiangzhen

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python求crc32值的方法

Oct 05 Python

Python实现从URL地址提取文件名的方法

May 15 Python

python安装PIL模块时Unable to find vcvarsall.bat错误的解决方法

Sep 19 Python

Python 操作MySQL详解及实例

Apr 30 Python

django基础之数据库操作方法(详解)

May 24 Python

Python中Proxypool库的安装与配置

Oct 19 Python

Python实现的栈、队列、文件目录遍历操作示例

May 06 Python

Python3网络爬虫中的requests高级用法详解

Jun 18 Python

Python监控服务器实用工具psutil使用解析

Dec 19 Python

Python数据可视化处理库PyEcharts柱状图,饼图,线性图,词云图常用实例详解

Feb 10 Python

Django高并发负载均衡实现原理详解

Apr 04 Python

什么是Python变量作用域

Jun 03 Python

浅析Python中字符串的intern机制

Oct 03 #Python

Python实现AES加密，解密的两种方法

Oct 03 #Python

python实现AdaBoost算法的示例

Oct 03 #Python

Django创建一个后台的基本步骤记录

Oct 02 #Python

Python中qutip用法示例详解

Oct 02 #Python

如何利用Python给自己的头像加一个小国旗（小月饼）

Oct 02 #Python

Python通过fnmatch模块实现文件名匹配

Sep 30 #Python

You might like

PHP Session_Regenerate_ID函数双释放内存破坏漏洞

2011/01/27 PHP

PHP编程文件处理类SplFileObject和SplFileInfo用法实例分析

2017/07/22 PHP

PHP如何防止XSS攻击与XSS攻击原理的讲解

2019/03/22 PHP

laravel5.1框架基础之Blade模板继承简单使用方法分析

2019/09/05 PHP

js function定义函数的几种不错方法

2014/02/27 Javascript

Javascript的setTimeout()使用闭包特性时需要注意的问题

2014/09/23 Javascript

JavaScript中具名函数的多种调用方式总结

2014/11/08 Javascript

node.js中的emitter.emit方法使用说明

2014/12/10 Javascript

使用jQuery简单实现模拟浏览器搜索功能

2014/12/21 Javascript

基于Css3和JQuery实现打字机效果

2015/08/11 Javascript

js实现遍历含有input的table实例

2015/12/07 Javascript

谈一谈js中的执行环境及作用域

2016/03/30 Javascript

JS表格组件BootstrapTable行内编辑解决方案x-editable

2016/09/01 Javascript

整理关于Bootstrap表单的慕课笔记

2017/03/29 Javascript

vue.js 获取当前自定义属性值

2017/06/01 Javascript

jQuery+vue.js实现的九宫格拼图游戏完整实例【附源码下载】

2017/09/12 jQuery

详解webpack编译多页面vue项目的配置问题

2017/12/11 Javascript

Node.js 使用AngularJS的方法示例

2018/05/11 Javascript

在Windows8上的搭建Python和Django环境

2014/07/03 Python

深入解析Python中的变量和赋值运算符

2015/10/12 Python

python常见的格式化输出小结

2016/12/15 Python

python中模块的__all__属性详解

2017/10/26 Python

PyCharm设置SSH远程调试的方法

2018/07/17 Python

详解Python中打乱列表顺序random.shuffle()的使用方法

2019/11/11 Python

python统计字符串中字母出现次数代码实例

2020/03/02 Python

Python如何进行时间处理

2020/08/06 Python

python selenium xpath定位操作

2020/09/01 Python

某公司Java工程师面试题笔试题

2016/03/27 面试题

C语言编程题

2015/03/09 面试题

人事主管岗位职责

2014/01/30 职场文书

放飞中国梦演讲稿

2014/04/23 职场文书

优秀家长自荐材料

2014/08/26 职场文书

校园运动会广播稿

2014/10/06 职场文书

2015元旦节寄语

2014/12/08 职场文书

优秀员工推荐材料

2014/12/20 职场文书

详解Mysq MVCC多版本的并发控制

2022/04/29 MySQL