python em算法的实现


Posted in Python onOctober 03, 2020
'''
数据集:伪造数据集(两个高斯分布混合)
数据集长度:1000
------------------------------
运行结果:
----------------------------
the Parameters set is:
alpha0:0.3, mu0:0.7, sigmod0:-2.0, alpha1:0.5, mu1:0.5, sigmod1:1.0
----------------------------
the Parameters predict is:
alpha0:0.4, mu0:0.6, sigmod0:-1.7, alpha1:0.7, mu1:0.7, sigmod1:0.9
----------------------------
'''

import numpy as np
import random
import math
import time

def loadData(mu0, sigma0, mu1, sigma1, alpha0, alpha1):
  '''
  初始化数据集
  这里通过服从高斯分布的随机函数来伪造数据集
  :param mu0: 高斯0的均值
  :param sigma0: 高斯0的方差
  :param mu1: 高斯1的均值
  :param sigma1: 高斯1的方差
  :param alpha0: 高斯0的系数
  :param alpha1: 高斯1的系数
  :return: 混合了两个高斯分布的数据
  '''
  # 定义数据集长度为1000
  length = 1000

  # 初始化第一个高斯分布,生成数据,数据长度为length * alpha系数,以此来
  # 满足alpha的作用
  data0 = np.random.normal(mu0, sigma0, int(length * alpha0))
  # 第二个高斯分布的数据
  data1 = np.random.normal(mu1, sigma1, int(length * alpha1))

  # 初始化总数据集
  # 两个高斯分布的数据混合后会放在该数据集中返回
  dataSet = []
  # 将第一个数据集的内容添加进去
  dataSet.extend(data0)
  # 添加第二个数据集的数据
  dataSet.extend(data1)
  # 对总的数据集进行打乱(其实不打乱也没事,只不过打乱一下直观上让人感觉已经混合了
  # 读者可以将下面这句话屏蔽以后看看效果是否有差别)
  random.shuffle(dataSet)

  #返回伪造好的数据集
  return dataSet

def calcGauss(dataSetArr, mu, sigmod):
  '''
  根据高斯密度函数计算值
  依据:“9.3.1 高斯混合模型” 式9.25
  注:在公式中y是一个实数,但是在EM算法中(见算法9.2的E步),需要对每个j
  都求一次yjk,在本实例中有1000个可观测数据,因此需要计算1000次。考虑到
  在E步时进行1000次高斯计算,程序上比较不简洁,因此这里的y是向量,在numpy
  的exp中如果exp内部值为向量,则对向量中每个值进行exp,输出仍是向量的形式。
  所以使用向量的形式1次计算即可将所有计算结果得出,程序上较为简洁
  :param dataSetArr: 可观测数据集
  :param mu: 均值
  :param sigmod: 方差
  :return: 整个可观测数据集的高斯分布密度(向量形式)
  '''
  # 计算过程就是依据式9.25写的,没有别的花样
  result = (1 / (math.sqrt(2*math.pi)*sigmod**2)) * np.exp(-1 * (dataSetArr-mu) * (dataSetArr-mu) / (2*sigmod**2))
  # 返回结果
  return result


def E_step(dataSetArr, alpha0, mu0, sigmod0, alpha1, mu1, sigmod1):
  '''
  EM算法中的E步
  依据当前模型参数,计算分模型k对观数据y的响应度
  :param dataSetArr: 可观测数据y
  :param alpha0: 高斯模型0的系数
  :param mu0: 高斯模型0的均值
  :param sigmod0: 高斯模型0的方差
  :param alpha1: 高斯模型1的系数
  :param mu1: 高斯模型1的均值
  :param sigmod1: 高斯模型1的方差
  :return: 两个模型各自的响应度
  '''
  # 计算y0的响应度
  # 先计算模型0的响应度的分子
  gamma0 = alpha0 * calcGauss(dataSetArr, mu0, sigmod0)
  # 模型1响应度的分子
  gamma1 = alpha1 * calcGauss(dataSetArr, mu1, sigmod1)

  # 两者相加为E步中的分布
  sum = gamma0 + gamma1
  # 各自相除,得到两个模型的响应度
  gamma0 = gamma0 / sum
  gamma1 = gamma1 / sum

  # 返回两个模型响应度
  return gamma0, gamma1

def M_step(muo, mu1, gamma0, gamma1, dataSetArr):
  # 依据算法9.2计算各个值
  # 这里没什么花样,对照书本公式看看这里就好了
  mu0_new = np.dot(gamma0, dataSetArr) / np.sum(gamma0)
  mu1_new = np.dot(gamma1, dataSetArr) / np.sum(gamma1)

  sigmod0_new = math.sqrt(np.dot(gamma0, (dataSetArr - muo)**2) / np.sum(gamma0))
  sigmod1_new = math.sqrt(np.dot(gamma1, (dataSetArr - mu1)**2) / np.sum(gamma1))

  alpha0_new = np.sum(gamma0) / len(gamma0)
  alpha1_new = np.sum(gamma1) / len(gamma1)

  # 将更新的值返回
  return mu0_new, mu1_new, sigmod0_new, sigmod1_new, alpha0_new, alpha1_new


def EM_Train(dataSetList, iter=500):
  '''
  根据EM算法进行参数估计
  算法依据“9.3.2 高斯混合模型参数估计的EM算法” 算法9.2
  :param dataSetList:数据集(可观测数据)
  :param iter: 迭代次数
  :return: 估计的参数
  '''
  # 将可观测数据y转换为数组形式,主要是为了方便后续运算
  dataSetArr = np.array(dataSetList)

  # 步骤1:对参数取初值,开始迭代
  alpha0 = 0.5
  mu0 = 0
  sigmod0 = 1
  alpha1 = 0.5
  mu1 = 1
  sigmod1 = 1

  # 开始迭代
  step = 0
  while (step < iter):
    # 每次进入一次迭代后迭代次数加1
    step += 1
    # 步骤2:E步:依据当前模型参数,计算分模型k对观测数据y的响应度
    gamma0, gamma1 = E_step(dataSetArr, alpha0, mu0, sigmod0, alpha1, mu1, sigmod1)
    # 步骤3:M步
    mu0, mu1, sigmod0, sigmod1, alpha0, alpha1 = M_step(mu0, mu1, gamma0, gamma1, dataSetArr)

  # 迭代结束后将更新后的各参数返回
  return alpha0, mu0, sigmod0, alpha1, mu1, sigmod1


if __name__ == '__main__':
  start = time.time()

  # 设置两个高斯模型进行混合,这里是初始化两个模型各自的参数
  # 见“9.3 EM算法在高斯混合模型学习中的应用”
  # alpha是“9.3.1 高斯混合模型” 定义9.2中的系数α
  # mu0是均值μ
  # sigmod是方差σ
  # 在设置上两个alpha的和必须为1,其他没有什么具体要求,符合高斯定义就可以
  alpha0 = 0.3 # 系数α
  mu0 = -2 # 均值μ
  sigmod0 = 0.5 # 方差σ

  alpha1 = 0.7 # 系数α
  mu1 = 0.5 # 均值μ
  sigmod1 = 1 # 方差σ

  # 初始化数据集
  dataSetList = loadData(mu0, sigmod0, mu1, sigmod1, alpha0, alpha1)

  #打印设置的参数
  print('---------------------------')
  print('the Parameters set is:')
  print('alpha0:%.1f, mu0:%.1f, sigmod0:%.1f, alpha1:%.1f, mu1:%.1f, sigmod1:%.1f' % (
    alpha0, alpha1, mu0, mu1, sigmod0, sigmod1
  ))

  # 开始EM算法,进行参数估计
  alpha0, mu0, sigmod0, alpha1, mu1, sigmod1 = EM_Train(dataSetList)

  # 打印参数预测结果
  print('----------------------------')
  print('the Parameters predict is:')
  print('alpha0:%.1f, mu0:%.1f, sigmod0:%.1f, alpha1:%.1f, mu1:%.1f, sigmod1:%.1f' % (
    alpha0, alpha1, mu0, mu1, sigmod0, sigmod1
  ))

  # 打印时间
  print('----------------------------')
  print('time span:', time.time() - start)

以上就是python em算法的实现的详细内容,更多关于python em算法的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
解决python升级引起的pip执行错误的问题
Jun 12 Python
Python/ArcPy遍历指定目录中的MDB文件方法
Oct 27 Python
Python实现合并两个有序链表的方法示例
Jan 31 Python
Python3.5 Pandas模块之DataFrame用法实例分析
Apr 23 Python
python腾讯语音合成实现过程解析
Aug 01 Python
Django中使用haystack+whoosh实现搜索功能
Oct 08 Python
Django 简单实现分页与搜索功能的示例代码
Nov 07 Python
python的time模块和datetime模块实例解析
Nov 29 Python
Python3加密解密库Crypto的RSA加解密和签名/验签实现方法实例
Feb 11 Python
如何解决pycharm调试报错的问题
Aug 06 Python
python读取excel数据并且画图的实现示例
Feb 08 Python
Elasticsearch 批量操作
Apr 19 Python
浅析Python中字符串的intern机制
Oct 03 #Python
Python实现AES加密,解密的两种方法
Oct 03 #Python
python实现AdaBoost算法的示例
Oct 03 #Python
Django创建一个后台的基本步骤记录
Oct 02 #Python
Python中qutip用法示例详解
Oct 02 #Python
如何利用Python给自己的头像加一个小国旗(小月饼)
Oct 02 #Python
Python通过fnmatch模块实现文件名匹配
Sep 30 #Python
You might like
php 在线导入mysql大数据程序
2015/06/11 PHP
Yii2框架dropDownList下拉菜单用法实例分析
2016/07/18 PHP
php curl中gzip的压缩性能测试实例分析
2016/11/08 PHP
Zend Framework上传文件重命名的实现方法
2016/11/25 PHP
php实现生成带二维码图片并强制下载功能
2018/02/24 PHP
PHP code 验证码生成类定义和简单使用示例
2020/05/27 PHP
JavaScript Konami Code 实现代码
2009/07/29 Javascript
js函数调用常用方法详解
2012/12/03 Javascript
jquery 提交值不为空的元素示例代码
2013/05/10 Javascript
异步安全加载javascript文件的方法
2015/07/21 Javascript
纯js模拟div层弹性运动的方法
2015/07/27 Javascript
jquery拖拽效果完整实例(附demo源码下载)
2016/01/14 Javascript
node.js微信公众平台开发教程
2016/03/04 Javascript
javascript url几种编码方式详解
2016/06/06 Javascript
js实现文字跑马灯效果
2017/02/23 Javascript
深入nodejs中流(stream)的理解
2017/03/27 NodeJs
微信小程序 检查接口状态实例详解
2017/06/23 Javascript
js实现rem自动匹配计算font-size的示例
2017/11/18 Javascript
Swiper 4.x 使用方法(移动端网站的内容触摸滑动)
2018/05/17 Javascript
angular6 利用 ngContentOutlet 实现组件位置交换(重排)
2018/11/02 Javascript
vuex存值与取值的实例
2019/11/06 Javascript
Echarts.js无法引入问题解决方案
2020/10/30 Javascript
Python 的 with 语句详解
2014/06/13 Python
python正则表达式re模块详解
2014/06/25 Python
Python的Django框架中的数据库配置指南
2015/07/17 Python
Python的dict字典结构操作方法学习笔记
2016/05/07 Python
Python中字符串的修改及传参详解
2016/11/30 Python
python利用Guetzli批量压缩图片
2017/03/23 Python
python 装饰器重要在哪
2021/02/14 Python
利用CSS3动画实现圆圈由小变大向外扩散的效果实例
2018/09/10 HTML / CSS
css3实现文字首尾衔接跑马灯的示例代码
2020/10/16 HTML / CSS
BrandAlley英国:法国折扣奢侈品网上零售商
2017/07/03 全球购物
驾驶员安全责任书范本
2014/07/24 职场文书
公司领导班子对照检查材料
2014/09/24 职场文书
刑事申诉状范文
2015/05/20 职场文书
vue 实现弹窗关闭后刷新效果
2022/04/08 Vue.js