编程 Python

python基于隐马尔可夫模型实现中文拼音输入

Posted in Python onApril 01, 2016

在网上看到一篇关于隐马尔科夫模型的介绍，觉得简直不能再神奇，又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客，无奈大神没给可以运行的代码，只能纯手动网上找到了结巴分词的词库，根据此训练得出隐马尔科夫模型，用维特比算法实现了一个简单的拼音输入法。githuh地址：https://github.com/LiuRoy/Pinyin_Demo

原理简介隐马尔科夫模型

抄一段网上的定义：

隐马尔可夫模型 (Hidden Markov Model) 是一种统计模型，用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数，然后利用这些参数来作进一步的分析。

拼音输入法中可观察的参数就是拼音，隐含的参数就是对应的汉字。

viterbi算法

参考https://zh.wikipedia.org/wiki/维特比算法，思想是动态规划，代码比较简单就不赘述。

代码解释

model定义

代码见model/table.py文件，针对隐马尔科夫的三个概率矩阵，分别设计了三个数据表存储。这样的好处很明显，汉字的转移概率矩阵是一个非常大的稀疏矩阵，直接文件存储占用空间很大，并且加载的时候也只能一次性读入内存，不仅内存占用高而且加载速度慢。此外数据库的join操作非常方便viterbi算法中的概率计算。

数据表定义如下：

class Transition(BaseModel):

  __tablename__ = 'transition'

  id = Column(Integer, primary_key=True)
  previous = Column(String(1), nullable=False)
  behind = Column(String(1), nullable=False)
  probability = Column(Float, nullable=False)


class Emission(BaseModel):

  __tablename__ = 'emission'

  id = Column(Integer, primary_key=True)
  character = Column(String(1), nullable=False)
  pinyin = Column(String(7), nullable=False)
  probability = Column(Float, nullable=False)


class Starting(BaseModel):

  __tablename__ = 'starting'

  id = Column(Integer, primary_key=True)
  character = Column(String(1), nullable=False)
  probability = Column(Float, nullable=False)

模型生成

代码见train/main.py文件，里面的initstarting，initemission，init_transition分别对应于生成隐马尔科夫模型中的初始概率矩阵，发射概率矩阵，转移概率矩阵，并把生成的结果写入sqlite文件中。训练用到的数据集是结巴分词里的词库，因为没有训练长句子，最后运行的结果也证明只能适用于短句输入。

初始概率矩阵

统计初始化概率矩阵，就是找出所有出现在词首的汉字，并统计它们出现在词首的次数，最后根据上述数据算出这些汉字出现在词首的概率，没统计的汉字就认为出现在词首的概率是0，不写入数据库。有一点注意的是为了防止概率计算的时候因为越算越小导致计算机无法比较，所有的概率都进行了自然对数运算。统计的结果如下：

python基于隐马尔可夫模型实现中文拼音输入

转移概率矩阵

此处用到的是最简单的一阶隐马尔科夫模型，即认为在一个句子里，每个汉字的出现只和它前面的的一个汉字有关，虽然简单粗暴，但已经可以满足大部分情况。统计的过程就是找出字典中每个汉字后面出现的汉字集合，并统计概率。因为这个概率矩阵非常的大，逐条数据写入数据库过慢，后续可以优化为批量写入，提高训练效率。结果如下：

python基于隐马尔可夫模型实现中文拼音输入

上图展示的一后面出现概率最高的十个字，也挺符合日常习惯。

发射概率矩阵

通俗点就是统计每个汉字对应的拼音以及在日常情况下的使用概率，已暴举例，它有两个读音：bao和pu，难点就是找bao和pu出现的概率。此处统计用到了pypinyin模块，把字典中的短语转换为拼音后进行概率统计，但是某些地方读音也不完全正确，最后运行的输入法会出现和拼音不匹配的结果。统计结果如下：

python基于隐马尔可夫模型实现中文拼音输入

viterbi实现

代码建input_method/viterbi.py文件，此处会找到最多十个局部最优解，注意是十个局部最优解而不是十个全局最优解，但是这十个解中最优的那个是全局最优解，代码如下：

def viterbi(pinyin_list):
  """
  viterbi算法实现输入法

  Aargs:
    pinyin_list (list): 拼音列表
  """
  start_char = Emission.join_starting(pinyin_list[0])
  V = {char: prob for char, prob in start_char}

  for i in range(1, len(pinyin_list)):
    pinyin = pinyin_list[i]

    prob_map = {}
    for phrase, prob in V.iteritems():
      character = phrase[-1]
      result = Transition.join_emission(pinyin, character)
      if not result:
        continue

      state, new_prob = result
      prob_map[phrase + state] = new_prob + prob

    if prob_map:
      V = prob_map
    else:
      return V
  return V

结果展示

运行input_method/viterbi.py文件，简单的展示一下运行结果：

python基于隐马尔可夫模型实现中文拼音输入

问题统计：

统计字典生成转移矩阵写入数据库的速度太慢，运行一次要将近十分钟。发射概率矩阵数据不准确，总有一些汉字的拼音不匹配。训练集太小，实现的输入法不适用于长句子。

python基于隐马尔可夫模型实现中文拼音输入

- Author -

hebedich

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用Python的Tornado框架实现一个一对一聊天的程序

Apr 25 Python

python中尾递归用法实例详解

Apr 28 Python

python实现基本进制转换的方法

Jul 11 Python

python操作列表的函数使用代码详解

Dec 28 Python

Numpy数组的保存与读取方法

Apr 04 Python

解决nohup执行python程序log文件写入不及时的问题

Jan 14 Python

浅谈python标准库--functools.partial

Mar 13 Python

使用Python制作新型冠状病毒实时疫情图

Jan 28 Python

Django 多对多字段的更新和插入数据实例

Mar 31 Python

python3.7调试的实例方法

Jul 21 Python

Flask缓存静态文件的具体方法

Aug 02 Python

用Python实现一个打字速度测试工具来测试你的手速

May 28 Python

Python使用BeautifulSoup库解析HTML基本使用教程

Mar 31 #Python

Python使用Mechanize模块编写爬虫的要点解析

Mar 31 #Python

Python语言实现获取主机名根据端口杀死进程

Mar 31 #Python

Linux中Python 环境软件包安装步骤

Mar 31 #Python

Python内置的HTTP协议服务器SimpleHTTPServer使用指南

Mar 30 #Python

横向对比分析Python解析XML的四种方式

Mar 30 #Python

python简单实现刷新智联简历

Mar 30 #Python

You might like

咖啡与牛奶

2021/03/03 冲泡冲煮

PHP is_subclass_of函数的一个BUG和解决方法

2014/06/01 PHP

PHP实现的json类实例

2015/07/28 PHP

php实现微信公众号主动推送消息

2015/12/31 PHP

php简单压缩css样式示例

2016/09/22 PHP

Laravel学习教程之路由模块

2017/08/18 PHP

jQuery学习笔记之jQuery选择器的使用

2010/12/22 Javascript

用js实现控件的隐藏及style.visibility的使用

2013/06/14 Javascript

为jQuery添加Webkit的触摸的方法分享

2014/02/02 Javascript

Angular 应用技巧总结

2016/09/14 Javascript

详解jQuery中ajax.load()方法

2017/01/25 Javascript

webpack实现热更新（实施同步刷新）

2017/07/28 Javascript

vue获取DOM元素并设置属性的两种实现方法

2017/09/30 Javascript

在react-router4中进行代码拆分的方法（基于webpack）

2018/03/08 Javascript

使用Angular CLI生成 Angular 5项目教程详解

2018/03/18 Javascript

Vue中使用vux配置代码详解

2018/09/16 Javascript

js使用Promise实现简单的Ajax缓存

2018/11/14 Javascript

vue elementUI使用tabs与导航栏联动

2019/06/21 Javascript

小程序点击图片实现png转jpg

2019/10/22 Javascript

Vue-resource安装过程及使用方法解析

2020/07/21 Javascript

three.js 利用uv和ThreeBSP制作一个快递柜功能

2020/08/18 Javascript

[02:05]2014DOTA2西雅图邀请赛老队长全明星大猜想谁不服就按进显示器

2014/07/08 DOTA

flask入门之文件上传与邮件发送示例

2018/07/18 Python

详解Python 爬取13个旅游城市，告诉你五一大家最爱去哪玩？

2019/05/07 Python

Python shelve模块实现解析

2019/08/28 Python

python 批量修改 labelImg 生成的xml文件的方法

2019/09/09 Python

Python numpy数组转置与轴变换

2019/11/15 Python

Python基于paramunittest模块实现excl参数化

2020/04/26 Python

用python对excel进行操作(读,写,修改)

2020/12/25 Python

JoJo Maman Bébé爱尔兰官网：英国最受欢迎的精品母婴品牌

2020/12/20 全球购物

小学英语教学反思

2014/01/30 职场文书

人代会标语

2014/06/30 职场文书

秋季运动会广播稿（30篇）

2014/09/13 职场文书

2014年后勤工作总结范文

2014/12/16 职场文书

2015年高校保卫处工作总结

2015/07/23 职场文书

Arthas排查Kubernetes中应用频繁挂掉重启异常

2022/02/28 MySQL