编程 Python

Python预测分词的实现

Posted in Python onJune 18, 2021

前言

在机器学习中，我们有了训练集的话，就开始预测。预测是指利用模型对句子进行推断的过程。在中文分词任务中也就是利用模型推断分词序列，同时也叫解码。

在HanLP库中，二元语法的解码由ViterbiSegment分词器提供。本篇将详细介绍ViterbiSegment的使用方式

加载模型

在前篇博文中，我们已经得到了训练的一元，二元语法模型。后续的处理肯定会基于这几个文件来处理。所以，我们首先要做的就是加载这些模型到程序中：

if __name__ == "__main__":
    MODEL_PATH = "123"
    HanLP.Config.CoreDictionaryPath = MODEL_PATH + ".txt"
    HanLP.Config.BiGramDictionaryPath = MODEL_PATH + ".ngram.txt"
    CoreDictionary = SafeJClass("com.hankcs.hanlp.dictionary.CoreDictionary")
    CoreBiGramTableDictionary = SafeJClass('com.hankcs.hanlp.dictionary.CoreBiGramTableDictionary')
    print(CoreDictionary.getTermFrequency("秦机"))
    print(CoreBiGramTableDictionary.getBiFrequency("秦机","的"))

运行之后，效果如下：

Python预测分词的实现

这里我们使用CoreDictionary.getTermFrequency()方法获取”秦机“的频次。使用CoreBiGramTableDictionary.getBiFrequency()方法获取“秦机的”的二元语法频次。

构建词网

在前文中我们介绍了符号“末##末“，代表句子结尾，”始##始“代表句子开头。而词网指的是句子中所有一元语法构成的网状结构。比如MSR词典中的“秦机和科技”这个句子，是给定的一元词典。我们将句子中所有单词找出来。得到如下词网：

[始##始]
[秦机]
[]
[和，和科]
[科技]
[技]
[末##末]

对应的此图如下所示：

Python预测分词的实现

当然，这里博主只是举例说明词网的概念，“和科”并不是一个单词。

下面，我们来通过方法构建词网。具体代码如下：

def build_wordnet(sent, trie):
    JString = JClass('java.lang.String')
    Vertex = JClass('com.hankcs.hanlp.seg.common.Vertex')
    WordNet = JClass('com.hankcs.hanlp.seg.common.WordNet')
    searcher = trie.getSearcher(JString(sent), 0)
    wordnet = WordNet(sent)
    while searcher.next():
        wordnet.add(searcher.begin + 1,
                    Vertex(sent[searcher.begin:searcher.begin + searcher.length], searcher.value, searcher.index))
    # 原子分词，保证图连通
    vertexes = wordnet.getVertexes()
    i = 0
    while i < len(vertexes):
        if len(vertexes[i]) == 0:  # 空白行
            j = i + 1
            for j in range(i + 1, len(vertexes) - 1):  # 寻找第一个非空行 j
                if len(vertexes[j]):
                    break
            wordnet.add(i, Vertex.newPunctuationInstance(sent[i - 1: j - 1]))  # 填充[i, j)之间的空白行
            i = j
        else:
            i += len(vertexes[i][-1].realWord)

    return wordnet


if __name__ == "__main__":
    MODEL_PATH = "123"
    HanLP.Config.CoreDictionaryPath = MODEL_PATH + ".txt"
    HanLP.Config.BiGramDictionaryPath = MODEL_PATH + ".ngram.txt"
    CoreDictionary = SafeJClass("com.hankcs.hanlp.dictionary.CoreDictionary")
    CoreBiGramTableDictionary = SafeJClass('com.hankcs.hanlp.dictionary.CoreBiGramTableDictionary')
    print(build_wordnet("秦机和科技", CoreDictionary.trie))

运行之后，我们会得到与上图归纳差不多的内容：

Python预测分词的实现

维特比算法

如果现在我们赋予上述词图每条边以二元语法的概率作为距离，那么如何求解词图上的最短路径就是一个关键问题。

假设文本长度为n，则一共有2（n-1次方）种切分方式，因为每2个字符间都有2种选择：切或者不切，时间复杂度就为O(2(n-1次方))。显然不切实际，这里我们考虑使用维特比算法。

维特比算法原理：它分为前向和后向两个步骤。

前向：由起点出发从前往后遍历节点，更新从起点到该节点的最下花费以及前驱指针
后向：由终点出发从后往前回溯前驱指针，取得最短路径

维特比算法用python代码的实现如下：

def viterbi(wordnet):
    nodes = wordnet.getVertexes()
    # 前向遍历
    for i in range(0, len(nodes) - 1):
        for node in nodes[i]:
            for to in nodes[i + len(node.realWord)]:
                # 根据距离公式计算节点距离，并维护最短路径上的前驱指针from
                to.updateFrom(node)
    # 后向回溯
    # 最短路径
    path = []
    # 从终点回溯
    f = nodes[len(nodes) - 1].getFirst()
    while f:
        path.insert(0, f)
        # 按前驱指针from回溯
        f = f.getFrom()
    return [v.realWord for v in path]

实战

现在我们来做个测试，我们在msr_test_gold.utf8上训练模型，为秦机和科技常见词图，最后运行维特比算法。详细代码如下所示：

if __name__ == "__main__":
    MODEL_PATH = "123"
    corpus_path = r"E:\ProgramData\Anaconda3\Lib\site-packages\pyhanlp\static\data\test\icwb2-data\gold\msr_test_gold.utf8"
    train_model(corpus_path, MODEL_PATH)
    HanLP.Config.CoreDictionaryPath = MODEL_PATH + ".txt"
    HanLP.Config.BiGramDictionaryPath = MODEL_PATH + ".ngram.txt"
    CoreDictionary = SafeJClass("com.hankcs.hanlp.dictionary.CoreDictionary")
    CoreBiGramTableDictionary = SafeJClass('com.hankcs.hanlp.dictionary.CoreBiGramTableDictionary')
    ViterbiSegment = JClass('com.hankcs.hanlp.seg.Viterbi.ViterbiSegment')
    MODEL_PATH = "123"
    HanLP.Config.CoreDictionaryPath = MODEL_PATH + ".txt"
    HanLP.Config.BiGramDictionaryPath = MODEL_PATH + ".ngram.txt"
    sent = "秦机和科技"
    wordnet = build_wordnet(sent, CoreDictionary.trie)
    print(viterbi(wordnet))

Python预测分词的实现

有的人可能有疑问，因为二元模型里，本身就存在秦机和
科技这个样本。这么做不是多此一举吗？那好，我们替换sent的文本内容为“北京和广州”，这个样本可不在模型中。运行之后，效果如下：

Python预测分词的实现

我们发现依然能正确的分词为[北京和广州]，这就是二元语法模型的泛化能力。至此我们走通了语料标注，训练模型，预测分词结果的完整步骤。

到此这篇关于Python预测分词的实现的文章就介绍到这了,更多相关Python预测分词内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python预测分词的实现

- Author -

一天一篇Python库

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python开发利器之ulipad的使用实践

Mar 16 Python

Python字符串格式化的方法（两种）

Sep 19 Python

Python探索之创建二叉树

Oct 25 Python

Numpy数组的保存与读取方法

Apr 04 Python

Python3.6通过自带的urllib通过get或post方法请求url的实例

May 10 Python

使用python实现简单五子棋游戏

Jun 18 Python

python3实现猜数字游戏

Dec 07 Python

使用Python实现跳一跳自动跳跃功能

Jul 10 Python

Python类中的魔法方法之 __slots__原理解析

Aug 26 Python

python实现翻译word表格小程序

Feb 27 Python

你需要学会的8个Python列表技巧

Jun 24 Python

python Zmail模块简介与使用示例

Dec 19 Python

学会Python数据可视化必须尝试这7个库

python tqdm用法及实例详解

Jun 16 #Python

python使用pymysql模块操作MySQL

分析Python感知线程状态的解决方案之Event与信号量

Jun 16 #Python

Python中else的三种使用场景

Jun 16 #Python

Python基础之条件语句详解

教你怎么用Python实现GIF动图的提取及合成

You might like

Windows Apache2.2.11及Php5.2.9-1的安装与配置方法

2009/06/08 PHP

开启CURL扩展，让服务器支持PHP curl函数(远程采集)

2011/03/19 PHP

使用PHP破解防盗链图片的一个简单方法

2014/06/07 PHP

php广告加载类用法实例

2014/09/23 PHP

如何使用jQuery+PHP+MySQL来实现一个在线测试项目

2015/04/26 PHP

CodeIgniter多语言实现方法详解

2016/01/20 PHP

关于php 高并发解决的一点思路

2017/04/16 PHP

PHP实现用户登录的案例代码

2018/05/10 PHP

PHP连接MySQL数据库并以json格式输出

2018/05/21 PHP

jQuery AJAX 调用WebService实现代码

2010/03/24 Javascript

我的NodeJs学习小结（一）

2014/07/06 NodeJs

jquery 判断selection range 是否在容器中的简单实例

2016/08/02 Javascript

Vue中使用vux的配置详解

2017/05/05 Javascript

vue使用ajax获取后台数据进行显示的示例

2018/08/09 Javascript

详解如何配置vue-cli3.0的vue.config.js

2018/08/23 Javascript

基于webpack4+vue-cli3项目实现换肤功能

2019/07/17 Javascript

Javascript幻灯片播放功能实现过程解析

2020/05/07 Javascript

详解Vue中Axios封装API接口的思路及方法

2020/10/10 Javascript

[37:37]DAC2018 4.4 淘汰赛 Optic vs Mineski 第二场

2018/04/05 DOTA

[01:04:14]VP vs TNC 2018国际邀请赛小组赛BO2 第二场 8.17

2018/08/20 DOTA

Python的Twisted框架中使用Deferred对象来管理回调函数

2016/05/25 Python

用python找出那些被“标记”的照片

2017/04/20 Python

人机交互程序 python实现人机对话

2017/11/14 Python

使用python socket分发大文件的实现方法

2019/07/08 Python

基于MATLAB和Python实现MFCC特征参数提取

2019/08/13 Python

关于python pycharm中输出的内容不全的解决办法

2020/01/10 Python

python实现数字炸弹游戏程序

2020/07/17 Python

《小白兔和小灰兔》教学反思

2014/02/18 职场文书

会计与审计专业自荐信范文

2014/03/15 职场文书

《鸿门宴》教学反思

2014/04/22 职场文书

2014年残联工作总结

2014/11/21 职场文书

2016年心理学教育培训学习心得体会

2016/01/12 职场文书

高中语文教学反思范文

2016/02/16 职场文书

《悬崖边的树》读后感2篇

2019/12/02 职场文书

pytorch 如何使用amp进行混合精度训练

2021/05/24 Python

Axios代理配置及封装响应拦截处理方式

2022/04/07 Vue.js