Python 最大概率法进行汉语切分的方法


Posted in Python onDecember 14, 2018

要求:

1 采用基于语言模型的最大概率法进行汉语切分。

2 切分算法中的语言模型可以采用n-gram语言模型,要求n >1,并至少采用一种平滑方法;

代码:

废话不说,代码是最好的语言

import re
import math

MAX_SPLITLEN = 4#最大切分长度
corpus_lib = ''#corpus:语料


def init_corpus_lib(path): # 初始化语料库
 global corpus_lib
 with open(path, 'r', encoding='utf-8', errors='ignore') as file:
  corpus_lib = str(file.readlines())


def get_candidate_words(sen):
 global MAX_SPLITLEN
 global corpus_lib
 candidate_words = []
 for sp in range(len(sen)):
  w = sen[sp]
  candidate_words.append([w, sp, sp]) # 有些字可能不在语料库中,把它作为单个字加进去
  for mp in range(1, MAX_SPLITLEN): # 判断1 ~ MAX_SPLITLEN-1这3种词中是否有候选词.
   if sp + mp < len(sen):
    w += sen[sp + mp]
    if w in corpus_lib:
     candidate_words.append([w, sp, sp + mp]) # 存储词,初始位置,结束位置
 print('候选词有:%s' % candidate_words)
 return candidate_words


def segment_sentence(sen): # sen:sentence即要切分的句子
 global MAX_SPLITLEN
 global corpus_lib

 candidate_words = get_candidate_words(sen)
 count = 0
 for word in candidate_words:
  if count > 1000: # 为防止对长句子解析时间过长,放弃一部分精度追求效率
   break
  if word[1] == 0 and word[2] != len(sen) - 1: # 如果句子中开头的部分,还没有拼凑成整个词序列的话
   no_whitespace_sen = ''.join(word[0].split())
   for word in candidate_words: # word比如:['今天', 1, 2],1是今在句子中的位置,2是天的位置
    if word[1] == 0 and word[2] != len(sen) - 1:
     end = word[2]
     for later_word in candidate_words:
      if later_word[1] == end + 1: # 如果later_word是当前词的后续词,那么拼接到当前词上
       word_seq = [word[0] + ' ' + later_word[0], word[1], later_word[2]] # 合并
       candidate_words.append(word_seq)
       # print('拼出了新词:%s' % word_seq)
       count += 1
     candidate_words.remove(word) # 遍历完后,这个开头部分短语要移除掉,不然下次遍历还会对它做无用功
 print('所有结果词序列有:%s' % candidate_words)

 word_segment_res_list = [] # 存储分词结果序列
 for seque in candidate_words:
  if seque[1] == 0 and seque[2] == len(sen) - 1:
   word_segment_res_list.append(seque[0])
 print('获得的所有分词结果是:')
 print(word_segment_res_list)
 return word_segment_res_list


# P(w1,w2,...,wn) = P(w1/start)P(w2/w1)P(w3/w2).....P(Wn/Wn-1)
# 下标从0开始: = P(w0/start)P(w1/w0)...P(Wn-1/Wn-2)
def calculate_word_sequence_probability(sequence):
 global corpus_lib
 word_list = sequence.split(' ')
 total_word_num = len(corpus_lib)
 prob_total = 0.0
 word_start = word_list[0]
 # 计算第一个词出现的概率P(w1/start)=Count(w1)/total
 count = len(re.findall(r'\s' + word_start + r'\s', corpus_lib)) + 1 # 加1平滑
 prob_total += math.log(count / total_word_num)
 # 计算P(w2/w1)P(w3/w2).....P(Wn/Wn-1)
 for i in range(len(word_list) - 1): # 0~ n-2
  prev_w = word_list[i]
  later_w = word_list[i + 1]
  count = len(re.findall(r'\s' + prev_w + r'\s' + later_w + r'\s', corpus_lib))
  count += 1 # 做一次加1平滑
  prob_total += math.log(count / total_word_num)
 print('%s的概率是:' % sequence)
 print(prob_total)
 return prob_total


def calculate_biggest_prob(word_segm_res):
 best_w_s = ''
 max_prob = 0.0
 for w_s in word_segm_res: # 改进:先只计算词的数目<=0.6 句子字数的,如果不行再计算全部的概率
  no_whitespace_sen = ''.join(w_s.split())
  zi_shu = len(no_whitespace_sen)
  if len(w_s.split(' ')) <= zi_shu * 0.6:
   prob = calculate_word_sequence_probability(w_s)
   if max_prob == 0 or max_prob < prob:
    best_w_s = w_s
    max_prob = prob
  if best_w_s == '': # 如果上面的0.6不行的话,再计算全部的概率
   prob = calculate_word_sequence_probability(w_s)
   if max_prob == 0 or max_prob < prob:
    best_w_s = w_s
    max_prob = prob
 print('最好的分词结果(概率为%s)是 :%s' % (math.pow(math.e, max_prob), best_w_s))
 return best_w_s


def split_middle(sen_to_segment): # 从中间切分一下,返回中间切分的位置
 length = len(sen_to_segment)
 start = int(length / 2) - 2
 end = start + 5
 # 对中间的5个字进行切分,然后找第一个空格,按此把整个句子一分为二
 middle_part = sen_to_segment[start:end]
 best_segm_res = calculate_biggest_prob(segment_sentence(middle_part))
 return start + best_segm_res.index(' ') - 1


def split_mark_and_too_long_sent(sentences): # 按任意标点符号划分句子,对每个短句进行分词
 sen_list = sentences.splitlines()
 print(sen_list)

 out_text = ''
 for line in sen_list:
  sen_to_segment = '' #
  for single_char in line:
   if single_char.isalpha(): # isalpha()表示是否是单词,如果是单词的为True,标点符号等为False
    sen_to_segment += single_char
   elif not single_char.isalpha() and sen_to_segment == '': # 如果single_char是标点符号、数字,且前面没有待分词的句子
    out_text += single_char + ' '
    print(single_char)

   else: # 如果single_char是标点符号、数字,
    # 如果句子太长,先从中间切分一下
    if len(sen_to_segment) >= 20:
     middle = split_middle(sen_to_segment)
     left_half = sen_to_segment[0:middle + 1] # 左半部分
     best_segm_res = calculate_biggest_prob(segment_sentence(left_half))
     out_text += best_segm_res + ' '
     sen_to_segment = sen_to_segment[middle + 1:len(sen_to_segment)] # 右半部分交给后面几行处理

    best_segm_res = calculate_biggest_prob(segment_sentence(sen_to_segment))
    print(single_char)
    sen_to_segment = ''
    out_text += best_segm_res + ' ' + single_char + ' ' # 标点两侧也用空格隔起来

  # 如果这行句子最后还有一些文字没有切分的话
  if sen_to_segment != '':
   best_segm_res = calculate_biggest_prob(segment_sentence(sen_to_segment))
   out_text += best_segm_res + ' '
  out_text += '\n'

 with open('D:/1佩王的文件/计算语言学基础/生成结果.txt','w') as file:
  file.write(out_text)
 print(out_text)


if __name__ == '__main__':
 path = 'D:/1佩王的文件/计算语言学基础/北大(人民日报)语料库199801.txt'
 init_corpus_lib(path)#初始化语料库

 sentences = ''
 path = 'E:/study/1.研一的课/计算语言学基础课件/testset.txt'#读取要切分的文章
 with open(path, 'r', encoding='gbk', errors='ignore') as file:
  for line in file.readlines():
   sentences += line

 # 改进:先对句子按标点符号划分成多个短句,然后对每个短句进行切分、计算概率
 split_mark_and_too_long_sent(sentences)

实现思路

1、处理语料库

用的是人民日报语料库,然后为了方便把属性去掉了,只留下了词。

2、读要分词的文本,按照标点符号、数字进行分割

按标点符号、数字进行分割,确保分割结果是只有汉字的句子。如果句子过长(>=20),则先对句子中间位置的5个字先切分一次,从5个字的切分结果的第一个空格处,把句子分成两部分,再对每一部分分别切词。标点符号、数字则按照原样输出。

3、找出所有候选词

从一个句子中找出所有的候选词。如每次取4个字,假设为abcd这四个字,得到:a\b\c\d\ab\bc\cd\abc\bcd\abcd,判断它们每个是否在语料库中,如果是的话则存为候选词。并存储下这个词在句子中的开始位置和结束位置。

4、计算出一个句子所有的切分结果

所有的候选词放到了一个python的list(即集合)中,遍历所有开始位置为0但结结束位不为0的候选词,按照词的开始位置和结束位置进行拼凑,新拼凑出的元素会加入到这个list中。当一个词和其他所有能拼凑的词拼凑完后,从list中删除这个词。当遍历结束后,集合中会有长度等于句子长度的元素,这些元素就是一个句子所有的切分结果。

4、使用2-gram模型计算出每种切分结果的概率,挑选出最大概率的句子切分结果

计算概率时使用条件概率,使用加一平滑。条件概率的公式为:P(w1,w2,…,wn) = P(w1/start)P(w2/w1)P(w3/w2)…..P(Wn/Wn-1),利用log把乘法变成加法:log P(w1,w2,…,wn) = log P(w1/start) + logP(w2/w1) + ….. + logP(Wn/Wn-1)

句子往往不是由很多个单字组成的,所以为了提高速度,我们先计算出切分后词个数<= 0.6 * 句子字数的切分结果的概率,如果不为0则返回这个最大概率,如果为0的话,再计算 >= 0.6 的切分结果中的最大概率。

5、将拥有最大概率的句子切分结果存到文件中

以上这篇Python 最大概率法进行汉语切分的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python之str操作方法(详解)
Jun 19 Python
Python数据操作方法封装类实例
Jun 23 Python
浅析PHP与Python进行数据交互
May 15 Python
python3实现基于用户的协同过滤
May 31 Python
python读取xlsx的方法
Dec 25 Python
Django+JS 实现点击头像即可更改头像的方法示例
Dec 26 Python
12个Python程序员面试必备问题与答案(小结)
Jun 24 Python
Python imread、newaxis用法详解
Nov 04 Python
pytorch forward两个参数实例
Jan 17 Python
windows下python安装pip方法详解
Feb 10 Python
python GUI库图形界面开发之PyQt5打印控件QPrinter详细使用方法与实例
Feb 28 Python
python将字典内容写入json文件的实例代码
Aug 12 Python
python实现任意位置文件分割的实例
Dec 14 #Python
pytorch permute维度转换方法
Dec 14 #Python
Python语言快速上手学习方法
Dec 14 #Python
分享Python切分字符串的一个不错方法
Dec 14 #Python
在python中按照特定顺序访问字典的方法详解
Dec 14 #Python
对sklearn的使用之数据集的拆分与训练详解(python3.6)
Dec 14 #Python
python列表list保留顺序去重的实例
Dec 14 #Python
You might like
Php output buffering缓存及程序缓存深入解析
2013/07/15 PHP
浅析php单例模式
2014/11/25 PHP
PHP中__set()实例用法和基础讲解
2019/07/23 PHP
php+layui数据表格实现数据分页渲染代码
2019/10/26 PHP
详细讲解JS节点知识
2010/01/31 Javascript
js实现拖拽 闭包函数详细介绍
2012/11/25 Javascript
两种方法实现文本框输入内容提示消失
2013/03/17 Javascript
Javascript实现返回上一页面并刷新的小例子
2013/12/11 Javascript
jquery查找tr td 示例模拟
2014/05/08 Javascript
JQuery动态添加和删除表格行的方法
2015/03/09 Javascript
JS+CSS实现仿雅虎另类滑动门切换效果
2015/10/13 Javascript
自己动手写的javascript前端等待控件
2015/10/30 Javascript
jQuery实现获取table表格第一列值的方法
2016/03/01 Javascript
JavaScript组件开发之输入框加候选框
2017/03/10 Javascript
原生JavaScript实现的简单省市县三级联动功能示例
2017/05/27 Javascript
vscode中eslint插件的配置(prettier配置无效)
2019/09/10 Javascript
element实现合并单元格通用方法
2019/11/13 Javascript
jQuery操作元素的内容和样式完整实例分析
2020/01/10 jQuery
[02:37]2018DOTA2亚洲邀请赛赛前采访-EG篇
2018/04/03 DOTA
[37:50]VP vs TNC Supermajor小组赛B组 BO3 第一场 6.2
2018/06/03 DOTA
Python使用Redis实现作业调度系统(超简单)
2016/03/22 Python
python logging日志模块的详解
2017/10/29 Python
python2 与 pyhton3的输入语句写法小结
2018/09/10 Python
Python设计模式之简单工厂模式实例详解
2019/01/22 Python
PyQT实现菜单中的复制,全选和清空的功能的方法
2019/06/17 Python
django框架基于queryset和双下划线的跨表查询操作详解
2019/12/11 Python
numpy库reshape用法详解
2020/04/19 Python
记一次python 爬虫爬取深圳租房信息的过程及遇到的问题
2020/11/24 Python
描述JSP和Servlet的区别、共同点、各自应用的范围
2012/10/02 面试题
电气自动化专业职业规划范文
2014/02/16 职场文书
图书室标语
2014/06/21 职场文书
小学向国旗敬礼活动方案
2014/09/27 职场文书
离婚协议书怎么写2014
2014/09/30 职场文书
搭讪开场白台词大全
2015/05/28 职场文书
科技馆观后感
2015/06/08 职场文书
Golang gRPC HTTP协议转换示例
2022/06/16 Golang