python实现机械分词之逆向最大匹配算法代码示例


Posted in Python onDecember 13, 2017

逆向最大匹配方法

有正即有负,正向最大匹配算法大家可以参阅https://3water.com/article/127404.htm

逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(分词所确定的阈值i)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。而且选择的阈值越大,分词越慢,但准确性越好。

逆向最大匹配算法python实现:

分词文本示例:

python实现机械分词之逆向最大匹配算法代码示例

分词词典words.xlsx示例:

python实现机械分词之逆向最大匹配算法代码示例

#!/usr/bin/env python 
#-*- coding:utf-8 -*- 
 
''''' 
用逆向最大匹配法分词,不去除停用词 
''' 
import codecs 
import xlrd 
 
#读取待分词文本,readlines()返回句子list 
def readfile(raw_file_path): 
  with codecs.open(raw_file_path,"r",encoding="ANSI") as f: 
    raw_file=f.readlines() 
    return raw_file 
#读取分词词典,返回分词词典list 
def read_dic(dic_path): 
  excel = xlrd.open_workbook(dic_path) 
  sheet = excel.sheets()[0] 
  # 读取第二列的数据 
  data_list = list(sheet.col_values(1))[1:] 
  return data_list 
#逆向最大匹配法分词 
def cut_words(raw_sentences,word_dic): 
  word_cut=[] 
  #最大词长,分词词典中的最大词长,为初始分词的最大词长 
  max_length=max(len(word) for word in word_dic) 
  for sentence in raw_sentences: 
    #strip()函数返回一个没有首尾空白字符(‘\n'、‘\r'、‘\t'、‘')的sentence,避免分词错误 
    sentence=sentence.strip() 
    #单句中的字数 
    words_length = len(sentence) 
    #存储切分出的词语 
    cut_word_list=[] 
    #判断句子是否切分完毕 
    while words_length > 0: 
      max_cut_length = min(words_length, max_length) 
      for i in range(max_cut_length, 0, -1): 
        #根据切片性质,截取words_length-i到words_length-1索引的字,不包括words_length,所以不会溢出 
        new_word = sentence[words_length - i: words_length] 
        if new_word in word_dic: 
          cut_word_list.append(new_word) 
          words_length = words_length - i 
          break 
        elif i == 1: 
          cut_word_list.append(new_word) 
          words_length = words_length - 1 
    #因为是逆向最大匹配,所以最终需要把结果逆向输出,转换为原始顺序 
    cut_word_list.reverse() 
    words="/".join(cut_word_list) 
    #最终把句子首端的分词符号删除,是避免以后将分词结果转化为列表时会出现空字符串元素 
    word_cut.append(words.lstrip("/")) 
  return word_cut 
#输出分词文本 
def outfile(out_path,sentences): 
  #输出模式是“a”即在原始文本上继续追加文本 
  with codecs.open(out_path,"a","utf8") as f: 
    for sentence in sentences: 
      f.write(sentence) 
  print("well done!") 
def main(): 
  #读取待分词文本 
  rawfile_path = r"逆向分词文本.txt" 
  raw_file=readfile(rawfile_path) 
  #读取分词词典 
  wordfile_path = r"words.xlsx" 
  words_dic = read_dic(wordfile_path) 
  #逆向最大匹配法分词 
  content_cut = cut_words(raw_file,words_dic) 
  #输出文本 
  outfile_path = r"分词结果.txt" 
  outfile(outfile_path,content_cut) 
if __name__=="__main__": 
  main()

python实现机械分词之逆向最大匹配算法代码示例

总结

分析分词结果可以知道,机械分词的效果优劣,一方面与分词匹配算法有关,另外一方面极其依赖分词词典。所以若想得到好的分词效果,处理相关领域的文本时,需要在分词词典中加入特定领域的词汇。

以上就是本文关于python实现机械分词之逆向最大匹配算法代码示例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
django.db.utils.ProgrammingError: (1146, u“Table‘’ doesn’t exist”)问题的解决
Jul 13 Python
python 3.7.0 下pillow安装方法
Aug 27 Python
python 美化输出信息的实例
Oct 15 Python
python分批定量读取文件内容,输出到不同文件中的方法
Dec 08 Python
python Gunicorn服务器使用方法详解
Jul 22 Python
用Pytorch训练CNN(数据集MNIST,使用GPU的方法)
Aug 19 Python
10个python3常用排序算法详细说明与实例(快速排序,冒泡排序,桶排序,基数排序,堆排序,希尔排序,归并排序,计数排序)
Mar 17 Python
django 数据库返回queryset实现封装为字典
May 19 Python
Python如何输出整数
Jun 07 Python
PyCharm 解决找不到新打开项目的窗口问题
Jan 15 Python
python中PyQuery库用法分享
Jan 15 Python
Python 将代码转换为可执行文件脱离python环境运行(步骤详解)
Jan 25 Python
Python语言描述KNN算法与Kd树
Dec 13 #Python
Python xlwt设置excel单元格字体及格式
Apr 18 #Python
Python语言实现百度语音识别API的使用实例
Dec 13 #Python
Python通过matplotlib绘制动画简单实例
Dec 13 #Python
Python数据结构与算法之字典树实现方法示例
Dec 13 #Python
Python数据结构与算法之完全树与最小堆实例
Dec 13 #Python
python+VTK环境搭建及第一个简单程序代码
Dec 13 #Python
You might like
PHP上传文件参考配置大文件上传
2015/12/16 PHP
PHP实现动态获取函数参数的方法示例
2018/04/02 PHP
深入理解javascript动态插入技术
2013/11/12 Javascript
jQuery判断checkbox是否选中的小例子
2013/12/02 Javascript
jquery选择器需要注意的问题
2014/11/26 Javascript
js事件驱动机制 浏览器兼容处理方法
2016/07/23 Javascript
详解NodeJs支付宝移动支付签名及验签
2017/01/06 NodeJs
Vue利用路由钩子token过期后跳转到登录页的实例
2017/10/26 Javascript
element ui 对话框el-dialog关闭事件详解
2018/02/26 Javascript
[04:50]DOTA2亚洲邀请赛小组赛第四日 TOP10精彩集锦
2015/02/02 DOTA
[00:37]2016完美“圣”典风云人物:rOtk宣传片
2016/12/09 DOTA
python中使用OpenCV进行人脸检测的例子
2014/04/18 Python
在Python程序中操作文件之flush()方法的使用教程
2015/05/24 Python
Python实现控制台输入密码的方法
2015/05/29 Python
Python面向对象程序设计类的封装与继承用法示例
2019/04/12 Python
python绘制双Y轴折线图以及单Y轴双变量柱状图的实例
2019/07/08 Python
python实现发送form-data数据的方法详解
2019/09/27 Python
使用python实现画AR模型时序图
2019/11/20 Python
python框架flask入门之路由及简单实现方法
2020/06/07 Python
如何用Python提取10000份log中的产品信息
2021/01/14 Python
HTML5本地存储之Web Storage详解
2016/07/04 HTML / CSS
Nuts.com:优质散装,批发坚果、干果和巧克力等
2017/03/21 全球购物
添柏岚英国官方网站:Timberland英国
2019/11/28 全球购物
美国球迷装备的第一来源:FOCO
2020/07/03 全球购物
俄罗斯卫浴采暖及维修用品超级市场:Dkrussia
2020/05/12 全球购物
会计毕业自我鉴定
2014/02/05 职场文书
校运会口号
2014/06/18 职场文书
旅游与酒店管理专业求职信
2014/07/21 职场文书
2014最新房贷收入证明范本
2014/09/12 职场文书
单位委托书范本(3篇)
2014/09/18 职场文书
党员个人自我评价
2015/03/03 职场文书
一年级下册数学教学反思
2016/02/16 职场文书
Pytorch中的学习率衰减及其用法详解
2021/06/05 Python
Python实现学生管理系统(面向对象版)
2021/06/24 Python
MySQL外键约束(FOREIGN KEY)案例讲解
2021/08/23 MySQL
Java中try catch处理异常示例
2021/12/06 Java/Android