编程 Python

21行Python代码实现拼写检查器

Posted in Python onJanuary 25, 2016

引入

大家在使用谷歌或者百度搜索时，输入搜索内容时，谷歌总是能提供非常好的拼写检查，比如你输入 speling，谷歌会马上返回 spelling。
下面是用21行python代码实现的一个简易但是具备完整功能的拼写检查器。

代码

import re, collections

def words(text): return re.findall('[a-z]+', text.lower()) 

def train(features):
  model = collections.defaultdict(lambda: 1)
  for f in features:
    model[f] += 1
  return model

NWORDS = train(words(file('big.txt').read()))

alphabet = 'abcdefghijklmnopqrstuvwxyz'

def edits1(word):
  splits   = [(word[:i], word[i:]) for i in range(len(word) + 1)]
  deletes  = [a + b[1:] for a, b in splits if b]
  transposes = [a + b[1] + b[0] + b[2:] for a, b in splits if len(b)>1]
  replaces  = [a + c + b[1:] for a, b in splits for c in alphabet if b]
  inserts  = [a + c + b   for a, b in splits for c in alphabet]
  return set(deletes + transposes + replaces + inserts)

def known_edits2(word):
  return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)

def known(words): return set(w for w in words if w in NWORDS)

def correct(word):
  candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
  return max(candidates, key=NWORDS.get)
correct函数是程序的入口，传进去错误拼写的单词会返回正确。如：

>>> correct("cpoy")
'copy'
>>> correct("engilsh")
'english'
>>> correct("sruprise")
'surprise'

除了这段代码外，作为机器学习的一部分，肯定还应该有大量的样本数据，准备了big.txt作为我们的样本数据。

背后原理

上面的代码是基于贝叶斯来实现的，事实上谷歌百度实现的拼写检查也是通过贝叶斯实现，不过肯定比这个复杂多了。
首先简单介绍一下背后的原理，如果读者之前了解过了，可以跳过这段。
给一个词，我们试图选取一个最可能的正确的的拼写建议（建议也可能就是输入的单词）。有时也不清楚（比如lates应该被更正为late或者latest？），我们用概率决定把哪一个作为建议。我们从跟原始词w相关的所有可能的正确拼写中找到可能性最大的那个拼写建议c：

argmaxc P(c|w)

通过贝叶斯定理，上式可以转化为

argmaxc P(w|c) P(c) / P(w)

下面介绍一下上式中的含义：

P(c|w)代表在输入单词w 的情况下，你本来想输入单词c的概率。
P(w|c)代表用户想输入单词c却输入w的概率，这个可以我们认为给定的。
P(c)代表在样本数据中单词c出现的概率
P(w)代表在样本数字中单词w出现的概率

可以确定P(w)对于所有可能的单词c概率都是一样的，所以上式可以转换为
argmaxc P(w|c) P(c)
我们所有的代码都是基于这个公式来的，下面分析具体代码实现

代码分析

利用words()函数提取big.txt中的单词

def words(text): return re.findall('[a-z]+', text.lower())

re.findall(‘[a-z]+'是利用python正则表达式模块，提取所有的符合'[a-z]+'条件的，也就是由字母组成的单词。（这里不详细介绍正则表达式了，有兴趣的同学可以看正则表达式简介。text.lower()是将文本转化为小写字母，也就是“the”和“The”一样定义为同一个单词。

利用train()函数计算每个单词出现的次数然后训练出一个合适的模型

def train(features):
  model = collections.defaultdict(lambda: 1)
  for f in features:
    model[f] += 1
  return model
NWORDS = train(words(file('big.txt').read()))

这样NWORDS[w]代表了单词w在样本中出现的次数。如果有一个单词并没有出现在我们的样本中该怎么办？处理方法是将他们的次数默认设为1，这里通过collections模块和lambda表达式实现。collections.defaultdict()创建了一个默认的字典，lambda：1将这个字典中的每个值都默认设为1。

现在我们处理完了公式argmaxc P(w|c) P(c)中的P(c)，接下来处理P(w|c)即想输入单词c却错误地输入单词w的概率，通过 “edit distance“－－将一个单词变为另一个单词所需要的编辑次数来衡量，一次edit可能是一次删除，一个交换（两个相邻的字母），一次插入，一次修改。下面的函数返回一个将c进行一次编辑所有可能得到的单词w的集合：

def edits1(word):
  splits   = [(word[:i], word[i:]) for i in range(len(word) + 1)]
  deletes  = [a + b[1:] for a, b in splits if b]
  transposes = [a + b[1] + b[0] + b[2:] for a, b in splits if len(b)>1]
  replaces  = [a + c + b[1:] for a, b in splits for c in alphabet if b]
  inserts  = [a + c + b   for a, b in splits for c in alphabet]
  return set(deletes + transposes + replaces + inserts)

相关论文显示，80-95%的拼写错误跟想要拼写的单词都只有1个编辑距离，如果觉得一次编辑不够，那我们再来一次

def known_edits2(word):
  return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)

同时还可能有编辑距离为0次的即本身就拼写正确的：

def known(words):
  return set(w for w in words if w in NWORDS)

我们假设编辑距离1次的概率远大于2次的，0次的远大于1次的。下面通过correct函数先选择编辑距离最小的单词，其对应的P(w|c)就会越大，作为候选单词，再选择P(c)最大的那个单词作为拼写建议

def correct(word):
  candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
  return max(candidates, key=NWORDS.get)

以上就是本文的全部内容，希望对大家学习python程序设计有所帮助。

21行Python代码实现拼写检查器

- Author -

lxydo

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

独特的python循环语句

Nov 20 Python

python中利用Future对象回调别的函数示例代码

Sep 07 Python

pandas通过loc生成新的列方法

Nov 28 Python

python添加菜单图文讲解

Jun 04 Python

在Qt中正确的设置窗体的背景图片的几种方法总结

Jun 19 Python

浅谈python多进程共享变量Value的使用tips

Jul 16 Python

Python协程 yield与协程greenlet简单用法示例

Nov 22 Python

浅谈keras的深度模型训练过程及结果记录方式

Jan 24 Python

详细分析Python垃圾回收机制

Jul 01 Python

python利用opencv实现颜色检测

Feb 23 Python

PyMongo 查询数据的实现

Jun 28 Python

使用python绘制分组对比柱状图

Apr 21 Python

Python字符串、元组、列表、字典互相转换的方法

Jan 23 #Python

Python随手笔记第一篇（2）之初识列表和元组

Jan 23 #Python

Python爬虫模拟登录带验证码网站

Jan 22 #Python

Fiddler如何抓取手机APP数据包

Jan 22 #Python

Python爬虫抓取手机APP的传输数据

Jan 22 #Python

Python 列表排序方法reverse、sort、sorted详解

Jan 22 #Python

Python中使用urllib2模块编写爬虫的简单上手示例

Jan 20 #Python

You might like

php实现cc攻击防御和防止快速刷新页面示例

2014/02/13 PHP

PHP连接MSSQL2008/2005数据库(SQLSRV)配置实例

2014/10/22 PHP

php检测数组长度函数sizeof与count用法

2014/11/17 PHP

php利用cookie实现自动登录的方法

2014/12/10 PHP

浅谈PHP中其他类型转化为Bool类型

2016/03/28 PHP

php 实现一个字符串加密解密的函数实例代码

2016/11/01 PHP

PHP异步进程助手async-helper

2018/02/05 PHP

PHP分享图片的生成方法

2018/04/25 PHP

在 Laravel 项目中使用 webpack-encore的方法

2019/07/21 PHP

用Javascript评估用户输入密码的强度（Knockout版）

2011/11/30 Javascript

Jquery和JS获取ul中li标签的实现方法

2016/06/02 Javascript

AngularJS递归指令实现Tree View效果示例

2016/11/07 Javascript

bootstrap table 多选框分页保留示例代码

2017/03/08 Javascript

xmlplus组件设计系列之路由（ViewStack)（7）

2017/05/02 Javascript

js封装成插件_Canvas统计图插件编写实例

2017/09/12 Javascript

vue 图片裁剪上传组件的实现

2020/11/12 Javascript

js删除指定位置超链接中含有百度与360的标题

2021/01/06 Javascript

Python升级提示Tkinter模块找不到的解决方法

2014/08/22 Python

解决django后台样式丢失,css资源加载失败的问题

2019/06/11 Python

Python zip函数打包元素实例解析

2019/12/11 Python

Python tensorflow实现mnist手写数字识别示例【非卷积与卷积实现】

2019/12/19 Python

python实现实时视频流播放代码实例

2020/01/11 Python

Transpose 数组行列转置的限制方式

2020/02/11 Python

HTML5中的nav标签学习笔记

2016/06/24 HTML / CSS

英国最大的老式糖果店：A Quarter Of

2017/04/08 全球购物

全球航班旅行搜索网站：Cheapflights

2017/05/19 全球购物

法雷奥SQA(electric)面试问题

2016/01/23 面试题

介绍一下JMS编程步骤

2015/09/22 面试题

轻化专业学生实习自我鉴定

2013/09/20 职场文书

致百米运动员广播稿

2014/01/29 职场文书

中文教师求职信

2014/02/22 职场文书

副总经理岗位职责范本

2014/09/30 职场文书

2016入党积极分子心得体会

2016/01/06 职场文书

党组织结对共建协议书

2016/03/23 职场文书

励志正能量20句：送给所有为梦想拼搏的人

2019/11/11 职场文书

MySQL去除重叠时间求时间差和的实现

2021/08/23 MySQL