编程 Python

Python人工智能之路 jieba gensim 最好别分家之最简单的相似度实现

Posted in Python onAugust 13, 2019

简单的问答已经实现了,那么问题也跟着出现了,我不能确定问题一定是"你叫什么名字",也有可能是"你是谁","你叫啥"之类的,这就引出了人工智能中的另一项技术:

自然语言处理(NLP) : 大概意思就是让计算机明白一句话要表达的意思,NLP就相当于计算机在思考你说的话,让计算机知道"你是谁","你叫啥","你叫什么名字"是一个意思

这就要做 : 语义相似度

接下来我们用Python大法来实现一个简单的自然语言处理

现在又要用到Python强大的三方库了

第一个是将中文字符串进行分词的库叫 jieba

pip install jieba

我们通常把这个库叫做结巴分词确实是结巴分词,而且这个词库是 made in china , 基本用一下这个结巴分词:

import jieba
key_word = "你叫什么名字" # 定义一句话,基于这句话进行分词
cut_word = jieba.cut(key_word) # 使用结巴分词中的cut方法对"你叫什么名字" 进行分词
print(cut_word) # <generator object Tokenizer.cut at 0x03676390> 不懂生成器的话,就忽略这里
cut_word_list = list(cut_word) # 如果不明白生成器的话,这里要记得把生成器对象做成列表
print(cut_word_list) # ['你', '叫', '什么', '名字']

测试代码就很明显了,它很清晰的把咱们的中文字符串转为列表存储起来了

第二个是一个语言训练库叫 gensim

pip install gensim

这个训练库很厉害, 里面封装很多机器学习的算法, 是目前人工智能的主流应用库,这个不是很好理解, 需要一定的Python数据处理的功底

import jieba
import gensim
from gensim import corpora
from gensim import models
from gensim import similarities
l1 = ["你的名字是什么", "你今年几岁了", "你有多高你胸多大", "你胸多大"]
a = "你今年多大了"
all_doc_list = []
for doc in l1:
 doc_list = [word for word in jieba.cut(doc)]
 all_doc_list.append(doc_list)
print(all_doc_list)
doc_test_list = [word for word in jieba.cut(a)]
# 制作语料库
dictionary = corpora.Dictionary(all_doc_list) # 制作词袋
# 词袋的理解
# 词袋就是将很多很多的词,进行排列形成一个 词(key) 与一个 标志位(value) 的字典
# 例如: {'什么': 0, '你': 1, '名字': 2, '是': 3, '的': 4, '了': 5, '今年': 6, '几岁': 7, '多': 8, '有': 9, '胸多大': 10, '高': 11}
# 至于它是做什么用的,带着问题往下看
print("token2id", dictionary.token2id)
print("dictionary", dictionary, type(dictionary))
corpus = [dictionary.doc2bow(doc) for doc in all_doc_list]
# 语料库:
# 这里是将all_doc_list 中的每一个列表中的词语 与 dictionary 中的Key进行匹配
# 得到一个匹配后的结果,例如['你', '今年', '几岁', '了']
# 就可以得到 [(1, 1), (5, 1), (6, 1), (7, 1)]
# 1代表的的是 你 1代表出现一次, 5代表的是 了 1代表出现了一次, 以此类推 6 = 今年 , 7 = 几岁
print("corpus", corpus, type(corpus))
# 将需要寻找相似度的分词列表 做成 语料库 doc_test_vec
doc_test_vec = dictionary.doc2bow(doc_test_list)
print("doc_test_vec", doc_test_vec, type(doc_test_vec))
# 将corpus语料库(初识语料库) 使用Lsi模型进行训练
lsi = models.LsiModel(corpus)
# 这里的只是需要学习Lsi模型来了解的,这里不做阐述
print("lsi", lsi, type(lsi))
# 语料库corpus的训练结果
print("lsi[corpus]", lsi[corpus])
# 获得语料库doc_test_vec 在 语料库corpus的训练结果 中的 向量表示
print("lsi[doc_test_vec]", lsi[doc_test_vec])
# 文本相似度
# 稀疏矩阵相似度 将 主 语料库corpus的训练结果 作为初始值
index = similarities.SparseMatrixSimilarity(lsi[corpus], num_features=len(dictionary.keys()))
print("index", index, type(index))
# 将 语料库doc_test_vec 在 语料库corpus的训练结果 中的 向量表示 与 语料库corpus的 向量表示 做矩阵相似度计算
sim = index[lsi[doc_test_vec]]
print("sim", sim, type(sim))
# 对下标和相似度结果进行一个排序,拿出相似度最高的结果
# cc = sorted(enumerate(sim), key=lambda item: item[1],reverse=True)
cc = sorted(enumerate(sim), key=lambda item: -item[1])
print(cc)
text = l1[cc[0][0]]
print(a,text)

总结

以上所述是小编给大家介绍的Python人工智能之路 jieba gensim 最好别分家之最简单的相似度实现 ,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

Python人工智能之路 jieba gensim 最好别分家之最简单的相似度实现

- Author -

DragonFire

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现的简单hangman游戏实例

Jun 28 Python

Python实现随机选择元素功能

Sep 14 Python

Python Flask基础教程示例代码

Feb 07 Python

Tensorflow环境搭建的方法步骤

Feb 07 Python

详解django三种文件下载方式

Apr 06 Python

用Python将一个列表分割成小列表的实例讲解

Jul 02 Python

Python基于OpenCV库Adaboost实现人脸识别功能详解

Aug 25 Python

python破解bilibili滑动验证码登录功能

Sep 11 Python

Python 线程池用法简单示例

Oct 02 Python

python飞机大战pygame游戏之敌机出场实现方法详解

Dec 17 Python

Keras使用ImageNet上预训练的模型方式

May 23 Python

numpy中生成随机数的几种常用函数(小结)

Aug 18 Python

Python人工智能之路之PyAudio 实现录音自动化交互实现问答

Aug 13 #Python

Django rstful登陆认证并检查session是否过期代码实例

Aug 13 #Python

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

Aug 13 #Python

python实现对服务器脚本敏感信息的加密解密功能

Aug 13 #Python

python多线程+代理池爬取天天基金网、股票数据过程解析

Aug 13 #Python

Python字符串处理的8招秘籍(小结)

Aug 13 #Python

python实现批量修改服务器密码的方法

Aug 13 #Python

You might like

PHP mail 通过Windows的SMTP发送邮件失败的解决方案

2009/05/27 PHP

PHP得到某段时间区间的时间戳 php定时任务

2012/04/12 PHP

Yii2设置默认控制器的两种方法

2017/05/19 PHP

php简单实现单态设计模式的方法分析

2017/07/28 PHP

PHP单例模式模拟Java Bean实现方法示例

2018/12/07 PHP

Ajax+Jpgraph实现的动态折线图功能示例

2019/02/11 PHP

IE JS编程需注意的内存释放问题

2009/06/23 Javascript

jQuery 1.5最新版本的改进细节分析

2011/01/19 Javascript

原生js操作checkbox用document.getElementById实现

2013/10/12 Javascript

简述JavaScript中正则表达式的使用方法

2015/06/15 Javascript

利用jQuery实现漂亮的圆形进度条倒计时插件

2015/09/30 Javascript

js 判断一组日期是否是连续的简单实例

2016/07/11 Javascript

jQuery Ajax Post 回调函数不执行问题的解决方法

2016/08/15 Javascript

js中string和number类型互转换技巧(分享)

2016/11/28 Javascript

jquery+css实现侧边导航栏效果

2017/06/12 jQuery

vue component组件使用方法详解

2017/07/14 Javascript

浅谈react-router HashRouter和BrowserRouter的使用

2017/12/29 Javascript

Node.js搭建WEB服务器的示例代码

2018/08/15 Javascript

基于Three.js实现360度全景图片

2018/12/30 Javascript

vue.js指令v-for使用以及下标索引的获取

2019/01/31 Javascript

[01:45]典藏宝瓶2+祈求者身心——这就是DOTA2TI9总奖金突破3000万美元的秘密

2019/07/21 DOTA

举例详解Python中的split()函数的使用方法

2015/04/07 Python

Python聊天室实例程序分享

2016/01/05 Python

Python控制键盘鼠标pynput的详细用法

2019/01/28 Python

python实现将字符串中的数字提取出来然后求和

2020/04/02 Python

PyCharm常用配置和常用插件(小结)

2021/02/06 Python

一文读懂python Scrapy爬虫框架

2021/02/24 Python

CSS中垂直居中的简单实现方法

2015/07/06 HTML / CSS

eBay比利时购物网站：eBay.be

2019/08/09 全球购物

澳大利亚领先的亚麻品牌：Bed Threads

2019/12/16 全球购物

2015年实习班主任工作总结

2015/04/23 职场文书

反邪教学习心得体会

2016/01/15 职场文书

2016年党风廉政建设承诺书

2016/03/25 职场文书

python - timeit 时间模块

2021/04/06 Python

Mysql MVCC机制原理详解

2021/04/20 MySQL

MySQL约束超详解

2021/09/04 MySQL