使用 Node.js 对文本内容分词和关键词抽取


Posted in Javascript onMay 27, 2017

在讨论技术前先卖个萌,吃货的世界你不懂~~

使用 Node.js 对文本内容分词和关键词抽取

众成翻译的文章有 tag,用户可以基于 tag 来快速筛选感兴趣的文章,文章也可以依照 tag 关联来进行相关推荐。但是现在众成翻译的 tag 是在推荐文章的时候设置的,都是英文的,而且人工设置难免不规范和不完全。虽然发布文章后也可以人工编辑,但是我们也不能指望用户或管理员能够时时刻刻编辑出恰当的 tag,所以我们需要用工具来自动生成 tag。

在现在开源的分词工具里面,jieba是一个功能强大性能优越的分词组件,更幸运地是,它有 node 版本。

nodejieba 的安装和使用十分简单:

npm install nodejieba
var nodejieba = require("nodejieba");
var result = nodejieba.cut("帝国主义要把我们的地瓜分掉");
console.log(result);
//[ '帝国主义', '要', '把', '我们', '的', '地', '瓜分', '掉' ]
result = nodejieba.cut('土地,俺老孙的金箍棒在哪里?');
console.log(result);
//[ '土地', ',', '俺', '老', '孙', '的', '金箍棒', '在', '哪里', '?' ]
result = nodejieba.cut('大圣,您的金箍棒就棒在特别配您的头型!');
console.log(result); 
//[ '大圣',',','您','的','金箍棒','就','棒','在','特别','配','您','的','头型','!' ]

我们可以载入自己的字典,在字典里给每个词分别设置权重和词性:

编辑 user.uft8
地瓜 9999 n
金箍 9999 n
棒就棒在 9999
然后通过 nodejieba.load 加载字典。

var nodejieba = require("nodejieba");
nodejieba.load({
 userDict: './user.utf8',
});
var result = nodejieba.cut("帝国主义要把我们的地瓜分掉");
console.log(result);
//[ '帝国主义', '要', '把', '我们', '的', '地瓜', '分', '掉' ]
result = nodejieba.cut('土地,俺老孙的金箍棒在哪里?');
console.log(result);
//[ '土地', ',', '俺', '老', '孙', '的', '金箍棒', '在', '哪里', '?' ]
result = nodejieba.cut('大圣,您的金箍棒就棒在特别配您的头型!');
console.log(result); 
//[ '大圣', ',', '您', '的', '金箍', '棒就棒在', '特别', '配', '您', '的', '头型', '!' ]

除了分词以外,我们可以利用 nodejieba 提取关键词:

const content = `

HTTP、HTTP/2与性能优化

本文的目的是通过比较告诉大家,为什么应该从HTTP迁移到HTTPS,以及为什么应该添加到HTTP/2的支持。在比较HTTP和HTTP/2之前,先看看什么是HTTP。

什么是HTTP

HTTP是在万维网上通信的一组规则。HTTP属于应用层协议,跑在TCP/IP层之上。用户通过浏览器请求网页时,HTTP负责处理请求并在Web服务器与客户端之间建立连接。

有了HTTP/2,不使用雪碧图、压缩、拼接,也可以提升性能。然而,这不代表不应该使用这些技术。不过这已经清楚表明了我们从HTTP/1.1移动到HTTP/2的必要性。
`;

const nodejieba = require("nodejieba");
const result = nodejieba.extract(content, 20);
console.log(result);

输出的结果类似下面这样:

[ { word: 'HTTP', weight: 140.8704516850025 },
 { word: '请求', weight: 14.23018001394 },
 { word: '应该', weight: 14.052171126120001 },
 { word: '万维网', weight: 12.2912397395 },
 { word: 'TCP', weight: 11.739204307083542 },
 { word: '1.1', weight: 11.739204307083542 },
 { word: 'Web', weight: 11.739204307083542 },
 { word: '雪碧图', weight: 11.739204307083542 },
 { word: 'HTTPS', weight: 11.739204307083542 },
 { word: 'IP', weight: 11.739204307083542 },
 { word: '应用层', weight: 11.2616203224 },
 { word: '客户端', weight: 11.1926274509 },
 { word: '浏览器', weight: 10.8561552143 },
 { word: '拼接', weight: 9.85762638414 },
 { word: '比较', weight: 9.5435285574 },
 { word: '网页', weight: 9.53122979951 },
 { word: '服务器', weight: 9.41204128224 },
 { word: '使用', weight: 9.03259988558 },
 { word: '必要性', weight: 8.81927328699 },
 { word: '添加', weight: 8.0484751722 } ]

我们添加一些新的关键词到字典里:

性能
HTTP/2

输出结果如下:

[ { word: 'HTTP', weight: 105.65283876375187 },
 { word: 'HTTP/2', weight: 58.69602153541771 },
 { word: '请求', weight: 14.23018001394 },
 { word: '应该', weight: 14.052171126120001 },
 { word: '性能', weight: 12.61259281884 },
 { word: '万维网', weight: 12.2912397395 },
 { word: 'IP', weight: 11.739204307083542 },
 { word: 'HTTPS', weight: 11.739204307083542 },
 { word: '1.1', weight: 11.739204307083542 },
 { word: 'TCP', weight: 11.739204307083542 },
 { word: 'Web', weight: 11.739204307083542 },
 { word: '雪碧图', weight: 11.739204307083542 },
 { word: '应用层', weight: 11.2616203224 },
 { word: '客户端', weight: 11.1926274509 },
 { word: '浏览器', weight: 10.8561552143 },
 { word: '拼接', weight: 9.85762638414 },
 { word: '比较', weight: 9.5435285574 },
 { word: '网页', weight: 9.53122979951 },
 { word: '服务器', weight: 9.41204128224 },
 { word: '使用', weight: 9.03259988558 } ]

在这个基础上,我们采用白名单的方式过滤出一些可以作为 tag 的词:

const content = `

HTTP、HTTP/2与性能优化

本文的目的是通过比较告诉大家,为什么应该从HTTP迁移到HTTPS,以及为什么应该添加到HTTP/2的支持。在比较HTTP和HTTP/2之前,先看看什么是HTTP。

什么是HTTP

HTTP是在万维网上通信的一组规则。HTTP属于应用层协议,跑在TCP/IP层之上。用户通过浏览器请求网页时,HTTP负责处理请求并在Web服务器与客户端之间建立连接。

有了HTTP/2,不使用雪碧图、压缩、拼接,也可以提升性能。然而,这不代表不应该使用这些技术。不过这已经清楚表明了我们从HTTP/1.1移动到HTTP/2的必要性。
`;

const nodejieba = require("nodejieba");
nodejieba.load({
 userDict: './user.utf8',
});
const result = nodejieba.extract(content, 20);
const tagList = ['HTTPS', 'HTTP', 'HTTP/2', 'Web', '浏览器', '性能'];
console.log(result.filter(item => tagList.indexOf(item.word) >= 0));

最后得到:

[ { word: 'HTTP', weight: 105.65283876375187 },
 { word: 'HTTP/2', weight: 58.69602153541771 },
 { word: '性能', weight: 12.61259281884 },
 { word: 'HTTPS', weight: 11.739204307083542 },
 { word: 'Web', weight: 11.739204307083542 },
 { word: '浏览器', weight: 10.8561552143 } ]

这就是我们想要的结果。

以上就是分词库 nodejieba 基本的使用方法,在将来我们可以利用它对众成翻译发布的译文自动分析添加相应的 tag,以为各位译者和读者提供更好的用户体验。

以上所述是小编给大家介绍的使用 Node.js 对文本内容分词和关键词抽取,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Javascript 相关文章推荐
JS实现图片预加载无需等待
Dec 21 Javascript
node.js中的favicon.ico请求问题处理
Dec 15 Javascript
jQuery中next方法用法实例
Apr 24 Javascript
JQuery对ASP.NET MVC数据进行更新删除
Jul 13 Javascript
vue基于Vue2.0和高德地图的地图组件实例
Apr 28 Javascript
各种选择框jQuery的选中方法(实例讲解)
Jun 27 jQuery
AngularJS基于http请求实现下载php生成的excel文件功能示例
Jan 23 Javascript
关于express与koa的使用对比详解
Jan 25 Javascript
vue使用自定义icon图标的方法
May 14 Javascript
JS中的算法与数据结构之字典(Dictionary)实例详解
Aug 20 Javascript
webpack.DefinePlugin与cross-env区别详解
Feb 23 Javascript
javascript 代码是如何被压缩的示例代码
May 06 Javascript
vue子组件使用自定义事件向父组件传递数据
May 27 #Javascript
javascript回调函数的概念理解与用法分析
May 27 #Javascript
原生JavaScript实现的简单省市县三级联动功能示例
May 27 #Javascript
原生JavaScript实现精美的淘宝轮播图效果示例【附demo源码下载】
May 27 #Javascript
详细讲解vue2+vuex+axios
May 27 #Javascript
AngularJS获取json数据的方法详解
May 27 #Javascript
vue中用H5实现文件上传的方法实例代码
May 27 #Javascript
You might like
这东西价格,可以买几台TECSUN S-2000
2021/03/02 无线电
php setcookie(name, value, expires, path, domain, secure) 参数详解
2013/06/28 PHP
PHP编写学校网站上新生注册登陆程序的实例分享
2016/03/21 PHP
详解PHP原生DOM对象操作XML的方法
2016/10/17 PHP
Laravel给生产环境添加监听事件(SQL日志监听)
2017/06/19 PHP
PHP生成随机字符串实例代码(字母+数字)
2019/09/11 PHP
javascript结合ajax读取txt文件内容
2014/12/05 Javascript
分享28款免费实用的 JQuery 图片和内容滑块插件
2014/12/15 Javascript
javascript连续赋值问题
2015/07/08 Javascript
jQuery实现点击行选中或取消CheckBox的方法
2016/08/01 Javascript
javascript鼠标跟随运动3种效果(眼球效果,苹果菜单,方向跟随)
2016/10/27 Javascript
Angular实现表单验证功能
2017/11/13 Javascript
webpack配置打包后图片路径出错的解决
2018/04/26 Javascript
jQuery实现每隔一段时间自动更换样式的方法分析
2018/05/03 jQuery
vue项目初始化到登录login页面的示例
2019/10/31 Javascript
Vue.extend 编程式插入组件的实现
2019/11/18 Javascript
浅析python 内置字符串处理函数的使用方法
2014/06/11 Python
python冒泡排序简单实现方法
2015/07/09 Python
Python使用tablib生成excel文件的简单实现方法
2016/03/16 Python
分享Python开发中要注意的十个小贴士
2016/08/30 Python
python3中bytes和string之间的互相转换
2017/02/09 Python
Python简单操作sqlite3的方法示例
2017/03/22 Python
Python获取当前脚本文件夹(Script)的绝对路径方法代码
2019/08/27 Python
python 怎样将dataframe中的字符串日期转化为日期的方法
2019/09/26 Python
python 实现读取csv数据,分类求和 再写进 csv
2020/05/18 Python
tensorflow模型的save与restore,及checkpoint中读取变量方式
2020/05/26 Python
python中return不返回值的问题解析
2020/07/22 Python
css3中background新增的4个新的相关属性用法介绍
2013/09/26 HTML / CSS
俄罗斯女装店:12storeez
2019/10/25 全球购物
strstr()的简单实现
2013/09/26 面试题
人力资源行政经理自我评价
2013/10/23 职场文书
动画设计系毕业生求职信
2014/07/15 职场文书
办公室管理规章制度
2015/08/04 职场文书
PHP新手指南
2021/04/01 PHP
分析设计模式之模板方法Java实现
2021/06/23 Java/Android
Python机器学习应用之基于线性判别模型的分类篇详解
2022/01/18 Python