数据库 MySQL

MySQL 全文检索的使用示例

Posted in MySQL onJune 07, 2021

1. 环境准备

MySQL 5.7.6之前，全文索引只支持英文全文索引，不支持中文全文索引，需要利用分词器把中文段落预处理拆分成单词，然后存入数据库。 MySQL 5.7.6开始，MySQL内置了ngram全文解析器，用来支持中文、日文、韩文分词。本文使用的MySQL 版本是5.7.22，InnoDB数据库引擎。

所以这里需要MySQL的版本大于5.7.6

-- 查看mysql的版本
mysql> select version();
+-----------+
| version() |
+-----------+
| 5.7.33    |
+-----------+
1 row in set (0.02 sec)

在 mysql 配置文件中添加分词以及最小词语长度（如果已经配置可以忽略）

ft_min_word_len 最小字符长度默认为 4，在英文条件下确实比较合理中文情况下需要修改；

ngram_token_size 分词的最小长度举个例子不同长度对你好世界的分词

n=1: '你', '好', '世', '界' 
n=2: '你好', '好世', '世界' 
n=3: '你好世', '好世界' 
n=4: '你好世界'

# /etc/mysql/mysql.conf.d/mysqld.cnf

ft_min_word_len = 2
ngram_token_size = 2


# 如果没有则新增配置
echo 'ft_min_word_len = 2
ngram_token_size = 2' >> mysqld.cnf

# 重启服务
/etc/init.d/mysql restart

-- 查看配置
mysql> 
SHOW VARIABLES LIKE 'ft_min_word_len';
SHOW VARIABLES LIKE 'ngram_token_size';
+-----------------+-------+
| Variable_name   | Value |
+-----------------+-------+
| ft_min_word_len | 2     |
+-----------------+-------+
1 row in set (0.02 sec)
 
+------------------+-------+
| Variable_name    | Value |
+------------------+-------+
| ngram_token_size | 2     |
+------------------+-------+
1 row in set (0.03 sec)

2. 数据准备

-- mysql 于全文检索的demo

mysql> CREATE TABLE `articles` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `title` varchar(50) DEFAULT NULL COMMENT '主题',
  `content` longtext NOT NULL COMMENT '内容',
  PRIMARY KEY (`id`),
  FULLTEXT KEY `title_content_index` (`content`,`title`) /*!50100 WITH PARSER `ngram` */ 
) ENGINE=InnoDB AUTO_INCREMENT=7 DEFAULT CHARSET=utf8;
Query OK, 0 rows affected (0.20 sec)
 

mysql> INSERT INTO articles (`title`, `content`) VALUES
        ('如果','今生今世 永不再将你想起 
除了
除了在有些个
因落泪而湿润的夜里 如果
如果你愿意'),
        ('爱情','有一天路标迁了希望你能从容
有一天桥墩断了希望你能渡越
有一天栋梁倒了希望你能坚强
有一天期待蔫了希望你能理解'),
        ('远和近','你 一会看我
一会看云
我觉得
你看我时很远
你看云时很近'),
        ('断章','你站在桥上看风景，
看风景人在楼上看你。
明月装饰了你的窗子，
你装饰了别人的梦。'),
        ('独语','我向你倾吐思念
你如石像
沉默不应
如果沉默是你的悲抑
你知道这悲抑
最伤我心');

Query OK, 5 rows affected (0.08 sec)
Records: 5  Duplicates: 0  Warnings: 0
 
mysql> SELECT * from articles where match(content, title) against('风景' in  NATURAL LANGUAGE MODE) LIMIT 10;
+----+--------+--------------------------------------------------------------------------------------------------------------------------+
| id | title  | content                                                                                                                  |
+----+--------+--------------------------------------------------------------------------------------------------------------------------+
| 10 | 断章 |  你站在桥上看风景，
看风景人在楼上看你。
明月装饰了你的窗子，
你装饰了别人的梦。 |
+----+--------+--------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.02 sec)

3. 开始表演

自然语言模式(NATURAL LANGUAGE MODE)

自然语言模式是MySQL 默认的全文检索模式。自然语言模式不能使用操作符，不能指定关键词必须出现或者必须不能出现等复杂查询。

布隆模式(BOOLEAN MODE)

BOOLEAN模式可以使用操作符，可以支持指定关键词必须出现或者必须不能出现或者关键词的权重高还是低等复杂查询。

查询扩展(QUERY EXPANSION)

查询的结果不仅匹配出结果同时可以联想出其他你需要的结果。（类似关联查询，但是官网推荐仅支持短语查询否则会出现很多脏数据）

-- 自然语言模式（NATURAL LANGUAGE MODE）查询并得到评分

mysql> SELECT id, title, MATCH ( content, title ) against ( '风景' IN NATURAL LANGUAGE MODE ) AS score  FROM articles;
+----+-----------+--------------------+
| id | title     | score              |
+----+-----------+--------------------+
|  7 | 如果    |                  0 |
|  8 | 爱情    |                  0 |
|  9 | 远和近 |                  0 |
| 10 | 断章    | 0.9771181344985962 |
| 11 | 独语    |                  0 |
+----+-----------+--------------------+
5 rows in set (0.02 sec)

-- 布隆模式(BOOLEAN MODE) 可以组合查询

mysql> SELECT id, title  FROM articles where MATCH ( content, title ) against ( '+风景 -爱情' IN BOOLEAN MODE );
+----+--------+
| id | title  |
+----+--------+
| 10 | 断章 |
+----+--------+
1 row in set (0.01 sec)

-- 查询扩展(QUERY EXPANSION) 可以联想出其他结果 
mysql> SELECT id, title  FROM articles where MATCH ( content, title ) against ( '风景' WITH QUERY EXPANSION );
+----+--------+
| id | title  |
+----+--------+
| 10 | 断章 |
| 11 | 独语 |
+----+--------+
2 rows in set (0.02 sec)

4. 分词引擎

目前官网 MeCab Full-Text Parser 有支持日语的分词插件（可以更好的理解语义）

内置的 full-text parser 因为英文中单词的边界默认是空格，所以在处理英文文本时可以简单的使用空格作为分隔符。但是在处理中文时需要理解语义的基础上进行有效的分词，所以在处理中文、日文、韩文MySQL 提供了 ngram full-text （本文的配置就是基于ngram的中文分词）

总结

优点

对比 like 查询效率有提升（具体提升的测试没有做）
全文搜索可以同时对多个字段做索引，like只能对单一字段搜索

对于中文的分词可能需要在理解语义的基础上才能有效的分词；比如上文中的你好世界（hello world）对于英文按空格切分就可以，中文则需要理解语义的基础才能分成你好/世界。

这里分享一下python中jieba分词，有助于理解中文分词的魅力

结巴分词利用一个中文词库，通过词库计算汉字之间构成词语的关联概率，所以通过计算汉字之间的概率，就可以形成分词的结果。

In [1]: import jieba

In [2]: jieba.lcut("你好世界")
Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/st/b16fyn3s57x_5vszjl599njw0000gn/T/jieba.cache
Loading model cost 0.937 seconds.
Prefix dict has been built successfully.
Out[2]: ['你好', '世界']

In [3]: jieba.lcut("hello world")
Out[3]: ['hello', ' ', 'world']

对于一般的项目mysql的全文索引可以解决80%的需求，它可以较为完美的支持中文的检索、自动分词、结果排序、组合查询等功能；但性能应该是瓶颈，Elastissearch可以友好的实现全文检索。

全文索引不能达到like的效果，连着的语句会因为分词形成多个词语。

参考资料

Mysql fulltext

以上就是MySQL 全文检索的使用示例的详细内容，更多关于MySQL 全文检索的使用的资料请关注三水点靠木其它相关文章！

MySQL 全文检索的使用示例

- Author -

火腿蛋炒饭

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

MySQL 相关文章推荐

MySQL 使用SQL语句修改表名的实现

Apr 07 MySQL

MySQL的join buffer原理

Apr 29 MySQL

MySQL中你可能忽略的COLLATION实例详解

May 12 MySQL

.Net Core导入千万级数据至Mysql的步骤

May 24 MySQL

MySQL8.0.18配置多主一从

Jun 21 MySQL

MySQL连表查询分组去重的实现示例

Jul 01 MySQL

MySQL外键约束(FOREIGN KEY)案例讲解

Aug 23 MySQL

MySQL 数据类型详情

Nov 11 MySQL

WINDOWS 64位下安装配置mysql8.0.25最详细的教程

Mar 22 MySQL

Mysql如何实现不存在则插入,存在则更新

Mar 25 MySQL

解决MySQL Varchar 类型尾部空格的问题

Apr 06 MySQL

mysql 子查询的使用

Apr 28 MySQL

MySQL 常见的数据表设计误区汇总

Jun 07 #MySQL

浅谈MySQL next-key lock 加锁范围

MySQL为id选择合适的数据类型

MySQL单表千万级数据处理的思路分享

Jun 05 #MySQL

MySQL 时间类型的选择

Jun 05 #MySQL

MySQL索引失效的典型案例

Jun 05 #MySQL

MySQL库表名大小写的选择

Jun 05 #MySQL

IC-R9500(1) 增删查改(1) #{}(1) 克隆(1) 脏读(2) 小喇叭开始广播了(1) S-2000(1) SQL注入(2) 外键(1) 小喇叭(1)

You might like

用PHP中的 == 运算符进行字符串比较

2006/11/26 PHP

php中fsockopen用法实例

2015/01/05 PHP

使用php实现网站验证码功能【推荐】

2017/02/09 PHP

php自定义函数br2nl实现将html中br换行符转换为文本输入中换行符的方法【与函数nl2br功能相反】

2017/02/17 PHP

php求数组全排列,元素所有组合的方法总结

2017/03/14 PHP

YII2框架中excel表格导出的方法详解

2017/07/21 PHP

YII框架关联查询操作示例

2019/04/29 PHP

jQuery EasyUI API 中文文档 - ComboTree组合树

2011/10/11 Javascript

使用JavaScript判断图片是否加载完成的三种实现方式

2014/05/04 Javascript

javascript多行字符串的简单实现方式

2015/05/04 Javascript

JS实现两周内自动登录功能

2017/03/23 Javascript

微信小程序仿美团分类菜单 swiper分类菜单

2017/04/12 Javascript

bootstrap3使用bootstrap datetimepicker日期插件

2017/05/24 Javascript

vue之数据交互实例代码

2017/06/16 Javascript

浅析前端路由简介以及vue-router实现原理

2018/06/01 Javascript

小程序封装wx.request请求并创建接口管理文件的实现

2019/04/29 Javascript

JavaScript怎样在删除前添加确认弹出框?

2019/05/27 Javascript

详解JavaScript类型判断的四种方法

2020/10/21 Javascript

vue3.0中使用element的完整步骤

2021/03/04 Vue.js

python3实现暴力穷举博客园密码

2016/06/19 Python

wxpython中Textctrl回车事件无效的解决方法

2016/07/21 Python

numpy中实现二维数组按照某列、某行排序的方法

2018/04/04 Python

使用python实现快速搭建简易的FTP服务器

2018/09/12 Python

在Python中获取两数相除的商和余数方法

2018/11/10 Python

python使用pymongo操作mongo的完整步骤

2019/04/13 Python

Django高级编程之自定义Field实现多语言

2019/07/02 Python

聊聊python中的异常嵌套

2020/09/01 Python

详解pycharm自动import所需的库的操作方法

2020/11/30 Python

Lands’ End官网：经典的美国生活方式品牌

2016/08/14 全球购物

美国值得信赖的婚恋交友网站：eHarmony

2018/10/04 全球购物

英国在线购买轮胎、预订汽车、汽车维修和装配网站：Protyre

2020/04/12 全球购物

TecoBuy澳大利亚：在线电子和小工具商店

2020/06/25 全球购物

实习生工作证明范本

2014/09/14 职场文书

地方白酒代理协议书

2014/10/25 职场文书

单位介绍信格式范文

2015/05/04 职场文书

结婚典礼致辞

2015/07/28 职场文书