mysql全文索引相关有关问题（含中文支持有关问题）-MySQL教程-爱易网页

mysql全文索引相关有关问题（含中文支持有关问题）

日期：2014-05-16　浏览次数：21126 次

mysql全文索引相关问题（含中文支持问题）
MySQL从3.23.23开始就逐渐支持全文索引和搜寻。
全文索引就是建index，全文搜寻就是去查index。
LIKE是用Regular Expression去做查询。
MySQL全文索引是一种index type：FULLTEXT。
全文索引的index只能用在MyISAM表格的char、varchar和text的字段上。
全文索引的index可以在create table、alter table和create index时产生。
create table...
CREATE TABLE article (
   id INT AUTO_INCREMENT NOT NULL PRIMARY KEY,
    title VARCHAR(200),
    body TEXT,
    FULLTEXT(title, body)
) TYPE=MYISAM;
alter table...
create index...
要倒大量的数据到有全文索引index的table速度会很慢，建议先拿掉全文索引index再倒数据，倒完后再加上全文索引index。
全文搜寻的语法：
MATCH (col1, col2,...) AGAINST (expr [search_modifier])
三种搜寻方式：
IN BOOLEAN MODE
IN NATURAL LANGUAGE MODE
IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION / WITH QUERY EXPANSION

IN NATURAL LANGUAGE MODE
expr就是要搜寻的字符串。
没有特殊字符。
套用Stopwords。
剔除一半row以上都有的字，譬如说，每个row都有mysql这个字的话，那用mysql去查时，会找不到任何row，这在row的数量无敌多时很有用，因为把所有row都找出来是没有意义的，这时，mysql几乎被当作是stopword；但是当row只有两笔时，是啥鬼也查不出来的，因为每个字都出现50%以上，要避免这种状况，请用IN BOOLEAN MODE。
预设的搜寻方式。
SELECT *
FROM article
WHERE MATCH(title, body)
AGAINST ('xxx' IN NATURAL LANGUAGE MODE);
预设搜寻是不分大小写，若要分大小写，columne的character set要从utf8改成utf8_bin。
预设MATCH...AGAINST是以相关性排序，由高到低。
MATCH...AGAINST可以跟所有MySQL语法搭配使用，像是JOIN或是加上其他过滤条件。
-- 第一种count
SELECT COUNT(*)
FROM article
WHERE MATCH(title, body)
AGAINST ('xxx' IN NATURAL LANGUAGE MODE);
-- 第二种count
SELECT COUNT(IF(MATCH(title, body) AGAINST ('xxx' IN NATURAL LANGUAGE MODE), 1, NULL)) AS count
FROM article
当符合的笔数较多时，第一种count比较慢，因为MATCH...AGAINST会先依相关性排序。
当符合的笔数较少时，第二种count比较慢，因为第二种count会扫过所有数据。
MATCH(title, body)里的字段必须和FULLTEXT(title, body)里的字段一模一样，如果只要单查title或body一个字段，那得另外再建一个FULLTEXT(title)或FULLTEXT(body)，也因为如此，MATCH()的字段一定不能跨table，但是另外两种搜寻方式好像可以。
SELECT id, MATCH(title, body) AGAINST ('xxx' IN NATURAL LANGUAGE MODE) as score
FROM article;
这样可以取得相关值，而且也因为没有WHERE和ORDER BY，所以不会排序。
SELECT id, MATCH(title, body) AGAINST ('xxx' IN NATURAL LANGUAGE MODE) as score
FROM article
WHERE MATCH(title, body)
AGAINST ('xxx' IN NATURAL LANGUAGE MODE);
排序又取得相关性，虽然MATCH...AGAINST用了两次，但是MySQL知道这两个MATCH...AGAINST是一样的，所以只会用一次。
SELECT id, MATCH(title, body) AGAINST ('xxx' IN NATURAL LANGUAGE MODE) as score
FROM article
ORDER BY score desc;
为啥不这样用就好？
MySQL的FULLTEXT怎么断字：
字母、数字、底线的组合视为一个字，不会把底线断字。
会被断字的字符：空白、逗号（,）与点（.），但不用这些断字的语言，如中文，就得自行手动断字。
可以自行实做一个断字的外挂来取代内建的断字parser。
接受一个单引号，如aaa'bbb视为一个字，但是aaa''bbb就是两个字。
前缀或字尾的单引号会被去掉，如'aaa或aaa'。
全文搜寻时，stopword与少于四个字符的字符串会被忽略。
可以覆写内建的stopword清单。
可以修改最少四个字符的设定。

IN BOOLEAN MODE
expr里有特殊字符辅助特殊的搜寻语法。
SELECT *
FROM article
WHERE MATCH(title, body)
AGAINST ('+mysql -yoursql' IN BOOLEAN MODE);
一定要有msysql，且不要有yoursql。
IN BOOLEAN MODE的特色：
不剔除50%以上符合的row。
不自动以相关性反向排序。
可以对没有FULLTEXT index的字段进行搜寻，但会非常慢。
限制最长与最短的字符串。
套用Stopwords。
搜寻语法：
+：一定要有。
-：不可以有，但这个「不可以有」指的是在符合的row里不可以有指定的字符串，所以不能只下「-yoursql」这样是查不到任何row的，必须搭配其他语法使用。
：（什么都没）预设用法，表示可有可无，有的话排比较前面，没有的排后面。
>：提高该字的相关性。
<：降低相关性。
( )：条件可以巢状。
+aaa +(>bbb <ccc) // 找到有aaa和bbb，或者aaa和ccc，然后aaa&bbb排在aaa&ccc前面
~：将其相关性由正转负，表示拥有该字会降低相关性，但不像「-」将之排除，只是排在较后面。
*：万用字，不像其他语法放在前面，这个要接在字符串后面。
" "：用双引号将一段句子包起来表示要完全相符，不可拆字。

IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION
也可以用WITH QUERY EXPANSION。
IN NATURAL LANGUAGE MODE的衍生版。
先用IN NATURAL LANGUAGE MODE做搜寻，得到最相关的字段的字再加到原expr里，再查一次。
神奇功能之一：可以用database查出mysql或oracle，第一次查询用databae得到一些结果，从这些结果里抽取字符串，此时得到mysql与oracle的机率相当高，最后用database和这些出取出来的字符串做一次查询。
神奇功能之二：无法拼出正

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

mysql全文索引相关有关问题（含中文支持有关问题）

相关资料更多>

推荐阅读更多>