多语言展示
当前在线:935今日阅读:86今日分享:14

ElasticSearch学习--分词器的介绍和使用(一)

文本分析即Analysis,是指把整个文本分解成一系列单词的过程,也称为分词。Analysis是通过Analyzer来实现的,Analyzer又称为分词器。ElasticSearch为我们提供了一些内置的分词器,我们也可以通过插件的形式增加新的分词器。本篇经验将分享ES内置分词器:Standard Analyzer, Simple Analyzer, Whitespace Analyzer, Stop Analyzer 的使用方法和处理效果。
工具/原料

ElasticSearch, Kibana

方法/步骤
1

Standard Analyzer1. 默认分词器2. 按词切分(基于词典)3. 切分后全部转换为小写4. 保留StopWords(停止词,如英文的in a the 等)图1示:英文分词的效果图2示:中文分词的效果,只是将中文语句分解为单个中文文字,没有词的概念,因此该分词器无法应对中文分词

2

Simple Analyzer1. 使用非英文字母进行分词2. 分词后,非英文字母被删除3. 切分后全部转换为小写4. 保留StopWords图1示:英文分词的效果图2示:中文分词的效果,其对于连接在一起的中文语句不做任何切分,完整输出,该分词器无法应对中文分词

3

Whitespace Analyzer1. 使用空白字符进行分词2. 切分后不做大小写处理3. 保留StopWords图1示:英文分词的效果图2示:中文分词的效果,依然只会针对空白字符进行分词,无空白字符的串会被完整输出,该分词器无法应对中文分词

4

Stop Analyzer1. 使用非英文字母进行分词2. 分词后,非英文字母被删除3. 切分后全部转换为小写4. 删除StopWords图1示:英文分词的效果图2示:中文分词的效果,其对于连接在一起的中文语句不做任何切分,完整输出,该分词器无法应对中文分词注意:该分词器和 Simple Analyzer 相比,增加了删除停止词的过滤器,其余一致。

推荐信息