文本分析即Analysis,是指把整个文本分解成一系列单词的过程,也称为分词。Analysis是通过Analyzer来实现的,Analyzer又称为分词器。ElasticSearch为我们提供了一些内置的分词器,我们也可以通过插件的形式增加新的分词器。本篇经验将分享ES内置分词器:Standard Analyzer, Simple Analyzer, Whitespace Analyzer, Stop Analyzer 的使用方法和处理效果。
工具/原料
ElasticSearch, Kibana
方法/步骤
1
Standard Analyzer1. 默认分词器2. 按词切分(基于词典)3. 切分后全部转换为小写4. 保留StopWords(停止词,如英文的in a the 等)图1示:英文分词的效果图2示:中文分词的效果,只是将中文语句分解为单个中文文字,没有词的概念,因此该分词器无法应对中文分词
2
Simple Analyzer1. 使用非英文字母进行分词2. 分词后,非英文字母被删除3. 切分后全部转换为小写4. 保留StopWords图1示:英文分词的效果图2示:中文分词的效果,其对于连接在一起的中文语句不做任何切分,完整输出,该分词器无法应对中文分词
3
Whitespace Analyzer1. 使用空白字符进行分词2. 切分后不做大小写处理3. 保留StopWords图1示:英文分词的效果图2示:中文分词的效果,依然只会针对空白字符进行分词,无空白字符的串会被完整输出,该分词器无法应对中文分词
4
Stop Analyzer1. 使用非英文字母进行分词2. 分词后,非英文字母被删除3. 切分后全部转换为小写4. 删除StopWords图1示:英文分词的效果图2示:中文分词的效果,其对于连接在一起的中文语句不做任何切分,完整输出,该分词器无法应对中文分词注意:该分词器和 Simple Analyzer 相比,增加了删除停止词的过滤器,其余一致。
上一篇:各种netstat命令的用法
下一篇:mysql启动和停止的三个方法