系统架构设计师案例分析题 - Web应用设计 | 芝士架构

分词一个非常关键的基础问题，指的是将一段连续的文本拆分成一个个有意义的“词”或“词项（token）”的过程。
例如：

原始文本：我爱北京天安门  
分词结果：["我", "爱", "北京", "天安门"]

ES构建索引时拆分文本，也就是将字段值分解为多个词项（tokens），建立倒排索引。如果你查询 "北京"，就能直接命中文档中相应的词项，而不是全表检索，效率差、效果差。

假如你不知道什么是分词，实际上根据字面意思Whitespace和Keyword 分词的含义也很好猜出来，拿个 4 分没有问题。其他常见的分词方法如下所示，作为补充拓展。

Standard 分词器
- 原理：默认分词器，基于 Unicode 文本分割算法，自动识别单词边界并将字母转为小写。
- 示例："Hello, world!" → ["hello", "world"]
- 适用场景：通用英文文本搜索。
Simple 分词器
- 原理：按非字母字符切分文本，结果转为小写；不识别数字或标点。
- 示例："Hello, world!" → ["hello", "world"]
- 适用场景：英文文本中快速获取单词，处理简单清洗任务。
Whitespace 分词器
- 原理：仅按空格切分文本，保留大小写和标点，不做任何预处理。
- 示例："Hello WORLD" → ["Hello", "WORLD"]
- 适用场景：日志、代码等格式固定文本的处理。
Keyword 分词器
- 原理：整体保留原始文本为一个词项，不进行分词处理。
- 示例："Hello World" → ["Hello World"]
- 适用场景：ID、标签、URL 等需精确匹配的字段。
NGram 分词器
- 原理：将文本按 n 个字符滑动分割，适用于模糊匹配。
- 示例："apple"，n=2 → ["ap", "pp", "pl", "le"]
- 适用场景：搜索建议、拼写纠错、中文子串匹配。
CJK 分词器
- 原理：面向中日韩语言的正向最大匹配算法。
- 示例："我爱北京天安门" → ["我", "爱", "北京", "天安门"]
- 适用场景：中日韩文本搜索。
Stop 分词器
- 原理：在分词时过滤停用词（如 "is"、"the" 等），保留有价值词项。
- 示例："The cat is cute" → ["cat", "cute"]
- 适用场景：英文搜索优化，减少干扰项。
Pattern 分词器
- 原理：基于正则表达式自定义分割规则。
- 示例：文本 "a;b|c"，分隔符正则为 ;|\| → ["a", "b", "c"]
- 适用场景：结构化日志、特殊格式字符串。
uax_url_email 分词器
- 原理：扩展分词器，能识别和保留 URL、邮箱等结构化实体。
- 示例："test@example.com" → ["test@example.com"]
- 适用场景：网页索引、邮箱字段搜索。