Elasticsearch 电商场景：明明有这个关键词，但是搜不出来，怎么办？

作者：空白诗007 | 2024-08-07 14:24:19

踩

elasticsearch搜索不出来

如下截图来自《一本书讲透 Elasticsearch》读者群里的问题，数十条交流信息，讨论得非常热烈。

个人建议非常有必要和大家一起探讨一下技术方案。

1、实战问题

场景：电商创业公司（非传统巨头）
读者描述需求：

content是一个text类型，用的 ik_max_word 分的词，需要根据关键词做精准匹配，并且按照发布时间倒序。

比如我搜：小米6s，搜出来的结果要精确匹配到：小米6s，并且按照用户的发布时间倒序排序。

现在的问题是用 match_pharse 搜索的时候，有时候文档里明明有这个关键词，但是搜不出来，尝试了好几种手段......

熟悉咱们公众号推文的同学应该知道，咱们分别在 2018年、2020年、2022年都做过多次类似问题的讨论。

探究 | 明明存在，怎么搜索不出来呢？

Elasticsearch能检索出来，但不能正确高亮怎么办？

由 Elasticsearch 空间换时间的线上问题说开去......

2、重新梳理一下检索认知

2.1 分词和词典的本质

数据索引化的过程是借助分词器完成的，如读者的分词器是 IK 中文分词器。

问题来了？IK 中文分词器能包含全部的词汇吗？

大家看 medcl 大佬开源的 IK 分词器的源码中能找到 main.dic 大小是 2.92 MB。并且这个词典 8 年+ 没有更新过。

显然：IK 默认词典覆盖不了全部词汇，尤其诸如“显眼包”、“小米14”、“奥利给”、“叶氏那拉”等的新词。如下截图是我自定义的词典的词库检索截图。

再来一波举例看看：


PUT my_index_0512
{
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "ik_smart",
        "fields": {
          "keyword": {
            "type": "keyword"
          }
        }
      }
    }
  }
}


POST my_index_0512/_bulk
{"index":{"_id":1}}
{"title":"奥利给是一个网络流行词，第一次出现在一名快手主播直播时说的正能量语录里。"}
 
 
## 分词为：“奥利” 和 “给” 两个词
POST my_index_0512/_analyze
{
  "text":"奥利给是一个网络流行词，第一次出现在一名快手主播直播时说的正能量语录里。",
  "analyzer":"ik_smart"
}
 
## 检索不能召回结果，这里用 term 主要说明问题，合理性待商榷！
POST my_index_0512/_search
{
  "profile": true, 
  "query": {
    "term": {
      "title": "奥利给"
    }
  }
}

结论：词典决定分词，词典里没有的词，极大可能（有一定概率，比如：match_phrase 词+词组合的情况）检索会检索不到。

ps: 关于 term、match、match_phrase 区别等，推荐阅读：检索选型。

2.2 全文检索的本质

全文检索的本质是查询待检索的关键词在写入所创建的索引中是否存在的过程。

存在，则召回；不存在，则返回空。

2.3 明明有这个关键词，但是搜不出来的本质

表面上可以看出，之前咱们2018年、2020年、2022年讨论的方案用 match、match_phrase、match_phrase_prefix 等再结合 slop，貌似能解决一些问题，好像有些不召回的情况，可以召回了。

但，依然治标不治本。依然会存在一些“新词”、“词典里没有的词”等看似明明一段话里存在的词，就是检索不到的原因。

3、能不能根治呢？

答案：不完全能！

但，可以尝试空间换时间，借助 Ngram 能解决 99% 以上场景的问题。

针对读者的问题，借助 Ngram 分词实操一下：


### 3.1 创建索引
DELETE new_spy_uat2
PUT new_spy_uat2
{
  "settings": {
    "index.max_ngram_diff": 10,
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer",
          "char_filter": ["my_char_filter"]
        }
      },
      "char_filter": {
        "my_char_filter": {
          "type": "pattern_replace",
          "pattern": "[^\\p{L}\\p{N}\\s]+",
          "replacement": ""
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "ngram",
          "min_gram": 2,
          "max_gram": 10
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "my_analyzer",
        "fields": {
          "keyword": {
            "type": "keyword"
          }
        }
      }
    }
  }
}

在提供的 Elasticsearch 配置中，my_tokenizer 是一个基于 n-gram 的分词器，配置了从最小 2 个字符到最大 10 个字符的 n-gram。

在《一本书讲透 Elasticsearch》第6.4 章节 P111 解读了自定义分词器的三大核心组成：

character filter
tokenizer
token filter

咱们上面的“my_char_filter”定义了文本在分词前进行预处理的字符过滤规则。实际是使用正则表达式删除所有非字母、非数字、非空格字符，只保留字母、数字和空白字符，中文字符是可以保留的。

N-gram 是一种分词方法，通过从文本中提取 n 个连续字符的滑动窗口来创建词元（tokens）。这种方法在处理需要部分匹配和模糊搜索的应用中非常有用，比如搜索建议和拼写错误的容错处理。

在这种配置下，文本会被分解成所有可能的 2 到 10 个字符的组合。

例如，要执行如下检索：


POST new_spy_uat2/_analyze
{
  "analyzer":"my_analyzer",
  "text":"奥利给这几年才流行"
}

分词结果如下：

这种方法可以大大增加索引的大小因为每个词都被分解成多个子词，但同时也提高了搜索的灵活性和准确性，尤其是在搜索短文本或关键词片段时。

这样的分词器尤其适合于搜索引擎的自动补全功能和处理用户可能的输入错误，因为它能够在用户输入部分信息时就开始匹配相关的词条。

3.2 导入数据


POST new_spy_uat2/_bulk
{ "index" : { "_index" : "new_spy_uat2", "_id" : "1" } }
{ "content" : "新品豪车❗️限1000单食物链巴氏小仙包犬湿粮360g声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/空白诗007/article/detail/942969
推荐阅读
article企业级日志系统架构——ELK（Elasticsearch、Filebeat、Kafka、Logsta...
文章目录一、概述1）Elasticsearch 存储2）Filebeat 日志数据采集3）Kafka4）Logstash...
                                    赞
踩
articlekibana 查询_FileBeat+ElasticSearch+Kibana 实时日志系统搭建从入...
距离全链路跟踪分析系统第二个迭代已经有一小阵子了，由于在项目中主要在写ES查询\Storm Bolt逻辑，都没有去搭建实...
                                    赞
踩
articleFilebeat+Kafka+Logstash+Elasticsearch+Kibana 构建日志分...
文章目录一、前言二、背景信息三、操作流程四、准备工作1、Docker 环境3、版本准备4、环境初始化5、服务安装6、服务...
                                    赞
踩
articlewindows简单搭建 filebeat + kafka + logstash + Elastics...
windows简单搭建 filebeat + kafka + logstash + Elasticsearch + Ki...
                                    赞
踩
articleelasticsearch 特殊操作整理...
以下操作都是我日常开发中遇到的问题及解决方案，供大家参考。剩余磁盘空间达到es最小值，添加数据被blockPUT _al...
                                    赞
踩
article四、ElasticSearch——基本操作&索引管理_es cat 索引读写次数...
查看集群的健康状况http://localhost:9200/_cathttp://localhost:9200/_ca...
                                    赞
踩
articleElasticsearch--解决磁盘使用率超过警戒水位线_elasticsearch磁盘95%导致...
本文介绍如何解决ES磁盘使用率超过警戒水位线的问题。_elasticsearch磁盘95%导致不可写怎么解决elasti...
                                    赞
踩
articleElasticsearch index read-only 问题解决办法（ES磁盘满或满扩容之后处理...
执行了数据节点的es还是只读，随后发现主节点磁盘也满了。原因是因为kafka消息实例化的数据太多了，最后更改了kafka...
                                    赞
踩
article【Elasticsearch】IK分词器的下载及使用...
安装IK分词器【Elasticsearch】IK分词器的下载及使用                           ...
                                    赞
踩
articleelasticsearch SQL：在Elasticsearch中启用和使用SQL功能_python...
。Elasticsearch SQL是Elasticsearch的扩展功能，允许用户使用SQL语法查询Elasticse...
                                    赞
踩
article【ElasticSearch】ElasticSearch的倒排索引_es倒排索引...
ElasticSearch是一个基于Apache Lucene构建的开源搜索引擎，它提供了强大的全文搜索和分析功能。它不...
                                    赞
踩
articleElasticSearch（es）倒排索引_es得倒排索引...
通过上述机制，Elasticsearch 能够高效地处理各种复杂的全文搜索请求。索引构建时采用的分析器确保了文档能够被正...
                                    赞
踩
articleElasticsearch - 倒排索引_elasticsearch倒排索引...
在上一篇笔记Elasticsearch基础和原理中介绍了Elasticsearch的一些基本概念和原理，我们知道Elas...
                                    赞
踩
articleElasticSearch——倒排索引和正向索引_elasticsearch 索引类型...
正向索引 (forward index) 以文档的ID为关键字，表中记录文档中每个字的位置信息，查找时扫描表中每个文档中...
                                    赞
踩
articleElasticsearch：如何创建 Elasticsearch PEM 和/或 P12 证书？_e...
你是否希望使用 SSL/TLS 证书来保护你的 Elasticsearch 部署？在本文中，我们将指导你完成为 Elas...
                                    赞
踩
articleES（Elasticsearch）的基本使用...
elasticsearch的基本认识，以及springboot整合es的内容_eses                 ...
                                    赞
踩
article使用 ElasticSearch 作为知识库，存储向量及相似性搜索_elasticsearch co...
(img-YCqzJU9j-1712880249409)](img-YBBiuODW-1712880249409)](i...
                                    赞
踩
articleElasticsearch index 设置 false，为什么还可以被检索到？...
在 Elasticsearch 中，mapping 定义了索引中的字段类型及其处理方式。近期有球友提问，为什么设置了 i...
                                    赞
踩
article如何在 Elasticsearch 中选择精确 kNN 搜索和近似 kNN 搜索_elasticse...
在Elasticsearch中选择精确kNN（k-最近邻）搜索和近似kNN搜索需要考虑多个因素，包括数据集的大小、维度、...
                                    赞
踩
articleElasticsearch(三) Python 使用 elasticsearch 的基本操作_pyt...
这是因为第一条匹配的数据中含有“中国”和“领事馆”两个词，第二条匹配的数据中不包含“领事馆”，但是包含了“中国”这个词，...
                                    赞
踩
相关标签
elk
efk
日志系统
kibana 查询
kibana是什么
kibana查询
storm 机器上日志查询
kafka
elasticsearch
big data
分布式
搜索引擎
大数据
java
intellij-idea
后端