【Elasticsearch专栏 02】深入探索:Elasticsearch为什么使用倒排索引而不是正排索引

news/2024/7/20 15:13:26 标签: elasticsearch, 大数据, java, 开源软件, 搜索引擎

文章目录

  • 为什么使用倒排索引而不是正排索引?
    • 1.正排索引(Forward Index)
    • 2.倒排索引(Inverted Index)
    • 3.小结

为什么使用倒排索引而不是正排索引?

Elasticsearch选择使用倒排索引而不是正排索引,主要是基于倒排索引在处理全文搜索和大规模数据集时的优势。下面将详细解释为什么Elasticsearch更倾向于使用倒排索引,并提供一些简化的代码片段来说明这两种索引结构的基本差异。

1.正排索引(Forward Index)

正排索引是一种将文档映射到其包含的单词的索引结构。每个文档都有一个与之关联的单词列表,列表中的单词按照在文档中出现的顺序进行排列。正排索引可以快速找到文档中包含的单词,但对于查找包含特定单词的所有文档则不是很高效。

例如,假设有两个文档:

Document 1: "The quick brown fox jumps over the lazy dog"  
Document 2: "Quick foxes jump over lazy dogs in summer"

一个简化的正排索引可能如下所示:

Document 1 -> [the, quick, brown, fox, jumps, over, the, lazy, dog]  
Document 2 -> [quick, foxes, jump, over, lazy, dogs, in, summer]

如果想要查找包含单词"quick"的所有文档,需要遍历整个索引,检查每个文档的单词列表,这在大规模数据集中是非常低效的。

2.倒排索引(Inverted Index)

倒排索引是一种将单词映射到包含该单词的文档的索引结构。每个单词都有一个与之关联的文档列表,列表中的文档按照某种排序标准(如相关性分数)进行排列。倒排索引可以高效地找到包含特定单词的所有文档,并支持复杂的查询操作,如短语查询、通配符查询和布尔查询等。

对于上面的文档示例,一个简化的倒排索引可能如下所示:

the    -> [Document 1]  
quick  -> [Document 1, Document 2]  
brown  -> [Document 1]  
fox    -> [Document 1]  
jumps  -> [Document 1]  
over   -> [Document 1, Document 2]  
lazy   -> [Document 1, Document 2]  
dog    -> [Document 1]  
foxes  -> [Document 2]  
jump   -> [Document 2]  
dogs   -> [Document 2]  
in     -> [Document 2]  
summer -> [Document 2]

现在,如果想要查找包含单词"quick"的所有文档,只需要查找与"quick"关联的文档列表即可,这是一个非常高效的操作。

3.小结

Elasticsearch选择使用倒排索引而不是正排索引,主要是基于倒排索引在处理搜索查询时的优势。

正排索引是一种基于文档的索引结构,它将文档中的每个词汇作为关键词进行排序和存储。当查询请求到来时,Elasticsearch会根据查询中的词汇在文档中的出现频率和位置信息,对文档进行排序和匹配。这种索引结构适用于全文搜索和基于关键词的搜索,因为它能够快速定位到包含查询关键词的文档。

然而,正排索引在处理基于短语或句子的搜索时可能效果不佳,因为它无法有效地将多个相关的词汇组合在一起进行匹配。此外,随着索引值的增大,一个节点能存储的数据量会大大减少,导致B+树(一种常见的正排索引结构)变得更深,每次查询数据所需的IO次数也会增多,从而影响查询效率。

相比之下,倒排索引是一种基于词汇的索引结构,它将文档中的词汇作为索引项进行存储,并将每个词汇与其对应的文档集合进行关联。当查询请求到来时,Elasticsearch会根据查询中的词汇在倒排索引中查找与之匹配的文档集合,并进行排序和匹配。这种索引结构能够更好地处理基于短语或句子的搜索需求,因为它能够将与查询相关的多个词汇组合在一起进行匹配,从而提高了搜索的准确性和性能。

此外,倒排索引还通过使用分词器对文本进行分词,将文本切分成更小的词汇单元,并构建词汇到文档的映射关系。这种处理方式使得Elasticsearch能够更灵活地处理各种文本数据,并支持更复杂的查询操作。

因此,综合考虑倒排索引在处理搜索查询时的优势和正排索引的局限性,Elasticsearch选择使用倒排索引作为其主要的索引结构。同时,在实际应用中,Elasticsearch也会结合使用正排索引等其他索引结构,以提高搜索性能和准确性。


http://www.niftyadmin.cn/n/5385698.html

相关文章

一、初始 Vue

1、Vue 1.1 Vue简介 1.1.1 Vue.js 是什么 Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式框架。与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用。Vue 的核心库只关注视图层,不仅易于上手,还便于与第…

【RT-DETR有效改进】Best Paper | DAttention (DAT)可变形注意力机制和动态采样点

一、本文介绍 本文给大家带来的是RT-DETR改进DAT(Vision Transformer with Deformable Attention)的教程,其发布于2022年CVPR2022上同时被评选为Best Paper,由此可以证明其是一种十分有效的改进机制,其主要的核心思想是:引入可变…

【项目实践-04】实验室移动端:对象添加新属性+webview IOS端appendJsFile()方法不生效

一、vue2对象添加新属性 在做实验室移动端时有这样一个需求,即获取下级页面的数据 (toChooseDevice()),为当前页面中的form表单数据添加新的属性和值,然后表单完成后进行提交(submitForm())操作 toChooseDevice(str) {uni.navigateTo({url: …

Flask数据库操作-Flask-SQLAlchemy

Flask中一般使用flask-sqlalchemy来操作数据库。flask-sqlalchemy的使用介绍如下: 一、SQLAlchemy SQLALchemy 实际上是对数据库的抽象,让开发者不用直接和 SQL 语句打交道,而是通过 Python 对象来操作数据库,在舍弃一些性能开销…

etcdctl查看k8s资源信息

背景 k8s中的网络配置和对象状态信息都会保存到etcd中,所以我们可以通过etcdctl查看保存在数据库中的信息 常用操作 查看etcd的各个节点的状态 [rootmaster3 ~]# etcdctl --endpoints"10.197.115.27:2379,10.197.115.25:2379,10.197.115.26:2379" --ca…

【方案开发】KaiOS 新增APN信息字段的代码实现

背景 KaiOS 基线不提供MCC、MNC、MVNO和bearer等信息的显示,因此在APN详情页无法查看单条APN的这些信息,跟Android 原生逻辑存在差异,需要自行实现。 相关知识和编译调试方法 KaiOS APN Settings模块代码-CSDN博客 KaiOS 运营商相关文件o…

构建企业数据安全的根基:深入解析数据安全治理能力评估与实践框架

随着数字化转型深入各行各业,数据安全已成为企业不可或缺的重要议题。在这一背景下,有效的数据安全治理框架成为确保企业数据安全的基石。 一、数据安全治理框架 中国互联网协会于 2021 年发布 T/SC-0011-2021《数据安全治理能力评估方法》&#xff0c…

机器学习基础(六)TensorFlow与PyTorch

导语:上一节我们详细探索了监督与非监督学习的结合使用。,详情可见: 机器学习基础(五)监督与非监督学习的结合-CSDN博客文章浏览阅读4次。将监督学习和非监督学习结合起来,就像将两种不同的艺术形式融合&a…