【Elasticsearch专栏 01】深入探索:Elasticsearch的正向索引和倒排索引是什么

news/2024/7/20 13:23:52 标签: elasticsearch, 大数据, 开源软件, java

文章目录

  • 什么是Elasticsearch的正向索引和倒排索引?
    • 1.倒排索引(Inverted Index)
    • 2.正向索引(Forward Index)
    • 3.小结

什么是Elasticsearch的正向索引和倒排索引?

首先,要明确的是,Elasticsearch本质上只使用倒排索引来实现高效的搜索和查询功能。正向索引虽然在某些数据库和搜索系统中被提及,但在Elasticsearch的上下文中并不是一个核心概念。下面我详细解释倒排索引,并简要提及正向索引以提供对比。

1.倒排索引(Inverted Index)

倒排索引是Elasticsearch中用于实现全文搜索的核心数据结构。它基于单词(term)建立索引,而不是基于文档。这意味着,对于文档中的每个单词,倒排索引都会记录哪些文档包含该单词以及该单词在文档中的位置信息(通常是词频和位置)。

倒排索引的结构

  1. 词典(Term Dictionary):包含所有单词的列表,每个单词指向一个或多个倒排列表。
  2. 倒排列表(Posting List):对于每个单词,包含一个列表,其中记录了包含该单词的文档ID和该单词在文档中的位置信息。

示例

假设有以下两个文档:

文档1: "Elasticsearch is a powerful search engine."  
文档2: "Elasticsearch allows you to store, search, and analyze data efficiently."

对应的倒排索引可能如下:

词典

  • Elasticsearch
  • is
  • a
  • powerful
  • search
  • engine
  • allows
  • you
  • to
  • store
  • analyze
  • data
  • efficiently

倒排列表

  • Elasticsearch: [文档1的ID, 位置1; 文档2的ID, 位置1]
  • is: [文档1的ID, 位置2]
  • a: [文档1的ID, 位置3]
  • … (其他单词的倒排列表)
  • efficiently: [文档2的ID, 位置11]

2.正向索引(Forward Index)

正向索引是基于文档建立的,它记录文档中每个单词的位置信息。在正向索引中,通过文档ID可以迅速找到文档中的所有单词及其位置。

正向索引的示例

  • 文档1: [“Elasticsearch”, 位置1; “is”, 位置2; “a”, 位置3; …]
  • 文档2: [“Elasticsearch”, 位置1; “allows”, 位置2; “you”, 位置3; …]

注意:在Elasticsearch的实际实现中,并不直接使用正向索引进行搜索。正向索引主要用于辅助倒排索引,例如用于支持高亮显示、短语搜索等功能。

Elasticsearch中的正向索引和倒排索引是两种截然不同的索引方式,它们在数据存储和检索方式上有着根本的区别。下面我】将详细解释它们之间的区别,并提供相关的代码片段。

3.小结

正向索引和倒排索引各有其优缺点。正向索引结构简单,但检索效率较低;而倒排索引检索效率高,但结构相对复杂。在实际应用中,倒排索引被广泛用于支持高效的全文搜索和复杂查询操作。然而,在某些特定场景下,如需要快速访问单个文档时,正向索引可能更为适用。


http://www.niftyadmin.cn/n/5386145.html

相关文章

QT 如何让多语言翻译变得简单,提高效率?

一.QT多语言如何翻译的? 在QT的多语言翻译过程中,分为两个步骤:第一步生成ts文件,第二步将ts文件翻译为qm文件。如果我们在需要多语言的情况下,qml经常使用qstr或者qwidget中使用tr等等,遍布许多个文件夹,在需要更新新的翻译时会很麻烦。整个工程收索并修改,效率十分低…

遥遥领先的大语言模型GPT-4的图像合成能力如何?

遥遥领先的多模态大语言模型GPT-4的图像合成能力如何?今天分享一个建立了一个用于评估GPT-4生成图像中纹理特征保真度的基准,其中包括手工绘制的图片及其AI生成的对应物。本研究的贡献有三个方面:首先,对基于GPT-4的图像合成特征的…

0221 嵌入式第二十天

接昨日内容 今天继续目录IO的学习 4.readdir 功能:从目录流中读取下一个目录项结构体信息 struct dirent *readdir(DIR *dirp); 参数:dirp:目录流指针 返回值: 成功返回包含目录项信息的空间首地址 失败返回NULL 读到文件末尾返回NULL st…

Flink双流(join)

一、介绍 Join大体分类只有两种:Window Join和Interval Join Window Join有可以根据Window的类型细分出3种:Tumbling(滚动) Window Join、Sliding(滑动) Window Join、Session(会话) Widnow Join。 🌸Window 类型的join都是利用window的机制…

OpenAI Sora文本生成视频注册教程

使用Sora需要确保已经注册了OpenAI账户并升级到ChatGPT Plus,Sora目前仍处于早期访问或测试阶段,还没有进入公测阶段,请耐心关注和等待。 据官方透露的消息,OpenAI近期大概率会宣布将Sora首批开放给Chatgpt Plus用户申请使用。所…

【UI自动化】八大元素定位方式|xpath css id name...

目录 一、基础元素定位 二、cssSelector元素定位——通过元素属性定位 三、xpath元素定位——通过路径 1 、xpath绝对定位 (用的不多) 缺点:一旦页面结构发生变化(比如重新设计时,路径少两节)&#x…

填充字段(以太网帧和IP数据报)

以太网帧的填充字段 要求是确保数据字段的长度在46到1500字节之间。 以太网帧是网络通信中的基本单位,它的结构包括前导码、定界符、目的地址(DA)、源地址(SA)、类型/长度字段、数据、帧校验序列(FCS&…

【前端】夯实基础 css/html/js 50个练手项目(持续更新)

文章目录 前言Day 1 expanding-cardsDay 2 progress-steps 前言 发现一个没有用前端框架的练手项目,很适合我这种纯后端开发夯实基础,内含50个mini project,学习一下,做做笔记。 项目地址:https://github.com/bradtr…