当前位置: 首页 > news >正文

海口模板建站平台青岛网站建设哪家好

海口模板建站平台,青岛网站建设哪家好,唐山网站制作专业,旅游网站建设方案书文章目录 前言为什么叫倒排索引数据结构如何生成如何查询TF、IDF参考文档 前言 上一章,简单介绍了 ES 的节点类型。 本章,我们要介绍 ES 中非常重要的一个概念:倒排索引。 ES 的全文索引就是基于倒排索引实现的。 本章内容建议重点学习&…

文章目录

      • 前言
      • 为什么叫倒排索引
      • 数据结构
      • 如何生成
      • 如何查询
      • TF、IDF
      • 参考文档

前言

上一章,简单介绍了 ES 的节点类型。
本章,我们要介绍 ES 中非常重要的一个概念:倒排索引。
ES 的全文索引就是基于倒排索引实现的。
本章内容建议重点学习,因为面试也常问。

为什么叫倒排索引

倒排索引指的是将每一个关键字映射到它出现的文档中。如下图所示
在这里插入图片描述

因为结构是倒着的,因此被称为倒排索引。

数据结构

倒排索引分为 2 部分:一部分叫 term directory(term 词典),一部分叫 posting list(倒排列表)。如下图所示
在这里插入图片描述

  • term directory
    term 字典,存放着每个单词到对应倒排列表的映射关系

  • posting list
    Docs 是一个数组。其中 1:2:[2,6] 意思如下

    • 1:文档ID
    • 2:词频(term frequency)
    • [2,6]:出现在文档中的第 2,6 个 term。

如何生成

这里涉及到我们之前讲过的分词器。工作流程如下图所示
在这里插入图片描述

大体就包含2部分,根据分词器将文本分词,然后根据分词生成倒排索引。

如何查询

例如我们查询:To do right
则该文本会先被分词为:to, do, right
对应的结果如下图所示:
在这里插入图片描述

TF、IDF

默认情况下,ES 会根据文档与搜索词的相关性得分对结果降序返回。相关性得分与以下 2 个概念有关(稍做了解,后续会出文章做更深入的介绍)

  • Term Frequency(TF):term 在文档中出现的频率,得分正相关。出现频率越高,得分越高
  • Inverted Document Frequency(IDF):term 在 所有文档 中出现的频率,得分负相关。出现频率越高,得分越低。

参考文档

Indexing: Inverted Index

http://www.wangmingla.cn/news/138495.html

相关文章:

  • 做城市网站的标语北京百度竞价托管
  • 南昌seo计费管理推广关键词如何优化
  • 天津建设委员会网站网络营销的培训课程
  • 广州市天河区建设和水务局网站如何做网址
  • 2016年做网站好不好友情链接如何交换
  • 做网站用java广告推广方案
  • wordpress 文章保存在哪里seo整站优化一年价格多少
  • 沈阳德泰诺网站建设搜索引擎推广成功的案例
  • 深圳封控区最新政策短视频seo排名系统
  • elementui 做的网站宁波seo外包服务平台
  • 建立网站是什么建立的室内设计网站
  • 做网站要懂哪些十大seo公司
  • 学习网页设计的网站百度网盘登录入口 网页
  • wordpress 购物插件seo关键词排名系统
  • 企业做网站认证有哪些好处保定百度首页优化
  • wordpress文章列表调用windows优化大师兑换码
  • 网站建设策划方案站长工具app下载
  • 仪征市建设局网站百度账户托管公司
  • 建立个人网站能干seo的定义是什么
  • 收费看电影网站建设北京做网站的公司排行
  • 网页设计与制作对于大数据专业伟哥seo博客
  • 义乌好品质自适应网站建设草根seo视频大全
  • 青岛网站建设seo湘潭高新区最新新闻
  • 来宾北京网站建设推广文章的注意事项
  • 个人网站下载搜索引擎优化实验报告
  • 网站推广策划思路与执行推广图片制作
  • word68网站app引导页模板html
  • 利用php做网站百度一下百度百科
  • 网页界面设计欣赏seo每日工作内容
  • 做网站最好软件镇江关键字优化品牌