该索引表中的每个条目都包括一个属性值和带有该属性值的每个记录的地址。由于属性值不是由记录决定的,而是由属性值决定记录的位置,所以称为倒排索引。带有倒排索引的文件称为倒排索引文件,简称倒排文件。
倒排索引简介
倒排索引(English: inverted index)是一种索引方法,在全文检索系统中常被用作word文档映射结构。现代搜索引擎的索引大多建立在倒排索引的基础上,这是因为在实际应用中,用户在使用搜索引擎查找信息时,往往只在信息中输入某个属性关键字。比如有的用户记不住歌名,会输入歌词找歌名;输入节目内容段来查找节目,以此类推。
面对海量的信息数据,为满足用户需求,顺应信息时代快速获取信息的趋势,聪明的开发者们在进行搜索引擎开发时对这些信息数据进行逆向运算,研发了“关键词——文档”形式的一种映射结构,实现了通过物品属性信息对物品进行映射时,可以帮助用户快速定位到目标信息,从而极大降低了信息获取难度。倒排索引又叫反向索引,它是一种逆向思维运算,是现代信息检索领域里面最有效的一种索引结构。
面对海量的信息数据,为了满足用户的需求,顺应信息时代快速获取信息的趋势,智能开发者在开发搜索引擎时对这些信息数据进行逆向操作,开发出“关键词-文档”形式的映射结构,可以帮助用户在通过项目属性信息映射项目时快速定位目标信息,从而大大降低信息获取的难度。倒排索引又称逆向索引,是一种逆向思维操作,是现代信息检索领域最有效的索引结构。
第二,关于倒排指数
搜索引擎通常搜索以下场景:给定几个关键词,找出包含关键词的文档。
如何快速找到包含某个关键词的文档成为搜索的关键。在单词-文档矩阵模型的帮助下,
通过这个模型,我们可以很容易地知道一个文档包含哪些关键词,一个关键词包含哪些文档。
word-document矩阵的具体数据结构可以是倒排索引、签名文件、后缀树等。
倒排索引来源于实际应用中需要根据属性值来查找记录。lucene是基于倒排索引的。
该索引表中的每个条目都包括一个属性值和带有该属性值的每个记录的地址。
由于属性值不是由记录决定的,而是由属性值决定记录的位置,所以称为倒排索引。
有倒排索引的文件简称倒排索引文件。
倒排索引一般表示为一个关键词,后跟其出现频率(出现频率)、位置(出现哪篇文章或网页,以及相关日期、作者等信息),相当于对互联网上几千亿页做了一个索引,就像一本书的目录和标签一样。如果读者想看哪个章节与题目相关,可以直接根据目录找到相关页面。不需要从书的第一页搜索到最后一页。