Inverted File Index¶

Definition¶

倒排索引中，对于每个单词，都记录了包含这个单词的文档数和指向这些文档的指针。

对于每个单词出现的每个文档，可以记录出现的次数和位置：

词干提取，将单词转换为其词干形式，如将 "running" 转换为 "run"。

停用词，如 "a", "the", "is" 等，不记录这些单词。

存储倒排索引的数据结构：

当内存不足时，将当前内存中的倒排索引写入磁盘，再读取下一部分。

当磁盘空间不足时，可以将倒排索引分为多个部分，分别存储在不同的磁盘上。一般采用分布式存储，查询时调度多个磁盘并行读取。

建立主表和辅助表，辅助表动态更新，存储新插入的文档。查询时在主表和辅助表中查找。

删除时，对删除的文档进行标记，不用立即修改倒排索引。

对倒排索引进行压缩，只存储 index 的差值。

检索时，计算每个文档的权重，只检索权重在前 $x$ 的文档。

查询时，将查询词出现的次数视为权重，根据权重高的查询词优先检索。

分为以下指标：

不同的评判类别：

计算查询词与文档的相关性，

	Relevent	Irrelevent
Retrieved	$R_{R}$	$I_{R}$
Not Retrieved	$R_{I}$	$I_{I}$