狠狠撸

An introduction to
Inverted Index
倒排索引的介绍
邬勇

引言
倒排索引 (Inverted index) ，也常被称为反向索
引、置入档案或反向档案，是一种索引方法，被用
来存储在全文搜索下某个单词在一个文档或者一组文
档中的存储位置的映射。它是文档检索系统中最常用
的数据结构。
有两种不同的反向索引形式：
文档水平 (Document-level) 反向索引（或者反向
档案索引）包含每个引用单词的文档的列表。
单词水平 (word-level) 反向索引（或者完全反向
索引）又包含每个单词在一个文档中的位置。
后者的形式提供了更多的兼容性（比如短语搜
索），但是需要更多的时间和空间来创建。

主要内容
1. 倒排索引 (inverted index) 结构
2. 倒排索引构造流程
3. 倒排索引构造 (index construction)
4. 倒排索引压缩 (index
compression)

1. 倒排索引 (inverted index) 结
构
? 倒排索引由字典文件 (dictionary) 和记录文件 (postings
file) 两部分组成。
? 字典 (dictionary) 主要是由 term,termID, 包含该 term 的文
档数目 ft ，以及指向该记录表 (postings list) 的指针组成
。
dictionary: <term,termID,ft,pointer> [postings list]
? 记录 (posting) 主要是记录 term 所在的文档
(docID) ， term 在文档中出现的次数，以及在文档中的
位置，文档长度等信息。
posting: <docID, fd,t,<position1,… positionfd,t>>

1. 倒排索引 (inverted index) 结
构
下图是简单的倒排索引结构例子。
5
Dictionary Postings list
Doc IDDoc ID
Brutus
Calpurnia
Caesar 1 2 4 5 6 16 57 132
1 2 4 11 31 45 173
2 31
174
54101
TermTerm PointerPointer

2. 倒排索引的构造过程
Col l ect i on
Par ser
Modi f i ed t okens
I ndexer
I nver t ed I ndex
解析器。根据不同的文档采
用不同的解析器对其解析。
其中包括分词器( Tokeni zer )
和语言模块( l i ngui st i c
modul es) 如大小写折叠( case
f ol di ng) 处理, ( st opper ) 停
用词处理，以及( st emmer ) 词
根化处理等.
索引器。主要是生成
( di ct i onar y) 字典文件和
( post i ngs f i l e) 记录文件组成
的倒排索引，其中包括( sor t ) 排
序操作。对于大规模的文档的处
理, 包括中间文件的合并( mer ge)
操作以及对字典文件和记录文件
的压缩( i ndex compr ess) 操作。

2. 倒排索引的构造过程
I did enact Julius
Caesar I was killed
i' the Capitol;
Brutus killed me.
Doc 1
So let it be with
Caesar. The noble
Brutus hath told you
Caesar was ambitious
Doc 2
Term Doc #
I 1
did 1
enact 1
julius 1
caesar 1
I 1
was 1
killed 1
i' 1
the 1
capitol 1
brutus 1
killed 1
me 1
so 2
let 2
it 2
be 2
with 2
caesar 2
the 2
noble 2
brutus 2
hath 2
told 2
you 2
caesar 2
was 2
ambitious 2
Term Doc #
ambitious 2
be 2
brutus 1
brutus 2
capitol 1
caesar 1
caesar 2
caesar 2
did 1
enact 1
hath 1
I 1
I 1
i' 1
it 2
julius 1
killed 1
killed 1
let 2
me 1
noble 2
so 2
the 1
the 2
told 2
you 2
was 1
was 2
with 2
构造无词语位置信息倒排索引的简单示例：

3. 倒排索引的构造方法
硬件基础回顾 :
2007 年系统的典型参数规格指标
（寻道时间指磁头重一个位置到另一个位置的时间。每字节传输时间指数据从外存到内存的时间比例）
symbol statistic value
s 平均寻道时间 5 ms = 5 x 10?3
s
b 每字节传输时间 0.02 μs = 2
x10?8
s
处理器的时钟频率 109
s?1
p 低层次处理时间 0.01 μs = 10?8
s
(e.g., compare & swap a word)
主要内存大小 several GB
外存空间大小 1 TB or more

3. 倒排索引的构造方法
? 基于分块排序索引 (BSBI:Blocked sort-based Indexing)
? 一遍式内存排序索引 (SPIMI: Single-pass in-memory
indexing)

基于分块排序索引 (BSBI) 该方法主要包含以下步骤 :
（ 1 ）将全部文档集合划分为若干相同大小的块，这
个块的大小一般和内存分配的大小正好相同。
（ 2 ）在内存中对每个块的所有词语号和文档号构成
的值对 (termID － docID) 进行排序。
（ 3 ）将这些排好序的中间结果存储到外存中。
（ 4 ）对全部的中间结果进行合并，生成最终的倒
排索引。
基于分块排序索引
(BSBI:Blocked sort-based Indexing)

Blocked sort-based indexing algorithm

Merging in blocked sort-based indexing
(2 个块文件（待合并的记录表（ postings list ））从外存加载到内存中。在内存中合并（合并好的记录
表）然后写回外存。为了方便理解，用词语 (term) 代替词语号（ termID ） ).

一遍式内存排序索引
(SPIMI: Single-pass in-memory indexing)
? 基于分块排序索引方法虽然具有较好的可缩放性
(scaling properties) ，但是它要求一个数据结构存储
所有的词语和映射的词语号 (map term to termID) 。
对于大规模的文档集合而言，这个数据结构往往无
法存储在内存中。
? 相对而言，一遍式内存排序（ Single-pass in-
memory indexing ， SPIMI ）方法既有较高的可缩
放性，同时无需使用词语号，直接将每个字典数据
块信息写到外存，在开始新的字典数据块的生成。
所以，该方法可以索引任何大小规模的文档集合，
只要外存空间足够。

Merging of blocks is analogous to BSBI.
Inversion of a block in single-pass in-memory indexing algorithm

基于分块排序索引与一遍式内存排序索引比
较（ BSBI vs SPIMI ）
BSBI 的时间复杂度为
O （ T×logT ），其中消
耗时间最多的是对块的排
序过程， T 是所要排序的
数量上限，也就是所有值
对的数量总和。这些时间
是基本稳定的，实际索引
的时间往往更易于受解析
文档和最终的合并过程所
影响。
SPIMI 的时间复杂度为 O(T) ，
因为没有值对的排序要求，对
于文档集的大小全部操作都是
一遍式的处理；直接将记录添
加到记录列表中。
该方法不去首先获取全部的词语
文档号的值对并对其排序，而把
记录列表做成动态形式，也就是
说，它的大小是可以动态调整的
，并可以直接收集词语的记录信
息。这样做有两个优点：
一是由于没有额外的排序，所以
速度很快；
二是直接利用词语来得到相应的
记录信息，无需使用词语号。所
以该方法一次处理的数据块所包
含的信息更多，相应的索引构造
效率也就更高。

基于分块排序索引 (BSBI) 方法中各模
块处理时间

一遍式内存排序索引 (SPIMI) 方法中各
模块处理时间

相关资料：
1. Efficient Single-Pass Index Construction for Text
Databases Steen Heinz ， Justin Zobel ， 2003 。
2. Chapter 5 of 《 Managing Gigabytes:
Compressing and Indexing Documents and
Images 》 2nd
Morgan Kaufmann, San Francisco,
California ， 1999 。

分布式索引
(Distributed indexing)
? 主要介绍分布式构造索引的过程，以及 Map-
Reduce 方法。这部分由梁竹介绍。

动态索引
(Dynamic indexing)
? 主要介绍在动态变化的文档集情况下，如何构
造动态索引。这部分由蒋仁祥介绍。

4. 索引的压缩
分为字典压缩 (Dictionary Compress) 和记
录压缩 (Posting Compress) 。以及 Heaps’
law 和 Zipf’s law 。

字典压缩
(Dictionary Compress)
主要介绍 Heaps’ law 以及几种字典压缩的
编码方法。这部分由何泉昊介绍。

记录压缩
(Posting Compress)
主要介绍 Zipf’s law 以及几种记录压缩的编
码方法。这部分由刘影介绍。

狠狠撸

An introduction to inverted index

More Related Content

An introduction to inverted index

Editor's Notes