�ݺ�ߣ

© Copyright 2014 Andrey Smirnov
Как работают системы
хранения данных?
• Хранение - на диске.
• Давайте напишем свою!

Файловая система
• Почему не система хранения данных?
• В плюсах:
• почти ничего не надо писать
• конкурентный доступ из разных приложений❔
• переносимость
• инструменты
• производительность
• Почему тогда не используется?

Простая плоская структура
key: len + chars
value: len + chars
key: len + chars
value: len + chars
key: len + chars
value: len + chars
….

Как это работает?
• Как будут добавляться записи?
• Как удаляться?
• Как изменить значение?
• Как прочитать значение по ключу?

?
Что можно изменить, чтобы
структура работала лучше?

Улучшения
• Отсортировать записи
• Флаг удаленности
• Индекс в отдельном файле
• Хэш-структура на диске

Проблемы ввода-вывода
• random IO
• block size/alignment
• буферы ОС/sync

Что делать?
• Страничный ввод-вывод
• Последовательный ввод-вывод (append-only)

Log-Structured Merge-Tree
С0
С1
merge

LevelDB
memtable Log
Level 0
SST
SSTSST
Level 1
Level 2
SST SST SST
SSTSST SST SST SST …
Level 3
…
…

LevelDB
• memtable - в памяти, только последние операции,
ограничено в размере
• Log - для восстановления memtable
• SST - отсортированные ключ-значения,
неизменяемый
• Level-0 - возможно пересечение

LevelDB
• Level1-LevelN: 10^L MB
• Level1-LevelN: непересекающие ключи
• Маркеры удаления
• Level0 ⇛ N: “молодые” ключи ⇛ “старые” ключи
• Сжатие: Snappy

Compaction: Level-0
Level 0
SST
SSTSST
Level 1
Level 2
SST SST SST
SSTSST SST SST SST
Level 3
…
…

Compaction: Level-0
Level 0
SST
SSTSST
Level 1
Level 2
SST SST SST
SSTSST SST SST SST
Level 3
…
…
SST

Compaction: Level-1+
Level 0
SST
SSTSST
Level 1
Level 2
SST SST SST
SSTSST SST SST SST
Level 3
…
…
SST

?
Как выполнить слияние
эффективно?
!
Чем ограничен объем данных при
слиянии?

Типовые операции
• Поиск
• Вставка
• Удаление

SST
data block 0
data block 1
…
data block N
index block 0
index block 1
…
index block N
key 
value 
key 
value
bloom ﬁlter
last_key 
offset 
last_key 
offset

Кто использует LevelDB
• Google BigTable (родоначальник)
• WebKit: LocalStorage
• Riak: LevelDB
• HyperDex: HyperLevelDB
• …

Ввод-вывод
• Только последовательная запись
• Можем записать одно значение несколько раз в
процессе слияний
• Чтение - потенциальный поиск по уровням

Bloom Filter

?
Для чего еще может пригодиться
bloom ﬁlter?

Страничный ввод-вывод
• Страница - основная единица ввода-вывода
• Размер страницы - несколько килобайт
• Оптимизация ввода-вывода за счет более
крупных блоков
• Страница содержит данные (или индексы)

Buffer Pool
0 1
11 12
2 3
13 14
4 5
15 16
6 7
17 18
8 9
19 20
10
21
Диск
Память
dirty dirty

Buffer Pool
• Кеш диска (уменьшает чтение)
• Кеш записи (уменьшает запись)
• Свойство локальности/Working set
• Что если отказ?

Write Ahead Log
0 1
8 9
2 3
10 11
4 5
12 13
6 7
14 15
dirty dirty
buffer pool
WAL
Операция
записи
Диск
1
2

?
Почему в WAL запись идет в
первую очередь?

Crash Recovery
0 1
8 9
2 3
10 11
4 5
12 13
6 7
14 15
WAL
Диск
replay

Snapshot
0 1
8 9
2 3
10 11
4 5
12 13
6 7
14 15
buffer pool
WAL
Диск
Snapshot

Buffer Flusher
0 1
8 9
2 3
10 11
4 5
12 13
6 7
14 15
dirty dirty
buffer pool
Диск
buffer
ﬂusher
≤50% dirty

?
Какие dirty страницы следует
сбросить в первую очередь?
!
А какие не-dirty страницы?

Примеры использования
• BerkleyDB

HDD vs. SSD

HDD
• Seek time (3-15ms)
• Rotational delay (3-4ms)
• Transfer
• 70-200 random IOPS

SSD
• Read-Erase-Write
• Blocks, pages
• Over-provisioning
• Write ampliﬁcation
• > 5000 IOPS

�ݺ�ߣ

Курс высокие нагрузки и надежность: отрывок

Recommended

More Related Content

What's hot (19)

Similar to Курс высокие нагрузки и надежность: отрывок (19)

More from Andrey Smirnov (10)

Курс высокие нагрузки и надежность: отрывок