5. Когда машинное обучение вредно?
ax2
+ bx + c = 0
x = ?
Входные данные Желаемые выходные данные
a b c x1
x2
2,00 3,50 1,00 -0,3596 -1,3904
-1,30 0,70 0,01 -0,0139 0,5524
3,00 -5,00 -3,33 2,1766 -0,5100
Обучающая выборка Глубокая нейронная сеть
6. Когда машинное обучение вредно?
ax2
+ bx + c = 0
x = ?
Входные данные Желаемые выходные данные
a b c x1
x2
2,00 3,50 1,00 -0,3596 -1,3904
-1,30 0,70 0,01 -0,0139 0,5524
3,00 -5,00 -3,33 2,1766 -0,5100
Обучающая выборка Глубокая нейронная сеть
8. Когда машинное обучение бесполезно?
Диагностика онкологических заболеваний
Температура Давление Есть
онкология?
37,3∘
C 120/80 да
36,6∘
C 100/70 нет
37,5∘
C 120/80 нет
37,8∘
C 130/90 да
9. Когда машинное обучение бесполезно?
Диагностика онкологических заболеваний
Температура Давление Есть
онкология?
37,3∘
C 120/80 да
36,6∘
C 100/70 нет
37,5∘
C 120/80 нет
37,8∘
C 130/90 да
10. Когда машинное обучение бесполезно?
Диагностика онкологических заболеваний
Температура Давление Есть
онкология?
37,3∘
C 120/80 да
36,6∘
C 100/70 нет
37,5∘
C 120/80 нет
37,8∘
C 130/90 да
11. Когда машинное обучение нужно?
1. Есть закономерности
2. Эти закономерности не описываются простыми
формулами
12. Извлечение фактов из веб-сайтов
1) Извлечение данных из сайтов-каталогов
2) Извлечение фактов о компаниях с их
корпоративных сайтов
Веб-краулинг для заполнения справочников 2ГИС:
13. Named Entity Recognition
● Определяем классы распознаваемых сущностей (Named Entities)
● Размечаем учебный и тестовый корпус
● Обучаем алгоритм
● Извлекаем факты из новых страниц
17. Подготовленный корпус
● 10 асессоров
● Свыше 20 тыс. сущностей 11 классов
● 9 тыс. организаций
● 8 тыс. адресов
● 500 расписаний
● …
18. BIO-формат для классов NE
Begin, Inside, Outside
Минздрав
Московской
области:
ул.
Большая
Полянка,
д.
42/2,
I
этаж
B-ORG
I-ORG
I-ORG
B-STREET
I-STREET
I-STREET
B-HOUSE
I-HOUSE
O
O
21. Морфологические признаки
Существительное? Глагол? Прилагательное? … Нормальная форма
слова
Минздрав
Московской
области:
ул.
Большая
Полянка,
д.
42/2,
I
этаж
1
0
1
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
…
…
…
…
…
…
…
…
…
…
минздрав
московский
область
ул
большой
полянка
д
42/2
I
этаж
22. Синтаксические признаки
Выделяются именные группы (Noun Phrases, NP)
Минздрав
Московской
области:
ул.
Большая
Полянка,
д.
42/2,
I
этаж
B-NP
B-NP
I-NP
O
B-NP
I-NP
O
O
O
B-NP
23. Словарные признаки
Входит в словарь
госучреждений?
Входит в
географический
словарь?
Входит в словарь
опциональных слов?
…
Минздрав
Московской
области:
ул.
Большая
Полянка,
д.
42/2,
I
этаж
1
0
0
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
0
0
1
1
0
0
1
0
0
0
…
…
…
…
…
…
…
…
…
…
24. HTML-признаки
Позиция на странице Уровень вложенности в
DOM-дереве
Форматирование …
Минздрав
Московской
области:
ул.
Большая
Полянка,
д.
42/2,
I
этаж
left, bottom
left, bottom
left, bottom
left, bottom
left, bottom
left, bottom
left, bottom
left, bottom
left, bottom
left, bottom
7
7
7
8
8
8
8
8
8
8
bold
bold
bold
normal
normal
normal
normal
normal
normal
normal
…
…
…
…
…
…
…
…
…
…
26. Conditional Random Fields (CRF)
T - количество слов в распознаваемой последовательности
xt
= (xt
1
, xt
2
, …, xt
k
, …, xt
K
) - признаки t-го слова (K - общее количество признаков),
yt
∈ S - класс t-го слова (s1
= ORG, s2
= SCHEDULE, s3
= TEL, и т.п.)
y0
y1
yT-1
yT
y2
x1
xT-1
xT
x2
…
37. Исходные данные
Toyo Observe G3-Ice 215/60-R16 T 95
Кама Евро 519 175/65-R14
Nokian Nordman 5 155/70-R13 T 75
Dunlop Ice Touch 185/65-R14 T 86
Matador MP 30 Sibir Ice 2 215/65-R16 T 102
38. Размеченные данные
Toyo Observe G3-Ice 215/60-R16 T 95
Кама Евро 519 175/65-R14
Nokian Nordman 5 155/70-R13 T 75
Dunlop Ice Touch 185/65-R14 T 86
Matador MP 30 Sibir Ice 2 215/65-R16 T 102
39. Результаты для Аптек и Шин
2ГИС - Аптеки
Precision = 97,14%
Recall = 93,74%
2ГИС - Шины
Precision = 97,52%
Recall = 96,61% *
* регулярки ~ 50%