ݺߣ

ݺߣShare a Scribd company logo
Что такое машинное
обучение
Сиганов Илья, 7bits, разработчик
Классификация
Термины
● Объекты – это цветы
● Признаки (feature) – характеристики
чашелистика, длина, ширина
● Скрытая переменная – это вид цветка
● Целевая функция – закон природы,
сопоставляющий объекту целевую
переменную
● Классификация – поиск скрытой
переменной из конечного множества
Метод ближайшего соседа
https://habrahabr.ru/company/yandex/blog/206058/
Метод ближайшего соседа
https://habrahabr.ru/company/yandex/blog/206058/
Метод ближайшего соседа
https://habrahabr.ru/company/yandex/blog/206058/
Выбросы
Термины
● Обучающая выборка
● Тестовые данные
● Выбросы – объекты-шумы,
случайные отклонения от закона
природы
● Евклидова метрика между точками
Метод 5 ближайших соседей
https://habrahabr.ru/company/yandex/blog/206058/
Метод 5 ближайших соседей
https://habrahabr.ru/company/yandex/blog/206058/
Выбросы
Метод k ближайших соседей
● Метрический алгоритм
● Чем больше k, тем сильнее
сглаживание
● Плохо работает в многомерных
пространствах
● Трудно выбрать метрику
Регрессия
http://www.machinelearning.ru/wiki/index.php?title=Регрессия
Примеры регрессии
● Предсказание температуры воздуха
● Прогнозирование продаж товара
● Прогнозирование стоимости
недвижимости
● Определение длительности игры
Кластеризация
http://scikit-learn.org/stable/modules/clustering.html
Кластеризация
● Классификация без обучающей выборки
● Используется для поиска классов на
неразмеченной выборке
Примеры:
● Сегментация аудитории
● Поиск похожих текстов
● Обнаружение аномалий
Популярные модели
Линейная модель
Линейный классификатор
● a(x,w) = sign<w,x> =
sign(w0
+w1
x1
+...+wd
xd
)
● <...> - скалярное произведение
● w0
– порог принятия решения
● wi
– веса признаков xi
Решающее дерево
Titanic dataset:
● Пол
● Возраст
● Класс (1, 2, 3)
● Тариф
● Порт отбытия
● Родственники
на борту
https://habrahabr.ru/post/171759/
Проблемы деревьев
Ансамбли. Случайный лес
Нейросеть
http://sebastianraschka.com/Articles/2015_singlelayer_neurons.html
Трёхслойная нейросеть
Глубокие нейросети
Going Deeper with Convolutions
https://arxiv.org/pdf/1409.4842.pdf
Проблемы машинного обучения
Критерий качества
Как сравнить какой алгоритм лучше?
● L(a, x) – функция потерь
● ∑ [yi
!= a(xi
)] -> min
● ∑ (yi
- a(xi
))2
-> min
● logLoss - для оценки вероятностей
● Абсолютное отклонение
● … тысячи их
Переобучение
Термины
● Переобучение – эффект, когда алгоритм
подгоняется под обучающую выборку, но
очень плохо предсказывает на новых
данных
● Недообучение – алгоритм не уловил
закономерностей в данных
Признаки
Числовые признаки просты и
неприхотливы в использовании
Признаки
Категориальные
Признаки?
Признаки?!
http://cs.stanford.edu/people/karpathy/deepimagesent/
https://research.googleblog.com/2014/11/a-picture-is-wort
h-thousand-coherent.html
Почему нет одного РЕШЕНИЯ?
● Человек подбирает признаки
● Человек выбирает подходящий
класс алгоритмов ML
● Человек эвристически подбирает
параметры алгоритмов
Машина ищет закономерности в данных
Какие предметы надо знать?
● Математический анализ
● Теория вероятностей и статистика
● Теория информации
● Линейная алгебра
● Дифференциальные уравнения
● Методы оптимизации
С чего начать?
● www.coursera.org/learn/vvedenie-mashinn
oe-obuchenie/home/welcome
● www.coursera.org/specializations/machine-
learning-data-analysis
● datamininginaction.ru/
● habrahabr.ru/company/ods/
● yandexdataschool.ru/edu-process/courses/
machine-learning
Спецкурс в 7bits
Группа в ВК: vk.com/7bitsml
Регистрация: bit.ly/7bits-ml-2017
Старт: октябрь 2017-го
Полезные материалы
bit.ly/hdl2017_ml
Сиганов Илья, 7bits, разработчик
vk.com/senior_sigan
ilya.siganov@7bits.it

More Related Content

Что такое машинное обучение - Happydev lite 2017