Лекция №3 "Различные алгоритмы кластеризации"Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №3 "Различные алгоритмы кластеризации"
Лектор - Николай Анохин
Иерархическая кластеризация. Agglomerative и Divisive алгоритмы. Различные виды расстояний между кластерами. Stepwise-optimal алгоритм. Случай неэвклидовых пространств. Критерии выбора количества кластеров: rand, silhouette. DBSCAN.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №4 "Задача классификации"Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №4 "Задача классификации"
Лектор - Николай Анохин
Постановка задач классификации и регрессии. Теория принятия решений. Виды моделей. Примеры функций потерь. Переобучение. Метрики качества классификации. MDL. Решающие деревья. Алгоритм CART.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лектор - Николай Анохин
Постановка задачи кластеризации. Функции расстояния. Критерии качества кластеризации. EM-алгоритм. K-means и модификации.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №5 "Обработка текстов, Naive Bayes" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №5 "Обработка текстов, Naive Bayes"
Лектор - Николай Анохин
Условная вероятность и теорема Байеса. Нормальное распределение. Naive Bayes: multinomial, binomial, gaussian. Сглаживание. Генеративная модель NB и байесовский вывод. Графические модели.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №7 "Машина опорных векторов" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №7 "Машина опорных векторов"
Лектор - Николай Анохин
Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. KKT-условия. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №6 "Линейные модели для классификации и регрессии" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №6 "Линейные модели для классификации и регрессии"
Лектор - Николай Анохин
Обобщенные линейные модели. Постановка задачи оптимизации. Примеры критериев. Градиентный спуск. Регуляризация. Метод Maximum Likelihood. Логистическая регрессия.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №10 "Алгоритмические композиции. Завершение" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №10 "Алгоритмические композиции. Завершение"
Лектор - Владимир Гулин
Ключевые идеи бустинга. Отличия бустинга и бэггинга. Алгорим AdaBoost. Градиентный бустинг. Мета-алгоритмы над алгоритмическими композициями. Алгоритм BagBoo.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №9 "Алгоритмические композиции. Начало"Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №9 "Алгоритмические композиции. Начало"
Лектор - Владимир Гулин
Комбинации классификаторов. Модельные деревья решений. Смесь экспертов. Stacking. Стохастические методы построения ансамблей классификаторов. Bagging. RSM. Алгоритм RandomForest.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №1 "Задачи Data Mining" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №1 "Задачи Data Mining"
Лектор - Николай Анохин
Обзор задач Data Mining. Стандартизация подхода к решению задач Data Mining. Процесс CRISP-DM. Виды данных. Кластеризация, классификация, регрессия. Понятие модели и алгоритма обучения.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №8 "Методы снижения размерности пространства" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №8 "Методы снижения размерности пространства"
Лектор - Владимир Гулин
Проблема проклятия размерности. Отбор и выделение признаков. Методы выделения признаков (feature extraction). Метод главных компонент (PCA). Метод независимых компонент (ICA). Методы основанные на автоэнкодерах. Методы отбора признаков (feature selection). Методы основанные на взаимной корреляции признаков. Метод максимальной релевантность и минимальной избыточности (mRMR). Методы основанные на деревьях решений.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №12 "Ограниченная машина Больцмана" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №12 "Ограниченная машина Больцмана"
Лектор - Павел Нестеров
Нейросетейвой автоэнкодер. Стохастические и рекурентные нейронные сети. Машина Больцмана и ограниченная машина Больцмана. Распределение Гиббса. Алгоритм contrastive divergence для обучения РБМ. Сэмплирование данных из РБМ. Бинарная РБМ и гауссово-бинарная РБМ. Влияние регуляризации, нелинейное сжатие размерности, извлечение признаков. Semantic hashing.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №13 "Глубокие нейронные сети" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №13 "Глубокие нейронные сети"
Лектор - Павел Нестеров
Трудности обучения многослойного персептрона. Предобучение используя РБМ. Глубокий автоэнкодер, глубокая многослойная нейросеть. Deep belief network и deep Boltzmann machine. Устройство человеческого глаза и зрительной коры головного мозга. Сверточные сети.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №11 "Основы нейронных сетей" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №11 "Основы нейронных сетей"
Лектор - Павел Нестеров
Биологический нейрон и нейронные сети. Искусственный нейрон Маккалока-Питтса и искусственная нейронная сеть. Персептрон Розенблатта и Румельхарта. Алгоритм обратного распространения ошибки. Момент обучения, регуляризация в нейросети, локальная скорость обучения, softmax слой. Различные режимы обучения.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №7 "Машина опорных векторов" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №7 "Машина опорных векторов"
Лектор - Николай Анохин
Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. KKT-условия. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №6 "Линейные модели для классификации и регрессии" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №6 "Линейные модели для классификации и регрессии"
Лектор - Николай Анохин
Обобщенные линейные модели. Постановка задачи оптимизации. Примеры критериев. Градиентный спуск. Регуляризация. Метод Maximum Likelihood. Логистическая регрессия.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №10 "Алгоритмические композиции. Завершение" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №10 "Алгоритмические композиции. Завершение"
Лектор - Владимир Гулин
Ключевые идеи бустинга. Отличия бустинга и бэггинга. Алгорим AdaBoost. Градиентный бустинг. Мета-алгоритмы над алгоритмическими композициями. Алгоритм BagBoo.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №9 "Алгоритмические композиции. Начало"Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №9 "Алгоритмические композиции. Начало"
Лектор - Владимир Гулин
Комбинации классификаторов. Модельные деревья решений. Смесь экспертов. Stacking. Стохастические методы построения ансамблей классификаторов. Bagging. RSM. Алгоритм RandomForest.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №1 "Задачи Data Mining" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №1 "Задачи Data Mining"
Лектор - Николай Анохин
Обзор задач Data Mining. Стандартизация подхода к решению задач Data Mining. Процесс CRISP-DM. Виды данных. Кластеризация, классификация, регрессия. Понятие модели и алгоритма обучения.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №8 "Методы снижения размерности пространства" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №8 "Методы снижения размерности пространства"
Лектор - Владимир Гулин
Проблема проклятия размерности. Отбор и выделение признаков. Методы выделения признаков (feature extraction). Метод главных компонент (PCA). Метод независимых компонент (ICA). Методы основанные на автоэнкодерах. Методы отбора признаков (feature selection). Методы основанные на взаимной корреляции признаков. Метод максимальной релевантность и минимальной избыточности (mRMR). Методы основанные на деревьях решений.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №12 "Ограниченная машина Больцмана" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №12 "Ограниченная машина Больцмана"
Лектор - Павел Нестеров
Нейросетейвой автоэнкодер. Стохастические и рекурентные нейронные сети. Машина Больцмана и ограниченная машина Больцмана. Распределение Гиббса. Алгоритм contrastive divergence для обучения РБМ. Сэмплирование данных из РБМ. Бинарная РБМ и гауссово-бинарная РБМ. Влияние регуляризации, нелинейное сжатие размерности, извлечение признаков. Semantic hashing.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №13 "Глубокие нейронные сети" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №13 "Глубокие нейронные сети"
Лектор - Павел Нестеров
Трудности обучения многослойного персептрона. Предобучение используя РБМ. Глубокий автоэнкодер, глубокая многослойная нейросеть. Deep belief network и deep Boltzmann machine. Устройство человеческого глаза и зрительной коры головного мозга. Сверточные сети.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №11 "Основы нейронных сетей" Technosphere1Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №11 "Основы нейронных сетей"
Лектор - Павел Нестеров
Биологический нейрон и нейронные сети. Искусственный нейрон Маккалока-Питтса и искусственная нейронная сеть. Персептрон Розенблатта и Румельхарта. Алгоритм обратного распространения ошибки. Момент обучения, регуляризация в нейросети, локальная скорость обучения, softmax слой. Различные режимы обучения.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Supervised ML in Practice: Tips & TricksDzianis PirshtukКлючевые идеи алгоритмов обучения по прецедентам и почему про них следует помнить при выборе алгоритма и его настройке, поиске оптимальных параметров. Какие подходы позволяют повысить качество модели, какие программные средства удобно использовать при проведении экспериментов и где спрятаны любимые “грабли”.
Петрова Ксения - Data mining на практике - dmlabs.orgWG_ EventsВ своем докладе Ксения рассказала об основных ошибках в Data Minning и как их избежать. Она объяснла, как выглядит цикл по решению задач в анализе данных и почему задачи нельзя решить "в лоб".
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...WG_ EventsМногие проекты рано или поздно встают перед выбором – какую систему аналитики выбрать? Создавать что-то самим или брать готовое решение на рынке? А если брать, то как выбрать оптимальный вариант? Василий расскажет о том, какие существуют системы аналитики, чем они отличаются друг от друга, как они интегрируются в продукт и чем могут быть ему полезны.
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...WG_ EventsМногие проекты рано или поздно встают перед выбором – какую систему аналитики выбрать? Создавать что-то самим или брать готовое решение на рынке? А если брать, то как выбрать оптимальный вариант? Василий расскажет о том, какие существуют системы аналитики, чем они отличаются друг от друга, как они интегрируются в продукт и чем могут быть ему полезны.
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...WG_ EventsБолее 5 лет в сфере веб-аналитики. Работал как в качестве внешнего консультанта, так и внутри продуктовой компании. Основной инструмент в работе – Tableau. Последние полтора года работает над развитием Tableau-студии (Disrupt).
К.В. Воронцов "Линейные методы классификации"YandexК.В. Воронцов "Линейные методы классификации", 13.03.2012, место показа МФТИ, Школа анализа данных (ШАД)
Как построить стратегию интернет-маркетингаНетологияКраеугольные понятия интернет-маркетинга и шесть простых шагов, благодаря которым вы сможете быстро создать стратегию продвижения вашей компании. Опытом делится Андрей Гавриков, CEO «Комплето».
Вы научитесь:
— различать интернет-маркетинг, электронный маркетинг и маркет-микс;
— определять ваши маркетинговые цели;
— создавать структуру формирования эффективного маркетинга для вашего бизнеса.
Видеоверсию программы «На 10 минут круче» смотрите по ссылке: http://netolo.gy/ov
Мастер-класс: Особенности создания продукта для мобильного вебTechnosphere114.05.14
Мастер-класс: Особенности создания продукта для мобильного веб
Спикер: Александр Лысков
Продвижение лендинга с помощью контентаNadya PominovaВ презентации рассказываю свой опыт, как мы собирали лендинг, когда у нас вообще не было материалов и важной информации, оптимизировали его и в результате получили первые места в поисковой выдаче, трафик и заявки.
Основы комбинаторики - IDEVTYPE3.2 Основные понятия теории множеств
3.3 Основные правила перечислительной комбинаторики
3.4 Принцип Дирихле
3.5 K-сочетания из n-элементов
Machine Learning. Курс лекцийZolotykhПрезентации к курсу лекций по машинному обучению, который я читаю в Нижегородском государственном университете им.Н.И.Лобачевского на факультете ВМК
1.4 Точечные оценки и их свойстваDEVTYPEТочечная оценка. Определение
Пример 1
Свойства точечных оценок
Несмещенность
Пример 2
Состоятельность
Эффективность
Асимптотическая нормальность
Робастность
Haskell Type System with Dzmitry Ivashnev.Sergey Tihonݺߣs from http://www.meetup.com/fsharpminsk/events/176930252/?comment_table_id=344084692&comment_table_name=event_comment
3. Задача классификации
Пусть дана выборка, состоящая из обучающих объектов
X = (x1, . . . , xN ),
и соответствующих значений целевой переменной
Y = (y1, . . . , yN ) = (f (x1), . . . , f (xN )).
Требуется найти функцию h(x), наилучшим образом приближающую
f (x), то есть точно предсказывающую значение целевой переменной
для любых x.
4. Недостатки одиночных моделей
Statistical issue
риск выбрать неправильную гипотезу из возможного набора,
учитывая ограниченность выборки
Computational issue
риск получить локальный минимум в результате оптимизации
Representational issue
риск, что ни одна из моделей не окажется достаточно хорошей
5. Метод ансамблей
Идея
Построить несколько базовых моделей и правильным образом
скомбинировать их для принятия решения. В идеале базовые
модели должны быть максимально точными и при этом
разнообразными.
6. Виды ансамблей
комбинация классификаторов (combining classifiers)
pattern recognition
ансамбль слабых моделей (ensemble of weak learners)
machine learning
смесь экспертов (mixture of experts)
neural networks
7. Стоит ли?
Рекомендательные системы
Победитель Netflx Prize $1M
(первое и второе места)
Компьютерное зрение
AdaBoost with cascade –
определение лиц на фото
(или стыковка с МКС )
Медицинская диагностика
Определение болезни на
ранней стадии
8. Boosting
Пусть дан алгоритм обучения “слабой” модели – такой, которая
только немного лучше случайности
Идея метода
Последовательно обучать слабые
модели так, что каждая
следующая модель “исправляет
ошибки” предыдущих. Для
предсказания используется
комбинация из всех моделей
последовательности.
9. AdaBoost
ada_boost(X, Y , T):
инициализируем D1 = 1/m
for t = 1, . . . , T:
обучаем модель ht(x) = L(X, Y ),
принимая во внимание распределение Dt
вычисляем ошибку ht(x): t = Px∼Dt
(ht(x) = f (x))
if t > error_rdm:
break
вычисляем вес ht(x): at = 1
2 ln(1− t
t
)
новое распределение: Dt+1(x) = Dt (x)
Zt
exp(−atf (x)ht(x))
return H(x) = sign
T
t=1 atht(x)
10. Свойства AdaBoost
Минимизирует экспоненциальную ошибку (exponential loss)
Lexp(h|D) = Ex∼D[e−f (x)h(x)
]
Требует обучения модели с учетом распределения
Варианты: re-weighting или re-sampling
Ошибка классификации
D ≤ X + O
dT
N
(d отражает “сложность” классификатора)
12. Пример
h1(x) =
+1, если x1 > −0.5
−1, иначе
h2(x) =
−1, если x1 > −0.5
+1, иначе
h3(x) =
+1, если x1 > +0.5
−1, иначе
h4(x) =
−1, если x1 > +0.5
+1, иначе
h5(x) =
+1, если x2 > −0.5
−1, иначе
h6(x) =
−1, если x2 > −0.5
+1, иначе
h7(x) =
+1, если x2 > +0.5
−1, иначе
h8(x) =
−1, если x2 > +0.5
+1, иначе
14. AdaBoost. Итоги
+ Высокая точность
+ Почти не переобучается
— Трудно параллелизовать
— Чувствителен к шуму
15. Bagging
Bagging = Bootstrap + Aggregating
Идея метода
Обучить несколько независимых моделей на основании случайно
выбранных (bootstrap) подмножеств объектов из обучающей
выборки. Классификация производится на основании результата
голосования (aggregating) моделей.
16. Bagging
bagging(X, Y , T):
for t = 1, . . . , T:
генерируем bootstrap-распределение Dbs
обучаем модель ht(x) = L(X, Y ),
принимая во внимание распределение Dbs
return H(x) = arg maxy∈Y
T
t=1 I(ht(x) = y)
18. Random Forest
random_tree(X, Y , K):
N – узел дерева для X
if все x ∈ X одного класса:
return N
F – случайно выбираем K признаков
f ∈ F – признак, наилучшим образом разделяющий X
Nl = random_tree(Xf
l , Y f
l , K)
Nr = random_tree(Xf
r , Y f
r , K)
добавляем Nl и Nr как детей к N
return N
20. Модификации Random Forest
VR-Tree
В каждом узле с вероятностью α просиходит случайный выбор
признака
Density estimation
Польностью случайное дерево
Anomaly Detection
Польностью случайное дерево с ограничением по глубине
SCiForest
26. Задача. Распознавание цифр
Дана обучающая выборка с картинками 8x8, на каждой из картинок
изображена рукописная цифра.
$ python digits.py -s 25
1. для алгоритма AdaBoost построить график зависимости
train_error и test_error от T
2. для алгоритма RandomForest построить график зависимости
train_error и test_error от размера леса
3. реализовать простейший голосующий ансамбль и исследовать
зависимость его точности от вида и количества базовых моделей