Лекция для конференции "Нейроинформатика-2014" в МИФИ
1 of 23
Downloaded 16 times
More Related Content
Перечитывая Лео Бреймана
1. МИФИ, Нейроинформатика - 2014
Перечитывая
Лео Бреймана
Сергей А. Терехов, ООО «Алгоритмы и Технологии»
2. Что в этой лекции?
▪ Leo Breiman – профессор, практик и изобретатель
▪ Из наследия – методология случайного леса (Random Forest)
▪ О фундаментальных проблемах в математической статистике: Leo Breiman.
Statistical Modeling: The Two Cultures, 2001
▪ Дискуссия: D.R. Cox, Brad Efron, Bruce Hoadley, Emanuel Parzen
▪ Проекция на “здесь и сейчас”: нейроинформатика и наука о данных
3. Лео Брейман
▪ 1954 PhD, 7 лет научной работы UCLA.
▪ Консультирование прикладных проектов (по
программам UNESCO, Агентства по
окружающей среде EPA, военные разработки).
▪ 1980 – возврат в университет в Беркли, чтобы
создать методологию и работающие
инструменты для прикладных специалистов,
работающих с данными.
▪ Технологии решающих деревьев, CART,
Bagging, Random Forests для данных высокой
размерности.
▪ Промышленные реализации алгоритмов,
Salford Systems
Leo Breiman, 1928 - 2005
4. Wald Lectures
▪ Три лекции для: 7th meeting of the Institute of Mathematical Statistics, held in
Banff, Alberta, Canada (July 28 to July 31, 2002)
▪ Машинное Обучение [http://www.stat.berkeley.edu/~breiman/wald2002-1.pdf]
▪ Заглядывая Внутрь Черного Ящика
[http://www.stat.berkeley.edu/~breiman/wald2002-2.pdf]
▪ Компьютерные Программы Для Масс
[http://www.stat.berkeley.edu/~breiman/wald2002-3.pdf]
5. Случайный Лес - 1
▪ Базовые идеи
▪ Имеющийся набор данных – лишь один из представителей множества возможных
выборок данного размера
▪ Все входные переменные должны иметь существенный шанс участвовать в
классификации. Это повышает устойчивость к ошибкам и пропускам
▪ Комитеты моделей могут значительно уменьшить разброс (variance), без значимого
роста смещения (bias). Для этого нужно повысить разнообразие членов комитета.
▪ Разные переменные могут по-разному работать в различных областях
пространства, занятого данными. Универсальные коэффициенты регрессии на
такое не способны.
▪ Результат: случайный комитет («лес») решающих деревьев с
рандомизированными решениями в узлах. Random Forest (2001).
6. Случайный Лес - 2
▪ Суть алгоритма классификации
▪ Для набора данных размера N получить бутстрэп-выборку такого же размера.
▪ Для M входных переменных выбрать параметр m << M. Построить
классифицирующее дерево с использованием Gini-индекса при выборе
решающего правила в каждом узле. При этом наилучшее правило строится только
среди подмножества их m переменных, выбранных случайно.
▪ Рост дерева продолжается до конца (примеры только одного класса в узле, либо
невозможность уменьшить Gini).
▪ Построить комитет большинства (простое голосование) из большого числа
деревьев.
7. Случайный Лес - 3
Leo: We use every
bit of the pig except
its squeal
▪ Оценка ошибки обобщения путем классификации примеров, не
использовавшихся при обучении данного дерева (out-of-bag, oob).
▪ Оценка значимости входов путем классификации oob примеров, в которых
применена случайная перестановка значений данного входа.
▪ Вычисление окрестности для каждого примера (попарная схожесть примеров) из
статистики одновременного попадания пар в общие листья деревьев.
▪ Обучение с пропусками в данных (по статистике примеров в узле, а также с
учетом попарной схожести примеров).
▪ Обучение без меток (исходная выборка против выборки с независимыми
перестановками для каждого входа)
▪ Поиск выбросов, кластеризация, корректирование меток, балансирование
классов, детектор новизны, …
10. Всё начинается с данных
Есть (X,Y) и чёрный ящик
Y
Природа
(Чёрный Ящик)
Что нужно?
▪ Прогноз Y для новых условий X
X
▪ Информация о том, как природа
ассоциирует X и Y
11. Y
Природа
(Чёрный Ящик)
X
Чёрный Ящик и Две Культуры
Подход моделирования данных
Алгоритмический подход
▪ Черный ящик описывается явной
моделью, порождающей данные
▪ Содержимое чёрного ящика
остается неизвестным, он
заменяется функцией выходов от
входов
▪ Основная задача – оценить
параметры этой модели из данных
▪ Инструментарий – многомерный
Гаусс, обощенная линейная
регрессия, тесты и невязки
▪ Классическая матстатистика
𝑃 𝑦 𝑥
Предполагаю, что находится в ящике,
но рискую ошибиться
▪ Основная задача – имитация
поведения черного ящика
▪ Инструментарий – деревья, ЭС,
нечеткие алгоритмы, нейронные
сети++, (кросс-)валидация
▪ Обучение машин, раскопка данных
Не знаю, что находится в ящике,
но умею ему подражать
𝑦 = 𝑓(𝑥)
12. Проблемы моделирования данных
Фокус на модели данных:
▪ Может приводить к неадекватной
теории и спорным научным
заключениям в предметных
областях
▪ Не позволяет исследовать более
подходящие алгоритмические
модели
▪ Сужает круг актуальных задач
рамками доступных классических
статистических методов
Flaw of Averages
13. Множество моделей
Rashomon
Проблемы
▪ Расёмон: множественность
хороших моделей реальности
▪ Оккам: Конфликт между простотой
и точностью
▪ Беллман: Размерность –
проклятие или благо?
Статистические тесты goodness-of-fit (R2…) не способны
выявить достоверные модели из множества
почти одинаково хороших кандидатов
Расёмон, Куросава 1950)
14. Как Лео Брейман пришел к этим вопросам
Более 13 лет практики консультанта
по проектам для EPA, ETA, military
▪ Прогноз уровня озона на следующий день
▪ Обнаружение присутсвия хлора в образцах (“отпечатки
хлора”)
▪ Выявление галогена по данным масс-спектроскопии
▪ Прогнозирование класса корабля по данным радаров
▪ Тип подводной лодки по данным сонаров
▪ Идентичность ручного потока кода Морзе
▪ Оценка степени токсичности химсоединений
О чём в это время (80-е) писали
научные журналы по матстатистике
▪ “Предположим, что данные порождены
следующей моделью...”
▪ Делаются заключения о свойствах самих
моделей, а не о природном механизме. Если
модель не очень точна при описании данных, то
выводы могут содержать серьёзные ошибки.
▪ Вера во всемогущество статистических моделей
в прикладных областях почти религиозна
▪ Tukey (77) “вся ... регрессия полна интеллектуальных,
статистических, вычислительных и субъективных
трудностей”
▪ Онлайн прогноз причин пробок на автострадах
▪ Причины задержех делопроизводства в судах
Значительное расхождение университетской науки
с тем, что требует и чем занята практика
15. Полемика: Суть процесса решения задачи
Leo Breiman
▪ Фокус на поиск хорошего решения
▪ Нужно “пожить с данными” прежде
чем приступать к моделированию
David Cox
▪ Одна из наших ошибок – упор на общность вне контекста
приложения. Начать надо не с данных, а с вопроса
(проблемы или гипотезы). Вероятностная модель может
быть построена и без данных.
▪ Поиск подхода, который дает
решение (модель данных, либо
алгоритм)
▪ Эмпирические прогнозы (из данных) – не единственная
потребность. Стратегические прогнозы строятся в условиях,
где нет данных. Являются ли более сложные алгоритмы,
основанные на данных, более полезными?
▪ Основной критерий – точность
прогноза на тестовых выборках
▪ Основное направление – построение моделей с учетом
прикладных запросов, анализ этих моделей МК методами.
▪ Принципиальное использование
компьютера
▪ - Связь в с предыдущими работами и результатами
- Четкое описание процесса генерации данных
- Выбор понятных для прикладной области параметров
- Точность должна быть адекватной. Точность не есть основа для
выбора модели.
▪ Выбор модели, адекватной запросу – ключевой аспект
Мой вопрос: Что все-таки делать, если нет вероятностной модели порождения данных?
16. Комментарий Брэда Эфрона (Brad Efron)
Leo Breiman
▪ Модели случайного леса имеют
высокую структурную сложность,
однако специалисты в анализе
экспрессии генов изначально готовы
к такого рода усложнениям
▪ Анализ социологических данных,
действительно, больше нуждается в
объяснении, чем в прогнозах. Однако
объяснение из не точной модели
подвержено ошибкам
▪ Понятие важности переменной пока
не имеет строгого теоритического
определения. Практический критерий
– влияние на точность.
Brad Efron
▪ XX столетие – “столетие несмещенности (оценок)”, вслед за
Фишером. Но это требует большого отношения “сигнал шум”.
Но появились новые задачи, где число переменных меньше
числа примеров. Появляются новые алгоритмы, хороший
знак.
▪ Проблема алгоритмов с большим числом свободных
параметров – смещённость оценок (вносимых при
регуляризации, удалении связей и др.). Для смещенных
оценок нет хорошей теории.
▪ Эмпирика имеет две особенности
- Новые методы всегда выглядят лучше старых
- Сложные методы труднее критиковать, чем простые
▪ Прогноз не есть главная целью Требуется объяснение
причинных связей.
▪ Основная задача науки – открывать черные ящики.
Кросс-валидация и проблема смещенности оценок!
17. Взгляд практика (Bruce Hoadley)
▪ Подробный пример из практики Fair, Isaac по созданию алгоритма оценки риска кредитования
(методология INFORM)
▪ Разработана инженерами и специалистами в исследовании операций в 60-х, без использования базовых
методов матстатистики (кроме бутстрэп-выборок).
▪ Данные: входы – параметры клиента из корпоративных баз или от кредитных бюро, выход – индикатор риска
кредитования. Упрощенный вариант – 24 входа (месячные счета и платежи за год) – т.е. два временных ряда.
▪ Алгоритмическое решение – segmented scorecards (описание рядов сотнями функционалов, разделение
клиентов на группы, обучаемые рейтинги признаков в каждой группе). Сложная уникальная технология,
критерий качества – точность.
▪ Индустриальный стандарт в течение нескольких десятилетий! Сегодня для отбора признаков используется
генетический алгоритм, сегментация клиентов также автоматизирована.
▪ Наблюдения и рекомендации:
▪ Добивайтесь равноценности входов (без доминирования отдельных признаков)
▪ Используйте благо, даваемое высокой размерностью (простота решения в расширенном пространстве)
▪ Используйте регуляризацию и ограничения при обучении (оптимизации)
▪ Игнорируйте большинство советов из учебников! Но тщательно проводите валидацию.
18. Emanuel Parzen и множественность культур
▪ Этическая цель: обещать клиенту, что ошибки, которые будут сделаны в исследовании
для него, не будут похожи на ошибки, сделанные статистиками ранее.
▪ Прогноз/информация <=> Менеджмент/Наука. Менеджменту нужна практическая выгода,
наука ищет истину.
▪ Проблемы: коррелированные факторы при регрессии, много-модальные распределения
при классификации. Важен систематический путь: Проблема-План-Данные-АнализВыводы
▪ Множество культур в статистике.
▪ + Использование теории аппроксимации и численного анализа при аппроксимации данных +
Использование понятийного аппарата вероятностей для описания данных (без предположения об
их вероятностной природе)
▪ Одна из культур - философия Парзена – исчисление квантилей. Сжатое описание данных.
http://stat.tamu.edu.
Срочно изучить исчисление квантилей и постановки основных задач на этом языке!
19. Итог по Лео Брейману
▪ …Многие из ведущих статистиков, с которыми я беседовал в последние
несколько лет, имеют серьезные опасения по поводу жизнеспособности
статистики, как отрасли. Это кажется странным, ведь мы живем в период, в
котором, как никогда ранее, возникает огромное количество статистических
задач и источников данных. Опасность состоит в том, что если определим
границы нашей области исходя из знакомых инструментов и знакомых
решенных задач, мы не сможем понять и воспользоваться новыми
возможностями (2001).
А нейроинформатика жизнеспособна?
20. Наука о Данных
(вчера-сегодня)
▪ Доклад: National Research Council.
2013. Frontiers in Massive Data
Analysis. Washington, D.C.: The
National Academies Press
▪ Dealing with highly distributed data sources,
▪ Tracking data provenance, from data generation through data
preparation,
▪ Validating data,
▪ Coping with sampling biases and heterogeneity,
▪ Working with different data formats and structures,
▪ MkKinsey: Не хватает от 140,000 до
190,000 специалистов в области
анализа данных, и 1.5 млн
менеджеров, способных принимать
решения на основе данных
▪ Developing algorithms that exploit parallel and distributed
architectures,
▪ Forbes: 4 триллиона (12 нулей) GB
данных в 2013
▪ Enabling data discovery and integration,
▪ Нейроинформатика
должна быть здесь, или
ее постигнет участь
классической статистики
▪ Ensuring data integrity,
▪ Ensuring data security,
▪ Enabling data sharing,
▪ Developing methods for visualizing massive data,
▪ Developing scalable and incremental algorithms, and
▪ Coping with the need for real-time analysis and decision-making.
21. Динамика потребности в специалистах Big
Data
По оценкам Microsoft,
специалистов в области IT в
России нужно в два раза больше,
чем есть сейчас. Если сегодня
посчитать всех айтишников от
программистов до ТОП менеджеров получится около
полутора миллионов человек. Для
развития технологической отрасли
нужно как минимум три миллиона
(BusinessFM)
During September 2013, more than 88,000 “big data” jobs were available
online in the United States, a 13% year-over-year increase in demand.
(according to WANTED Analytics™.)
Статистика объявлений о найме
от ведущих кадровых агентств
(2010-2013)
22. Смена поколений: вычислить или найти?
Молодое поколение 80-х
Молодое поколение 10-х
▪ Нейронные сети, решающие деревья,
позже SVM. Матстатистика не входит в
число активно используемых методов.
▪ MapReduce, Hadoop, облачные
вычисления, супер-параллельность,
масштабирование “вширь”
▪ Цель – точность прогноза
▪ Большие данные, социальные сети
▪ Новые приложения: временные ряды и
финансовые рынки, распознавание
рукописного текста, речи, изображений.
Статмоделей таких данных, конечно, нет.
▪ Компьютер полноправный член
интернет-сообщества, машины
побеждают в соревнованиях по
“интеллекту”. Компьютеров больше, чем
людей.
▪ Большинство публикаций анализируют
реальные данные
▪ Средний возраст на NIPS – 30 лет
▪ Новые приложения: маркетинг, продажи,
сенсорные данные, геном,
безопасность, адаптация в реальном
мире
Получение ответа состоит в его поиске в сети (с аналитикой “на лету”),
а не в традиционном решении технической задачи
23. Смена задачи (парадигмы?)
▪ Классика: нейронная сеть путем
ассоциаций ищет ответ в своей памяти.
▪ Надо сегодня и завтра: компьютерная
система ищет ответ путем ассоциаций
в огромной внешней “памяти”,
включающей большие данные и
реальный мир.
Н.Г.Макаренко, 2013
Как быстро формировать ассоциации запроса с “другим” пространством ответов?