ݺߣ

ݺߣShare a Scribd company logo
Методы и Средства Анализа Данных

Вводная лекция
Преподаватель: Игнатьев И.С.
Кафедра ИКТ
Высшая школа экономики, Москва, 2013
www.hse.ru
Контакты
•Игнатьев Иван Сергеевич
•http://hse.ru/staff/ignatyev
•Контакты:
– По индивидуальным/срочным вопросам вопросам –
email (постоянно открыта, кроме выходных)
– По общим/групповым вопросам – гуглогруппа
datamine101 (или форум кафедры)
– По совсем срочным вопросам - телефон

Высшая школа экономики, Москва, 2013
Цели курса
• Эффективная работа с большими объемами
данных
• Знание процессов (сбор, подготовка, анализа,
вывод, визуализация) и алгоритмов анализа
данных
• Умение использовать ПО/библиотеки анализа
данных
• Создание своих проектов анализа данных

Высшая школа экономики, Москва, 2013
Материалы
• library.auditory.ru:
Барсегян et al. Методы и модели анализа данных: OLAP и Data Mining.
(начальная книга)
Сегаран, Тоби. Программируем коллективный разум.
Маннинг, Кристофер, Шютце, Хайнрих, Рагхаван, Прабхакар. Введение в
информационный поиск.
Mark Hall, Ian Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and
Techniques, Third Edition.

• Machinelearning.ru:
К. В. Воронцов. Математические методы обучения по прецедентам.
Дьяконов А.Г. Анализ данных, обучение по прецедентам, логические игры, системы
WEKA, RapidMiner и MatLab.

• Курс «Машинное обучение» ШАД Яндекса
• Курс «Machine Learning» by Andrew Ng, Stanford on Coursera
• Ридер по курсу на wiki.auditory.ru (базовый источник)
Высшая школа экономики, Москва, 2013
ПО и софт
•
•
•
•
•
•

Python + libs (mechanize, BeautifulSoup)
JS + libs (CasperJS, PhantomJS)
OpenRefine
Orange/Weka Data Mining Environments
Tableau Public, Bime Analytics
Apache Hadoop + Mahout

Высшая школа экономики, Москва, 2013
Структура
• Лекции
• Лабораторные работы (x3)
• Два трека:
– Для программирующих
– Для непрограммирующих (экспериментальный)

• Задания на баллы
• Коллоквиум
• Блокирующий Зачет

Высшая школа экономики, Москва, 2013
Темы
•
•
•
•
•

Классификация
Ассоциативный и секвенциальный анализ
Кластеризация
Информационный поиск
Факторный анализ

Высшая школа экономики, Москва, 2013
Оценки
• Накопленная оценка:
– Задания на очки (надо набрать 200 или более)
• Посещаемость
• Тесты в LMS
• Задачи

– Лабораторные работы (x3) - Единый проект — защита каждой
– Коллоквиум по незакрытым темам (конец первого модуля)

• Оценка за зачет по незакрытым темам (конец 2го модуля)
• Зачет блокирующий
• Итоговая = 0,6 Накопленной + 0,4 Зачета

Высшая школа экономики, Москва, 2013
Дополнительные работы
•
•
•
•

На баллы
На благо кафедры
По темам курса
Примеры:
–
–
–
–

Работа в лаборатории кафедры
Описание участия в мероприятии по теме курса
Написание своего программного проекта по теме курса
Перевод статьи с конференции по теме курса

• Требуют обязательного подтверждения какими-либо
артефактами (отчет/код/продукт и т.д.)

Высшая школа экономики, Москва, 2013
Критерии оценки работ
•
•
•
•
•
•
•
•
•
•

Несоответствие работы заданию (-90%)
Ошибки в работе (-20% /ошибка)
Незаконченность работы (-30% / -70%)
Просрочка работы (-50%)
Копирование (докладная, -100%)
Не дословное копирование ( -40%)
Неграмотность работы (-10% / -20%)
Оформление работы (+ 20% / -20%)
Перевыполнение работы ( + 10% / +50%)
Сдано первым (+10%)

Высшая школа экономики, Москва, 2013
Учет работ
• Таблица в Google Docs
• Накопленная оценка:
– 0.1 посещаемость (взвешена по медиане)
– 0.2 Очки (взвешены по уровню ~200)
– 0.3 Лабораторные ( взвешены по числу (3), нужна
защита)
– 0.4 Проект (по нескольким критериям, таким как «код»,
«документация», «представление» и т.д.)

Высшая школа экономики, Москва, 2013
Взаимосвязи работ
• Таблица в Google Docs
• Практические работы (задачи, лабораторные)
закрывают вопросы по теме
• Лабораторные включаются в оценку проекта
• Дополнительные работы приносят очки

Высшая школа экономики, Москва, 2013
Сроки работ
• Задачи — 2 недели с момента получения (обычно
после лекции по теме)
• Лабораторные — 1 месяц с начала темы (1ая
лабораторная по заданной теме)
• Проект — до конца семестра (конец 2го модуля)
• Коллоквиум — середина семестра (конец 1го
модуля)
• Все сдается только 1 раз

Высшая школа экономики, Москва, 2013
После курса
• Практика в основных языках программирования
• Современные библиотеки
• Современные программные средства

Высшая школа экономики, Москва, 2013
После курса
• Собственный проект анализа данных (статья в
журнале, участие в конкурсе — опционально)

Высшая школа экономики, Москва, 2013
После курса
• Самостоятельный сбор и анализ данных из
интернет-источников

Высшая школа экономики, Москва, 2013
Работы студентов прошлых курсов
• https://github.com/kyromen/FED
– Сбор данных о развлечениях Москвы
– Разбор запроса пользователя
– Предложение наиболее адекватных запросу (география,
тема, цена)
– Хороший проект :-)

Высшая школа экономики, Москва, 2013
Работы студентов прошлых курсов
• http://public.tableausoftware.com/download/workboo
ks/Final_24
–
–
–
–

Сбор данных об авиакатастрофах
Их кластеризация и интерпретация
Их визуализация
Хороший проект :-)

Высшая школа экономики, Москва, 2013
Работы студентов прошлых курсов
• https://github.com/sigitov/KAP/
– Сбор данных с торрент-треккера
– Их агрегирование и визуализация
– Не очень хороший проект :-), так как анализа и
интерпретации нет

Высшая школа экономики, Москва, 2013
Работы студентов прошлых курсов
• И другие проекты
• см.
http://wiki.auditory.ru/Категория:Проекты_Анализа_д
анных
• Например
–
–
–
–

Секвенциальный анализ статистики посещений сайта
Сравнение страниц в Mediawiki
Анализ изображений фотостока
Виджет DBSCAN кластеризации для Orange

Высшая школа экономики, Москва, 2013
Высшая школа экономики, Москва, 2013

More Related Content

Вводная лекция. О курсе АД.

  • 1. Методы и Средства Анализа Данных Вводная лекция Преподаватель: Игнатьев И.С. Кафедра ИКТ Высшая школа экономики, Москва, 2013 www.hse.ru
  • 2. Контакты •Игнатьев Иван Сергеевич •http://hse.ru/staff/ignatyev •Контакты: – По индивидуальным/срочным вопросам вопросам – email (постоянно открыта, кроме выходных) – По общим/групповым вопросам – гуглогруппа datamine101 (или форум кафедры) – По совсем срочным вопросам - телефон Высшая школа экономики, Москва, 2013
  • 3. Цели курса • Эффективная работа с большими объемами данных • Знание процессов (сбор, подготовка, анализа, вывод, визуализация) и алгоритмов анализа данных • Умение использовать ПО/библиотеки анализа данных • Создание своих проектов анализа данных Высшая школа экономики, Москва, 2013
  • 4. Материалы • library.auditory.ru: Барсегян et al. Методы и модели анализа данных: OLAP и Data Mining. (начальная книга) Сегаран, Тоби. Программируем коллективный разум. Маннинг, Кристофер, Шютце, Хайнрих, Рагхаван, Прабхакар. Введение в информационный поиск. Mark Hall, Ian Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, Third Edition. • Machinelearning.ru: К. В. Воронцов. Математические методы обучения по прецедентам. Дьяконов А.Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab. • Курс «Машинное обучение» ШАД Яндекса • Курс «Machine Learning» by Andrew Ng, Stanford on Coursera • Ридер по курсу на wiki.auditory.ru (базовый источник) Высшая школа экономики, Москва, 2013
  • 5. ПО и софт • • • • • • Python + libs (mechanize, BeautifulSoup) JS + libs (CasperJS, PhantomJS) OpenRefine Orange/Weka Data Mining Environments Tableau Public, Bime Analytics Apache Hadoop + Mahout Высшая школа экономики, Москва, 2013
  • 6. Структура • Лекции • Лабораторные работы (x3) • Два трека: – Для программирующих – Для непрограммирующих (экспериментальный) • Задания на баллы • Коллоквиум • Блокирующий Зачет Высшая школа экономики, Москва, 2013
  • 7. Темы • • • • • Классификация Ассоциативный и секвенциальный анализ Кластеризация Информационный поиск Факторный анализ Высшая школа экономики, Москва, 2013
  • 8. Оценки • Накопленная оценка: – Задания на очки (надо набрать 200 или более) • Посещаемость • Тесты в LMS • Задачи – Лабораторные работы (x3) - Единый проект — защита каждой – Коллоквиум по незакрытым темам (конец первого модуля) • Оценка за зачет по незакрытым темам (конец 2го модуля) • Зачет блокирующий • Итоговая = 0,6 Накопленной + 0,4 Зачета Высшая школа экономики, Москва, 2013
  • 9. Дополнительные работы • • • • На баллы На благо кафедры По темам курса Примеры: – – – – Работа в лаборатории кафедры Описание участия в мероприятии по теме курса Написание своего программного проекта по теме курса Перевод статьи с конференции по теме курса • Требуют обязательного подтверждения какими-либо артефактами (отчет/код/продукт и т.д.) Высшая школа экономики, Москва, 2013
  • 10. Критерии оценки работ • • • • • • • • • • Несоответствие работы заданию (-90%) Ошибки в работе (-20% /ошибка) Незаконченность работы (-30% / -70%) Просрочка работы (-50%) Копирование (докладная, -100%) Не дословное копирование ( -40%) Неграмотность работы (-10% / -20%) Оформление работы (+ 20% / -20%) Перевыполнение работы ( + 10% / +50%) Сдано первым (+10%) Высшая школа экономики, Москва, 2013
  • 11. Учет работ • Таблица в Google Docs • Накопленная оценка: – 0.1 посещаемость (взвешена по медиане) – 0.2 Очки (взвешены по уровню ~200) – 0.3 Лабораторные ( взвешены по числу (3), нужна защита) – 0.4 Проект (по нескольким критериям, таким как «код», «документация», «представление» и т.д.) Высшая школа экономики, Москва, 2013
  • 12. Взаимосвязи работ • Таблица в Google Docs • Практические работы (задачи, лабораторные) закрывают вопросы по теме • Лабораторные включаются в оценку проекта • Дополнительные работы приносят очки Высшая школа экономики, Москва, 2013
  • 13. Сроки работ • Задачи — 2 недели с момента получения (обычно после лекции по теме) • Лабораторные — 1 месяц с начала темы (1ая лабораторная по заданной теме) • Проект — до конца семестра (конец 2го модуля) • Коллоквиум — середина семестра (конец 1го модуля) • Все сдается только 1 раз Высшая школа экономики, Москва, 2013
  • 14. После курса • Практика в основных языках программирования • Современные библиотеки • Современные программные средства Высшая школа экономики, Москва, 2013
  • 15. После курса • Собственный проект анализа данных (статья в журнале, участие в конкурсе — опционально) Высшая школа экономики, Москва, 2013
  • 16. После курса • Самостоятельный сбор и анализ данных из интернет-источников Высшая школа экономики, Москва, 2013
  • 17. Работы студентов прошлых курсов • https://github.com/kyromen/FED – Сбор данных о развлечениях Москвы – Разбор запроса пользователя – Предложение наиболее адекватных запросу (география, тема, цена) – Хороший проект :-) Высшая школа экономики, Москва, 2013
  • 18. Работы студентов прошлых курсов • http://public.tableausoftware.com/download/workboo ks/Final_24 – – – – Сбор данных об авиакатастрофах Их кластеризация и интерпретация Их визуализация Хороший проект :-) Высшая школа экономики, Москва, 2013
  • 19. Работы студентов прошлых курсов • https://github.com/sigitov/KAP/ – Сбор данных с торрент-треккера – Их агрегирование и визуализация – Не очень хороший проект :-), так как анализа и интерпретации нет Высшая школа экономики, Москва, 2013
  • 20. Работы студентов прошлых курсов • И другие проекты • см. http://wiki.auditory.ru/Категория:Проекты_Анализа_д анных • Например – – – – Секвенциальный анализ статистики посещений сайта Сравнение страниц в Mediawiki Анализ изображений фотостока Виджет DBSCAN кластеризации для Orange Высшая школа экономики, Москва, 2013