Технические моменты проведения курса. Материалы, оценки, структура.
1 of 21
Download to read offline
More Related Content
Вводная лекция. О курсе АД.
1. Методы и Средства Анализа Данных
Вводная лекция
Преподаватель: Игнатьев И.С.
Кафедра ИКТ
Высшая школа экономики, Москва, 2013
www.hse.ru
2. Контакты
•Игнатьев Иван Сергеевич
•http://hse.ru/staff/ignatyev
•Контакты:
– По индивидуальным/срочным вопросам вопросам –
email (постоянно открыта, кроме выходных)
– По общим/групповым вопросам – гуглогруппа
datamine101 (или форум кафедры)
– По совсем срочным вопросам - телефон
Высшая школа экономики, Москва, 2013
3. Цели курса
• Эффективная работа с большими объемами
данных
• Знание процессов (сбор, подготовка, анализа,
вывод, визуализация) и алгоритмов анализа
данных
• Умение использовать ПО/библиотеки анализа
данных
• Создание своих проектов анализа данных
Высшая школа экономики, Москва, 2013
4. Материалы
• library.auditory.ru:
Барсегян et al. Методы и модели анализа данных: OLAP и Data Mining.
(начальная книга)
Сегаран, Тоби. Программируем коллективный разум.
Маннинг, Кристофер, Шютце, Хайнрих, Рагхаван, Прабхакар. Введение в
информационный поиск.
Mark Hall, Ian Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and
Techniques, Third Edition.
• Machinelearning.ru:
К. В. Воронцов. Математические методы обучения по прецедентам.
Дьяконов А.Г. Анализ данных, обучение по прецедентам, логические игры, системы
WEKA, RapidMiner и MatLab.
• Курс «Машинное обучение» ШАД Яндекса
• Курс «Machine Learning» by Andrew Ng, Stanford on Coursera
• Ридер по курсу на wiki.auditory.ru (базовый источник)
Высшая школа экономики, Москва, 2013
5. ПО и софт
•
•
•
•
•
•
Python + libs (mechanize, BeautifulSoup)
JS + libs (CasperJS, PhantomJS)
OpenRefine
Orange/Weka Data Mining Environments
Tableau Public, Bime Analytics
Apache Hadoop + Mahout
Высшая школа экономики, Москва, 2013
6. Структура
• Лекции
• Лабораторные работы (x3)
• Два трека:
– Для программирующих
– Для непрограммирующих (экспериментальный)
• Задания на баллы
• Коллоквиум
• Блокирующий Зачет
Высшая школа экономики, Москва, 2013
8. Оценки
• Накопленная оценка:
– Задания на очки (надо набрать 200 или более)
• Посещаемость
• Тесты в LMS
• Задачи
– Лабораторные работы (x3) - Единый проект — защита каждой
– Коллоквиум по незакрытым темам (конец первого модуля)
• Оценка за зачет по незакрытым темам (конец 2го модуля)
• Зачет блокирующий
• Итоговая = 0,6 Накопленной + 0,4 Зачета
Высшая школа экономики, Москва, 2013
9. Дополнительные работы
•
•
•
•
На баллы
На благо кафедры
По темам курса
Примеры:
–
–
–
–
Работа в лаборатории кафедры
Описание участия в мероприятии по теме курса
Написание своего программного проекта по теме курса
Перевод статьи с конференции по теме курса
• Требуют обязательного подтверждения какими-либо
артефактами (отчет/код/продукт и т.д.)
Высшая школа экономики, Москва, 2013
10. Критерии оценки работ
•
•
•
•
•
•
•
•
•
•
Несоответствие работы заданию (-90%)
Ошибки в работе (-20% /ошибка)
Незаконченность работы (-30% / -70%)
Просрочка работы (-50%)
Копирование (докладная, -100%)
Не дословное копирование ( -40%)
Неграмотность работы (-10% / -20%)
Оформление работы (+ 20% / -20%)
Перевыполнение работы ( + 10% / +50%)
Сдано первым (+10%)
Высшая школа экономики, Москва, 2013
11. Учет работ
• Таблица в Google Docs
• Накопленная оценка:
– 0.1 посещаемость (взвешена по медиане)
– 0.2 Очки (взвешены по уровню ~200)
– 0.3 Лабораторные ( взвешены по числу (3), нужна
защита)
– 0.4 Проект (по нескольким критериям, таким как «код»,
«документация», «представление» и т.д.)
Высшая школа экономики, Москва, 2013
12. Взаимосвязи работ
• Таблица в Google Docs
• Практические работы (задачи, лабораторные)
закрывают вопросы по теме
• Лабораторные включаются в оценку проекта
• Дополнительные работы приносят очки
Высшая школа экономики, Москва, 2013
13. Сроки работ
• Задачи — 2 недели с момента получения (обычно
после лекции по теме)
• Лабораторные — 1 месяц с начала темы (1ая
лабораторная по заданной теме)
• Проект — до конца семестра (конец 2го модуля)
• Коллоквиум — середина семестра (конец 1го
модуля)
• Все сдается только 1 раз
Высшая школа экономики, Москва, 2013
14. После курса
• Практика в основных языках программирования
• Современные библиотеки
• Современные программные средства
Высшая школа экономики, Москва, 2013
15. После курса
• Собственный проект анализа данных (статья в
журнале, участие в конкурсе — опционально)
Высшая школа экономики, Москва, 2013
17. Работы студентов прошлых курсов
• https://github.com/kyromen/FED
– Сбор данных о развлечениях Москвы
– Разбор запроса пользователя
– Предложение наиболее адекватных запросу (география,
тема, цена)
– Хороший проект :-)
Высшая школа экономики, Москва, 2013
18. Работы студентов прошлых курсов
• http://public.tableausoftware.com/download/workboo
ks/Final_24
–
–
–
–
Сбор данных об авиакатастрофах
Их кластеризация и интерпретация
Их визуализация
Хороший проект :-)
Высшая школа экономики, Москва, 2013
19. Работы студентов прошлых курсов
• https://github.com/sigitov/KAP/
– Сбор данных с торрент-треккера
– Их агрегирование и визуализация
– Не очень хороший проект :-), так как анализа и
интерпретации нет
Высшая школа экономики, Москва, 2013
20. Работы студентов прошлых курсов
• И другие проекты
• см.
http://wiki.auditory.ru/Категория:Проекты_Анализа_д
анных
• Например
–
–
–
–
Секвенциальный анализ статистики посещений сайта
Сравнение страниц в Mediawiki
Анализ изображений фотостока
Виджет DBSCAN кластеризации для Orange
Высшая школа экономики, Москва, 2013