ݺߣ

ݺߣShare a Scribd company logo
Введение в Data Science
Занятие 7. Ноунейм
Николай Анохин Михаил Фирулик
18 апреля 2014 г.
Работа в группе
Задача. Оценить, какой вклад внес в общий результат каждый
участник группы
Шаг 1. Каждый студент анонимно и независимо распределяет 100
очков между всеми участниками своей группы в зависимости того,
какую пользу (по его/её мнению) каждый из участников принес
Пример.
Студент Вклад
Геральт 50
Лютик 10
Мильва 20
Регис 20
Шаг 2. Из всех оценок вычисляется общая аггрегированная оценка
на основе алгоритма PageRank
План занятия
PageRank
Задача модуля
Жизнь до Google
1. Поисковые роботы используются
для парсинга интернет-страниц
2. Составляется обратный индекс, в
котором каждому слову
соответствовал набор страниц
3. Слова из поискового запроса
пользователя используются для
поиска страниц в индексе
4. Из близких к запросу страниц
формируется выдача
Проблема: Term Spam
Что придумали парни из Google
Дополнительно
1. Страницы ранжируются в
соответствии с их
“важностью” с помощью
алгоритма PageRank
2. О релевантности страниц
судят не только по словам,
находящимся на текущей
странице, но и по словам
“соседних” страниц
Random Surfer
Интуиция
Пользователь начинает с просмотра случайной страницы, после чего
с равной вероятностью переходит по одной из ссылок на этой
странице. Процесс продолжается до бесконечности. PageRank
страницы – вероятность обнаружить пользователя на этой странице.
Пользователь с большей вероятностью посещает “полезные”
страницы, чем “бесполезные”
Создатели страниц размещают ссылки на “полезные” страницы
PageRank
Представим интернет, как направленный граф со страницами в
качестве вершин и ссылками между страницами в качестве ребер
Матрица вероятностей перехода
M =




0 1/2 1 0
1/3 0 0 1/2
1/3 0 0 1/2
1/3 1/2 0 0




PageRank
Элементы матрицы перехода
mij = P(v
(k)
i |v
(k−1)
j )
Изначально все страницы
равновероятны
v(0)
= 1/n . . . 1/n
Вектор вероятностей на k шаге
v(k)
= Mv(k−1)
Предельное значение v – собственный вектор M, соответствующий
собственному числу λ = 1. Процесс сходится, если из любой
вершины можно попасть в любую.
Структура Интернета
Проблемы PageRank
Dead End Spider Trap
Решение. разрешим пользовалю “телепортироваться” на случайную
страницу с вероятностью 1 − β
v(k)
= βMv(k−1)
+ (1 − β)
e
n
Пример
Матрица перехода
M =




0 1/2 0 0
1/3 0 0 1/2
1/3 0 1 1/2
1/3 1/2 0 0




Без телепортов
v = 0 0 1 0
С телепортами β = 0.8
v = 15
148
19
148
95
148
19
148
Spider Trap
Методика оценки
Геральт Лютик Мильва Регис Индивидуально
Геральт 50 10 30 30 20
Лютик 10 70 10 5 5
Мильва 20 10 30 30 15
Регис 20 10 30 35 15
Матрица перехода, β = 0.9
M =




0.5 0.1 0.3 0.3
0.1 0.7 0.1 0.05
0.2 0.1 0.3 0.3
0.2 0.1 0.3 0.35



 v =




0.31
0.23
0.23
0.24




Групповая оценка: 30/40
Итог:
Геральт: 29, Лютик: 12, Мильва: 22, Регис: 22

More Related Content

Viewers also liked (20)

Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"
Technosphere1
L4: Решающие деревья
L4: Решающие деревьяL4: Решающие деревья
L4: Решающие деревья
Technosphere1
Web лекция 1
Web   лекция 1Web   лекция 1
Web лекция 1
Technosphere1
Мастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебМастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного веб
Technosphere1
Лекция 6: Работа с данными. Django ORM
Лекция 6: Работа с данными. Django ORMЛекция 6: Работа с данными. Django ORM
Лекция 6: Работа с данными. Django ORM
Technosphere1
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризации
Technosphere1
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
Technosphere1
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияL3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессия
Technosphere1
L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: Заключительная
Technosphere1
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качества
Technosphere1
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
Technosphere1
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
Technosphere1
L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибок
Technosphere1
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
Technosphere1
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Technosphere1
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"
Technosphere1
Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии"
Technosphere1
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"
Technosphere1
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
Technosphere1
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов"
Technosphere1
Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"
Technosphere1
L4: Решающие деревья
L4: Решающие деревьяL4: Решающие деревья
L4: Решающие деревья
Technosphere1
Мастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебМастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного веб
Technosphere1
Лекция 6: Работа с данными. Django ORM
Лекция 6: Работа с данными. Django ORMЛекция 6: Работа с данными. Django ORM
Лекция 6: Работа с данными. Django ORM
Technosphere1
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризации
Technosphere1
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
Technosphere1
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияL3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессия
Technosphere1
L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: Заключительная
Technosphere1
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качества
Technosphere1
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
Technosphere1
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
Technosphere1
L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибок
Technosphere1
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
Technosphere1
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Technosphere1
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"
Technosphere1
Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии"
Technosphere1
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"
Technosphere1
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
Technosphere1
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов"
Technosphere1

L8: Л7 Em-алгоритм

  • 1. Введение в Data Science Занятие 7. Ноунейм Николай Анохин Михаил Фирулик 18 апреля 2014 г.
  • 2. Работа в группе Задача. Оценить, какой вклад внес в общий результат каждый участник группы Шаг 1. Каждый студент анонимно и независимо распределяет 100 очков между всеми участниками своей группы в зависимости того, какую пользу (по его/её мнению) каждый из участников принес Пример. Студент Вклад Геральт 50 Лютик 10 Мильва 20 Регис 20 Шаг 2. Из всех оценок вычисляется общая аггрегированная оценка на основе алгоритма PageRank
  • 4. Жизнь до Google 1. Поисковые роботы используются для парсинга интернет-страниц 2. Составляется обратный индекс, в котором каждому слову соответствовал набор страниц 3. Слова из поискового запроса пользователя используются для поиска страниц в индексе 4. Из близких к запросу страниц формируется выдача Проблема: Term Spam
  • 5. Что придумали парни из Google Дополнительно 1. Страницы ранжируются в соответствии с их “важностью” с помощью алгоритма PageRank 2. О релевантности страниц судят не только по словам, находящимся на текущей странице, но и по словам “соседних” страниц
  • 6. Random Surfer Интуиция Пользователь начинает с просмотра случайной страницы, после чего с равной вероятностью переходит по одной из ссылок на этой странице. Процесс продолжается до бесконечности. PageRank страницы – вероятность обнаружить пользователя на этой странице. Пользователь с большей вероятностью посещает “полезные” страницы, чем “бесполезные” Создатели страниц размещают ссылки на “полезные” страницы
  • 7. PageRank Представим интернет, как направленный граф со страницами в качестве вершин и ссылками между страницами в качестве ребер Матрица вероятностей перехода M =     0 1/2 1 0 1/3 0 0 1/2 1/3 0 0 1/2 1/3 1/2 0 0    
  • 8. PageRank Элементы матрицы перехода mij = P(v (k) i |v (k−1) j ) Изначально все страницы равновероятны v(0) = 1/n . . . 1/n Вектор вероятностей на k шаге v(k) = Mv(k−1) Предельное значение v – собственный вектор M, соответствующий собственному числу λ = 1. Процесс сходится, если из любой вершины можно попасть в любую.
  • 10. Проблемы PageRank Dead End Spider Trap Решение. разрешим пользовалю “телепортироваться” на случайную страницу с вероятностью 1 − β v(k) = βMv(k−1) + (1 − β) e n
  • 11. Пример Матрица перехода M =     0 1/2 0 0 1/3 0 0 1/2 1/3 0 1 1/2 1/3 1/2 0 0     Без телепортов v = 0 0 1 0 С телепортами β = 0.8 v = 15 148 19 148 95 148 19 148 Spider Trap
  • 12. Методика оценки Геральт Лютик Мильва Регис Индивидуально Геральт 50 10 30 30 20 Лютик 10 70 10 5 5 Мильва 20 10 30 30 15 Регис 20 10 30 35 15 Матрица перехода, β = 0.9 M =     0.5 0.1 0.3 0.3 0.1 0.7 0.1 0.05 0.2 0.1 0.3 0.3 0.2 0.1 0.3 0.35     v =     0.31 0.23 0.23 0.24     Групповая оценка: 30/40 Итог: Геральт: 29, Лютик: 12, Мильва: 22, Регис: 22