ݺߣ

ݺߣShare a Scribd company logo
Машинное обучение в ранжировании поиска
У нас есть свой поиск!
   •   Веб
   •   Картинки
   •   Видео
   •   Новости
   •   Обсуждения
   •   Ответы
   •   Словари
Архитектура
               Оценка
              качества


 Машинное             Поисковый              Фронтенды
 обучение              кластер


   Фетчер
                    Индексаторы
     ы

HDFS                                                     Вычислительный
       Таблица документов                                        кластер
       10 миллиардов документов, один петабайт
Анализ запроса
Оценка страницы
                  Обязательно      4
                  Точный ответ     3
                  Полезно          2
                  Малополезно      1
                  Не по теме       0
                  Нельзя оценить
Оценка качества поиска

                    №    Оценка         CG   DCG
                    1    Точный ответ   3    3
                    2    Точный ответ   3    3
                    3    Полезно        2    1,26
                    4    Точный ответ   3    1,5
                    5    Полезно        2    0,86
                    6    Малополезно    1    0,38
                    7    Полезно        2    0,71
                    8    Малополезно    1    0,33
                         Итого          17   11,04
Общий набор оценок

  Запрос                         Документ                                        Оценка
  специальная мышца ёжика        http://digest-news.ru/833-Zachemezhikuigolki-   1
                                 Interesniefakti.html
  одноклассники                  http://www.odnoklassniki.ru/                    4
  …                              …                                               …


                  Извлечение факторов


  tf         tf*idf      иц       …            …                …          …     Оценка
  4          12          8        4            3                7          …     1
  …          …           …        …            …                …          …     …
Задача ранжирования

                Сотни факторов


       500                           300
      тысяч                         тысяч

              Обучение   Проверка

Цель – максимум NDCG на проверочной выборке
Фильтрация оценок
Как получаем выдачу?

• Релевантность документа.
• Сравнение двух




                                       Фактор-2
  документов.
• Всю десятку сразу.


        Если бы факторов было мало,
        то можно было бы делать так:

                                                  Фактор-1
Многомерность

                ε = 0,13




                           объём   ε
Деревья решений

                                              F3
                    F7 > 2



       F3 > 1                    F3 > 2



   2            1            4            3


Есть проблема переобучения.
Нужны ограничения на размер и вид деревьев.
                                                   F7
Бустинг



              F5 > 7             3



     F7 > 1            F3 > 11   2   Результат: 3


                                 3
Бэггинг


Обучающее множество:     1    2     3     4    5     6    7     8      9   10



                       Создаём случайные подмножества:
Подмножество #1          1    3     5     7    9    10

Подмножество #2          2    3     6     7    8     9

Подмножество #3          1    2     3     8    9    10



                       Каждый раз обучаемся на одном из подмножеств.
Что в итоге
                                      И не только ранжирование:
                                      • Разбиение на предложения.
                                      • Детектор порнографии.
                           Поиск      • Антиспам.




                                   Машинное
   Инструкция   Асессоры                           Алгоритмы
                                   обучение
СПАСИБО! ВОПРОСЫ?
       Андрей Калинин
руководитель разработки поиска
      kalinin@corp.mail.ru
Ad

Recommended

Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс
Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс
Yandex
сервисы яндекса1
сервисы яндекса1
Dmitriy Melnikov
Правильная семантическая разметка для всех
Правильная семантическая разметка для всех
Yuliya Tikhokhod
Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian)
Alexander Petrov
Поиск@Mail.Ru: Из первых рук
Поиск@Mail.Ru: Из первых рук
Александр Алаев
1145 1230 Технологическое партнерство с Microsoft – опыт Mail.Ru Group
1145 1230 Технологическое партнерство с Microsoft – опыт Mail.Ru Group
tfmailru
Sumin
Sumin
tfmailru
Технологии тестирования Rich Web client, Андрей Плешков, Форум Технологий Mai...
Технологии тестирования Rich Web client, Андрей Плешков, Форум Технологий Mai...
tfmailru
Tech forum 2011-почта
Tech forum 2011-почта
tfmailru
Платформа@Mail.Ru: настоящее и будущее
Платформа@Mail.Ru: настоящее и будущее
tfmailru
Эволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru Group
Эволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru Group
tfmailru
Alekseev
Alekseev
tfmailru
Опыт внедрения и использования распределенной системы хранения данных на осно...
Опыт внедрения и использования распределенной системы хранения данных на осно...
tfmailru
Разработка социальных игр «из первых рук»: ваш путь в топ!
Разработка социальных игр «из первых рук»: ваш путь в топ!
tfmailru
Стабильность — признак мастерства
Стабильность — признак мастерства
tfmailru
Создание мобильных приложений: платформы, тренды, тонкости
Создание мобильных приложений: платформы, тренды, тонкости
tfmailru
Как мы в Почте@Mail.Ru выдерживаем высокие нагрузки
Как мы в Почте@Mail.Ru выдерживаем высокие нагрузки
tfmailru
Платежные системы и мошенники в Сети (Ефимочкин Андрей))
Платежные системы и мошенники в Сети (Ефимочкин Андрей))
tfmailru
Типичные проблемы с массовыми рассылками и как их избежать
Типичные проблемы с массовыми рассылками и как их избежать
tfmailru
Андрей Калинин — Mail.Ru Group — ICBDA2016
Андрей Калинин — Mail.Ru Group — ICBDA2016
rusbase
Форум Технологий Mail.Ru 2011: Юрий Ветров — Как создаются интерфейсы в Mail.Ru
Форум Технологий Mail.Ru 2011: Юрий Ветров — Как создаются интерфейсы в Mail.Ru
Yury Vetrov
Поиск похожих видео-роликов на основе анализа содержимого видео-файлов — Ан...
Поиск похожих видео-роликов на основе анализа содержимого видео-файлов — Ан...
Yandex
Hadoop ecosystem
Hadoop ecosystem
tfmailru
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
tfmailru
Обзор архитектуры и подсистем деплоя и мониторинга. Как инженеры делают систе...
Обзор архитектуры и подсистем деплоя и мониторинга. Как инженеры делают систе...
Ontico
к форуму технологий вступление Last
к форуму технологий вступление Last
tfmailru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
tfmailru
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
tfmailru
Стабильность — признак мастерства
Стабильность — признак мастерства
tfmailru
Развитие интерфейса через гайдлайны
Развитие интерфейса через гайдлайны
tfmailru

More Related Content

Viewers also liked (17)

Tech forum 2011-почта
Tech forum 2011-почта
tfmailru
Платформа@Mail.Ru: настоящее и будущее
Платформа@Mail.Ru: настоящее и будущее
tfmailru
Эволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru Group
Эволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru Group
tfmailru
Alekseev
Alekseev
tfmailru
Опыт внедрения и использования распределенной системы хранения данных на осно...
Опыт внедрения и использования распределенной системы хранения данных на осно...
tfmailru
Разработка социальных игр «из первых рук»: ваш путь в топ!
Разработка социальных игр «из первых рук»: ваш путь в топ!
tfmailru
Стабильность — признак мастерства
Стабильность — признак мастерства
tfmailru
Создание мобильных приложений: платформы, тренды, тонкости
Создание мобильных приложений: платформы, тренды, тонкости
tfmailru
Как мы в Почте@Mail.Ru выдерживаем высокие нагрузки
Как мы в Почте@Mail.Ru выдерживаем высокие нагрузки
tfmailru
Платежные системы и мошенники в Сети (Ефимочкин Андрей))
Платежные системы и мошенники в Сети (Ефимочкин Андрей))
tfmailru
Типичные проблемы с массовыми рассылками и как их избежать
Типичные проблемы с массовыми рассылками и как их избежать
tfmailru
Андрей Калинин — Mail.Ru Group — ICBDA2016
Андрей Калинин — Mail.Ru Group — ICBDA2016
rusbase
Форум Технологий Mail.Ru 2011: Юрий Ветров — Как создаются интерфейсы в Mail.Ru
Форум Технологий Mail.Ru 2011: Юрий Ветров — Как создаются интерфейсы в Mail.Ru
Yury Vetrov
Поиск похожих видео-роликов на основе анализа содержимого видео-файлов — Ан...
Поиск похожих видео-роликов на основе анализа содержимого видео-файлов — Ан...
Yandex
Hadoop ecosystem
Hadoop ecosystem
tfmailru
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
tfmailru
Обзор архитектуры и подсистем деплоя и мониторинга. Как инженеры делают систе...
Обзор архитектуры и подсистем деплоя и мониторинга. Как инженеры делают систе...
Ontico
Tech forum 2011-почта
Tech forum 2011-почта
tfmailru
Платформа@Mail.Ru: настоящее и будущее
Платформа@Mail.Ru: настоящее и будущее
tfmailru
Эволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru Group
Эволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru Group
tfmailru
Опыт внедрения и использования распределенной системы хранения данных на осно...
Опыт внедрения и использования распределенной системы хранения данных на осно...
tfmailru
Разработка социальных игр «из первых рук»: ваш путь в топ!
Разработка социальных игр «из первых рук»: ваш путь в топ!
tfmailru
Стабильность — признак мастерства
Стабильность — признак мастерства
tfmailru
Создание мобильных приложений: платформы, тренды, тонкости
Создание мобильных приложений: платформы, тренды, тонкости
tfmailru
Как мы в Почте@Mail.Ru выдерживаем высокие нагрузки
Как мы в Почте@Mail.Ru выдерживаем высокие нагрузки
tfmailru
Платежные системы и мошенники в Сети (Ефимочкин Андрей))
Платежные системы и мошенники в Сети (Ефимочкин Андрей))
tfmailru
Типичные проблемы с массовыми рассылками и как их избежать
Типичные проблемы с массовыми рассылками и как их избежать
tfmailru
Андрей Калинин — Mail.Ru Group — ICBDA2016
Андрей Калинин — Mail.Ru Group — ICBDA2016
rusbase
Форум Технологий Mail.Ru 2011: Юрий Ветров — Как создаются интерфейсы в Mail.Ru
Форум Технологий Mail.Ru 2011: Юрий Ветров — Как создаются интерфейсы в Mail.Ru
Yury Vetrov
Поиск похожих видео-роликов на основе анализа содержимого видео-файлов — Ан...
Поиск похожих видео-роликов на основе анализа содержимого видео-файлов — Ан...
Yandex
Hadoop ecosystem
Hadoop ecosystem
tfmailru
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
tfmailru
Обзор архитектуры и подсистем деплоя и мониторинга. Как инженеры делают систе...
Обзор архитектуры и подсистем деплоя и мониторинга. Как инженеры делают систе...
Ontico

More from tfmailru (11)

к форуму технологий вступление Last
к форуму технологий вступление Last
tfmailru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
tfmailru
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
tfmailru
Стабильность — признак мастерства
Стабильность — признак мастерства
tfmailru
Развитие интерфейса через гайдлайны
Развитие интерфейса через гайдлайны
tfmailru
Типичные проблемы с массовыми рассылками и как из избежать
Типичные проблемы с массовыми рассылками и как из избежать
tfmailru
Как избавиться от опасных ссылок в вашем проекте
Как избавиться от опасных ссылок в вашем проекте
tfmailru
Платежные системы и мошенники в Сети
Платежные системы и мошенники в Сети
tfmailru
Технологии поиска
Технологии поиска
tfmailru
Как не утонуть в мегабайтах JS-кода
Как не утонуть в мегабайтах JS-кода
tfmailru
Программа форума
Программа форума
tfmailru
к форуму технологий вступление Last
к форуму технологий вступление Last
tfmailru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Ru
tfmailru
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
Tarantool: как обрабатывать 
1,5 млрд запросов в сутки?
tfmailru
Стабильность — признак мастерства
Стабильность — признак мастерства
tfmailru
Развитие интерфейса через гайдлайны
Развитие интерфейса через гайдлайны
tfmailru
Типичные проблемы с массовыми рассылками и как из избежать
Типичные проблемы с массовыми рассылками и как из избежать
tfmailru
Как избавиться от опасных ссылок в вашем проекте
Как избавиться от опасных ссылок в вашем проекте
tfmailru
Платежные системы и мошенники в Сети
Платежные системы и мошенники в Сети
tfmailru
Технологии поиска
Технологии поиска
tfmailru
Как не утонуть в мегабайтах JS-кода
Как не утонуть в мегабайтах JS-кода
tfmailru
Программа форума
Программа форума
tfmailru
Ad

Машинное обучение в ранжировании поиска

  • 1. Машинное обучение в ранжировании поиска
  • 2. У нас есть свой поиск! • Веб • Картинки • Видео • Новости • Обсуждения • Ответы • Словари
  • 3. Архитектура Оценка качества Машинное Поисковый Фронтенды обучение кластер Фетчер Индексаторы ы HDFS Вычислительный Таблица документов кластер 10 миллиардов документов, один петабайт
  • 5. Оценка страницы Обязательно 4 Точный ответ 3 Полезно 2 Малополезно 1 Не по теме 0 Нельзя оценить
  • 6. Оценка качества поиска № Оценка CG DCG 1 Точный ответ 3 3 2 Точный ответ 3 3 3 Полезно 2 1,26 4 Точный ответ 3 1,5 5 Полезно 2 0,86 6 Малополезно 1 0,38 7 Полезно 2 0,71 8 Малополезно 1 0,33 Итого 17 11,04
  • 7. Общий набор оценок Запрос Документ Оценка специальная мышца ёжика http://digest-news.ru/833-Zachemezhikuigolki- 1 Interesniefakti.html одноклассники http://www.odnoklassniki.ru/ 4 … … … Извлечение факторов tf tf*idf иц … … … … Оценка 4 12 8 4 3 7 … 1 … … … … … … … …
  • 8. Задача ранжирования Сотни факторов 500 300 тысяч тысяч Обучение Проверка Цель – максимум NDCG на проверочной выборке
  • 10. Как получаем выдачу? • Релевантность документа. • Сравнение двух Фактор-2 документов. • Всю десятку сразу. Если бы факторов было мало, то можно было бы делать так: Фактор-1
  • 11. Многомерность ε = 0,13 объём ε
  • 12. Деревья решений F3 F7 > 2 F3 > 1 F3 > 2 2 1 4 3 Есть проблема переобучения. Нужны ограничения на размер и вид деревьев. F7
  • 13. Бустинг F5 > 7 3 F7 > 1 F3 > 11 2 Результат: 3 3
  • 14. Бэггинг Обучающее множество: 1 2 3 4 5 6 7 8 9 10 Создаём случайные подмножества: Подмножество #1 1 3 5 7 9 10 Подмножество #2 2 3 6 7 8 9 Подмножество #3 1 2 3 8 9 10 Каждый раз обучаемся на одном из подмножеств.
  • 15. Что в итоге И не только ранжирование: • Разбиение на предложения. • Детектор порнографии. Поиск • Антиспам. Машинное Инструкция Асессоры Алгоритмы обучение
  • 16. СПАСИБО! ВОПРОСЫ? Андрей Калинин руководитель разработки поиска kalinin@corp.mail.ru