Машинное обучение в ранжировании поиска

Nov 17, 2011Download as pptx, pdf

0 likes856 views

Документ описывает использование машинного обучения в системе ранжирования поиска, где анализируется качество поиска на основе множества факторов. Основной акцент сделан на оценке релевантности документов и применении различных методов, таких как деревья решений и бустинг, для достижения максимального значения ndcg. Также упоминаются дополнительные задачи, такие как разбиение текста на предложения и детекция контента.

У нас есть свой поиск!
• Веб
• Картинки
• Видео
• Новости
• Обсуждения
• Ответы
• Словари

Архитектура
Оценка
качества

Машинное Поисковый Фронтенды
обучение кластер

Фетчер
Индексаторы
ы

HDFS Вычислительный
Таблица документов кластер
10 миллиардов документов, один петабайт

Оценка страницы
Обязательно 4
Точный ответ 3
Полезно 2
Малополезно 1
Не по теме 0
Нельзя оценить

Оценка качества поиска

№ Оценка CG DCG
1 Точный ответ 3 3
2 Точный ответ 3 3
3 Полезно 2 1,26
4 Точный ответ 3 1,5
5 Полезно 2 0,86
6 Малополезно 1 0,38
7 Полезно 2 0,71
8 Малополезно 1 0,33
Итого 17 11,04

Общий набор оценок

Запрос Документ Оценка
специальная мышца ёжика http://digest-news.ru/833-Zachemezhikuigolki- 1
Interesniefakti.html
одноклассники http://www.odnoklassniki.ru/ 4
… … …

Извлечение факторов

tf tf*idf иц … … … … Оценка
4 12 8 4 3 7 … 1
… … … … … … … …

Задача ранжирования

Сотни факторов

500 300
тысяч тысяч

Обучение Проверка

Цель – максимум NDCG на проверочной выборке

Как получаем выдачу?

• Релевантность документа.
• Сравнение двух

Фактор-2
документов.
• Всю десятку сразу.

Если бы факторов было мало,
то можно было бы делать так:

Фактор-1

Деревья решений

F3
F7 > 2

F3 > 1 F3 > 2

2 1 4 3

Есть проблема переобучения.
Нужны ограничения на размер и вид деревьев.
F7

Бустинг

F5 > 7 3

F7 > 1 F3 > 11 2 Результат: 3

3

Бэггинг

Обучающее множество: 1 2 3 4 5 6 7 8 9 10

Создаём случайные подмножества:
Подмножество #1 1 3 5 7 9 10

Подмножество #2 2 3 6 7 8 9

Подмножество #3 1 2 3 8 9 10

Каждый раз обучаемся на одном из подмножеств.

Что в итоге
И не только ранжирование:
• Разбиение на предложения.
• Детектор порнографии.
Поиск • Антиспам.

Машинное
Инструкция Асессоры Алгоритмы
обучение

СПАСИБО! ВОПРОСЫ?
Андрей Калинин
руководитель разработки поиска
kalinin@corp.mail.ru

Документ обсуждает методы оценки релевантности поисковых систем, включая концепции точности и полноты, а также проблемы, возникающие при оценке качества выдачи. Упоминаются эксперименты с пользователями и влияние их поведения на результаты поиска. Кроме того, документ затрагивает ошибки экспертов и трудности, связанные с интерпретацией запросов и оценкой релевантности.

сервисы яндекса1Dmitriy Melnikov

��

Документ описывает различные сервисы Яндекса, а также их целевую аудиторию, основную функциональность и даты запуска. Основное внимание уделяется русскоязычным пользователям и особенностям, как сервисы быстро реагируют на изменения в Рунете. Яндекс предлагает широкий спектр сервисов, включая поиск, мультимедийные, картографические и рекламные услуги.

Правильная семантическая разметка для всехYuliya Tikhokhod

��

Документ описывает возможности семантической микроразметки, ее влияние на поисковую выдачу и новые инструменты Яндекса для проверки микроразметки. Рассматриваются примеры использования разметки, включая специальные сниппеты и поддержку schema.org. Также упоминаются технологии для автоматизации проверки микроразметки и извлечения структурированных данных.

Algorithms overview for content discovery and distribution (on russian) Alexander Petrov

��

Документ представляет обзор различных алгоритмов и методов информационного поиска и фильтрации медиа-контента, включая текст, изображения, музыку и видео. Он описывает ключевые понятия, такие как индексирование, семантический поиск и методы обработки данных, а также рассматривает системы рекомендаций, их подходы и проблемы. Основное внимание уделяется важным аспектам, связанным с автоматизацией индексирования и фильтрации информации для улучшения пользовательского опыта.

Поиск@Mail.Ru: Из первых рукАлександр Алаев

��

Документ обсуждает развитие поисковых технологий в России, включая веб-картинки, видео и новости, и предоставляет статистику запросов по возрастным группам и регионам. Также упоминаются методы борьбы с нежелательным контентом и влияние поведенческих факторов на клики. Автор призывает создавать качественные сайты для пользователей и предлагает ресурсы для дальнейшего изучения темы.

1145 1230 Технологическое партнерство с Microsoft – опыт Mail.Ru Grouptfmailru

��

Документ описывает технологическое партнерство между Mail.ru Group и Microsoft, акцентируя внимание на высоком трафике и вовлеченности пользователей. В нем также рассматриваются прогнозы рыночных долей мобильных операционных систем на 2015 год. Автор, Михаил Черномордиков, делится информацией о работе с подключенными устройствами и стратегическом партнерстве.

Sumintfmailru

��

Документ описывает эволюцию веб-разработки с 2002 по 2005 годы, выделяя проблемы, связанные с управлением JavaScript файлами и их интеграцией в проект. Также рассматриваются функции динамической загрузки компонентов, включая анализ зависимостей и инициализацию компонентов через callback функции. Важно упомянуть разработку календаря событий для удобства взаимодействия между разработчиками и клиентами.

Технологии тестирования Rich Web client, Андрей Плешков, Форум Технологий Mai...tfmailru

��

Документ посвящён методам автоматизированного тестирования rich web client, включая юнит-тестирование, синхронные и асинхронные тесты. Рассмотрены инструменты, такие как jstestdriver и sinon.js, а также примеры кода для настройки и запуска тестов. Обсуждаются различные подходы к проведению тестов, включая использование Selenium и клиентских объектов.

Tech forum 2011-почтаtfmailru

��

Документ описывает возможности партнерства с почтовым сервисом Mail.ru, который имеет обширную аудиторию в интернете. Представлены особенности нового интерфейса, улучшения мобильной версии и новые функции, такие как поддержка SMS-уведомлений и возможность просмотра документов. Упоминается открытый стандарт Open Mail Format, который улучшает видимость писем и повышает конверсию для пользователей.

Платформа@Mail.Ru: настоящее и будущееtfmailru

��

Документ описывает современное состояние и будущее платформы социальных продуктов от Mail.ru, включая API и авторизацию пользователей. Он охватывает статистику использования, преимущества таргетинга для разработчиков и стратегические цели по увеличению охвата. Также рассматривается развитие мобильного направления и монетизация социальных игр.

Эволюция разработки (Ермаков Игорь), Форум технологий Mail.Ru Grouptfmailru

��

Документ описывает эволюцию разработки программного обеспечения и технологий хранения данных с 1998 года до современности, упоминая основные языки программирования и клиентские технологии. Обсуждаются изменения в мобильной разработке и требования к высокопроизводительным сервисам, а также упоминаются различные инструменты и платформы. Также акцентируется внимание на необходимости технологических обновлений и специализации в разработке.

Alekseevtfmailru

��

Документ описывает практику создания социальной игры с использованием языка программирования Lua, акцентируя внимание на простой и производительной реализации игровой логики. Обсуждаются способы хранения данных в оперативной памяти, преимущества микропотоков, а также автоматическая проверка кода для улучшения качества разработки. Автор делится своим опытом и подчеркивает важность удобства разработки и масштабирования проекта.

Опыт внедрения и использования распределенной системы хранения данных на осно...tfmailru

��

Доклад описывает опыт внедрения распределенной системы хранения данных на основе Voldemort и Tarantool, включая архитектуру, преимущества и недостатки существующего решения на основе BerkeleyDB. Рассматриваются проблемы, такие как невысокая производительность и сложное обслуживание, а также решения и результаты внедрения в сервисе обмена сообщениями, демонстрируя высокую отказоустойчивость и масштабируемость. Доклад также включает сравнительный анализ производительности различных NoSQL решений.

Разработка социальных игр «из первых рук»: ваш путь в топ!tfmailru

��

Документ описывает историю успеха компании-разработчика социальных игр, подчеркивая ключевые моменты, такие как первая игра и критические моменты развития. В настоящее время компания является лидером в России с 15 миллионами активных пользователей и офисами в пяти городах. Также упоминается активный поиск талантливых сотрудников.

Стабильность — признак мастерстваtfmailru

��

Документ обсуждает важность мониторинга и поддержки стабильности интернет-сервисов, особенно в условиях низкого порога входа для конкурентов и бесплатных услуг. Приводится статистика по времени простоя и описываются различные методы резервирования и балансировки для достижения 100% аптайма. Также представлены рекомендации по релиз-менеджменту, автоматизации процессов и планированию аварий.

Создание мобильных приложений: платформы, тренды, тонкостиtfmailru

��

Документ анализирует различные технологии разработки мобильных приложений, описывая преимущества и недостатки мобильных сайтов, родных и гибридных приложений. Упоминаются вопросы кроссплатформенности, скорости и стоимости разработки, а также факторы, влияющие на выбор пользователя. Также представлены данные по рынку смартфонов и операционным системам в России.

Как мы в Почте@Mail.Ru выдерживаем высокие нагрузкиtfmailru

��

Документ описывает методы поддержки высоких нагрузок на сервисах Mail.ru, включая почту и главную страницу, с 20 миллионами пользователей и более 500 миллионами хитами в день. Рассматриваются проблемы нагрузки инфраструктуры, организацией серверов и хранением данных, а также трудности администрирования MySQL и необходимость перехода на хранилища без SQL. Приводятся примеры высоконагруженных сервисов и технологий, используемых для обработки динамических данных и уведомлений.

Платежные системы и мошенники в Сети (Ефимочкин Андрей))tfmailru

��

Документ обсуждает использование банковских карт в магазинах и риски мошенничества, а также технологии защиты, такие как 3D-Secure и фродмониторинг. В нем рассматриваются важные аспекты платежной цепочки и способы оценки риска сделок. Приводятся рекомендации по минимизации убытков для магазинов и обеспечения безопасности транзакций.

Типичные проблемы с массовыми рассылками и как их избежатьtfmailru

��

Документ описывает типичные проблемы с массовыми рассылками и способы их предотвращения, включая статистику по попаданию писем в спам. Основные проблемы включают технические ошибки, нарушение правил рассылки и недостаточную прозрачность для пользователей. Также предоставляются рекомендации по корректному оформлению писем, получению согласия на рассылку и мониторингу репутации отправителей.

Андрей Калинин — Mail.Ru Group — ICBDA2016rusbase

��

Документ описывает приложение Artisto, которое использует нейронные сети для стилизации изображений и видео, реализуя известные алгоритмы. Он включает в себя технические детали реализации, такие как используемое оборудование, параметры настройки и ссылки на научные статьи. Проект демонстрирует доступность искусственного интеллекта для создания приложений и важность удобной настройки для разработчиков.

Форум Технологий Mail.Ru 2011: Юрий Ветров — Как создаются интерфейсы в Mail.RuYury Vetrov

��

Документ описывает процесс создания интерфейсов в компании Mail.ru, включая структуру команды, используемые инструменты и методы дизайна. Рассматриваются интерфейсные гайдлайны и паттерны, которые помогают поддерживать единую визуальную стилистику и эффективное взаимодействие между командами. Также затрагивается важность тестирования и исследований для создания качественных продуктов, а также планы по автоматизации процессов.

Поиск похожих видео-роликов на основе анализа содержимого видео-файлов — Ан...Yandex

��

Документ описывает процесс поиска идентичных видеороликов по содержанию с использованием технологий, таких как ffmpeg и хеширование кадров. Он рассказывает о разработанной системе, которая эффективно находит и удаляет нелегальные видео, а также о результатах работы системы за год. В документе представлены советы по улучшению процесса поиска и контактные данные автора.

Hadoop ecosystemtfmailru

��

Tarantool: как обрабатывать  1,5 млрд запросов в сутки?tfmailru

��

Документ описывает масштабирование системы управления базами данных Tarantool, рассматривая ключевые проблемы и решения, такие как горизонтальное масштабирование и ригидные схемы. Он также охватывает модели данных, индексы и основные операции с данными, включая поддержку SQL и PHP интерфейса. В заключение приведены примеры применения и производительности системы, а также ссылки на ресурсы и репозитории.

Обзор архитектуры и подсистем деплоя и мониторинга. Как инженеры делают систе...Ontico

��

Документ представляет обзор архитектуры и подсистем деплоя и мониторинга, акцентируя внимание на интеграции Puppet и Graphite для упрощения разработки и мониторинга систем. Описание включает организацию выкладки, использование Git, структуру environments и типы метрик, а также функционал клиентской и серверной сторон мониторинга. Разработчики благодарят за поддержку и предоставляют ссылки на ресурсы для более детального изучения.

к форуму технологий вступление Lasttfmailru

��

Документ представляет собой анонс форума технологий 2011, который включает в себя короткие отчеты по проектам, участие новых команд и ключевые темы, такие как UX-исследования и мобильные разработки. В нем также упоминаются значимые события, включая запуск новых мобильных игр и обновление интерфейсов продуктов компании. Форум планирует охватить широкий спектр технологий, включая высокие нагрузки, безопасность платежей и машинное обучение.

Партнерские возможности Почты: как дружить с миллионами пользователей Mail.Rutfmailru

��

Документ описывает партнерские возможности почты mail.ru, которая имеет большую аудиторию и новые функции, такие как обновлённый интерфейс и мобильные версии. Он также охватывает улучшения, касающиеся скорости, безопасности и возможностей отправки писем. В заключение подчеркивается важность взаимодействия с пользователями и другими сервисами для повышения конверсии.

Tarantool: как обрабатывать  1,5 млрд запросов в сутки?tfmailru

��

Документ обсуждает масштабирование системы управления базами данных Tarantool, рассматривая проблемы и решения, связанные с горизонтальным масштабированием и архитектурой 'shared nothing'. Он предлагает различные модели данных, индексы и операции, а также примеры использования интерфейса PHP для работы с Tarantool. В заключение, подчеркивается возможность настройки прокси-сервера для распределения нагрузки и управления транзакциями в кластерах.

Стабильность — признак мастерстваtfmailru

��

Развитие интерфейса через гайдлайныtfmailru

��

Документ описывает процесс создания интерфейсов в компании Mail.ru, включая команду, инструменты и технологический процесс. Особое внимание уделяется интерфейсным гайдлайнам и паттернам, которые помогают сохранять единую стилистику и ускоряют разработку. Также рассматриваются планы по автоматизации работы дизайнеров и проектировщиков для повышения продуктивности и качества дизайна.

Машинное обучение в ранжировании поиска

1. Машинное обучение в ранжировании поиска

2. У нас есть свой поиск! • Веб • Картинки • Видео • Новости • Обсуждения • Ответы • Словари

3. Архитектура Оценка качества Машинное Поисковый Фронтенды обучение кластер Фетчер Индексаторы ы HDFS Вычислительный Таблица документов кластер 10 миллиардов документов, один петабайт

4. Анализ запроса

5. Оценка страницы Обязательно 4 Точный ответ 3 Полезно 2 Малополезно 1 Не по теме 0 Нельзя оценить

6. Оценка качества поиска № Оценка CG DCG 1 Точный ответ 3 3 2 Точный ответ 3 3 3 Полезно 2 1,26 4 Точный ответ 3 1,5 5 Полезно 2 0,86 6 Малополезно 1 0,38 7 Полезно 2 0,71 8 Малополезно 1 0,33 Итого 17 11,04

7. Общий набор оценок Запрос Документ Оценка специальная мышца ёжика http://digest-news.ru/833-Zachemezhikuigolki- 1 Interesniefakti.html одноклассники http://www.odnoklassniki.ru/ 4 … … … Извлечение факторов tf tf*idf иц … … … … Оценка 4 12 8 4 3 7 … 1 … … … … … … … …

8. Задача ранжирования Сотни факторов 500 300 тысяч тысяч Обучение Проверка Цель – максимум NDCG на проверочной выборке

9. Фильтрация оценок

10. Как получаем выдачу? • Релевантность документа. • Сравнение двух Фактор-2 документов. • Всю десятку сразу. Если бы факторов было мало, то можно было бы делать так: Фактор-1

11. Многомерность ε = 0,13 объём ε

12. Деревья решений F3 F7 > 2 F3 > 1 F3 > 2 2 1 4 3 Есть проблема переобучения. Нужны ограничения на размер и вид деревьев. F7

13. Бустинг F5 > 7 3 F7 > 1 F3 > 11 2 Результат: 3 3

14. Бэггинг Обучающее множество: 1 2 3 4 5 6 7 8 9 10 Создаём случайные подмножества: Подмножество #1 1 3 5 7 9 10 Подмножество #2 2 3 6 7 8 9 Подмножество #3 1 2 3 8 9 10 Каждый раз обучаемся на одном из подмножеств.

15. Что в итоге И не только ранжирование: • Разбиение на предложения. • Детектор порнографии. Поиск • Антиспам. Машинное Инструкция Асессоры Алгоритмы обучение

16. СПАСИБО! ВОПРОСЫ? Андрей Калинин руководитель разработки поиска kalinin@corp.mail.ru

�ݺ�ߣ

Машинное обучение в ранжировании поиска

Recommended

More Related Content

Viewers also liked (17)

More from tfmailru (11)

Машинное обучение в ранжировании поиска