ݺߣ

ݺߣShare a Scribd company logo
Николай Хиврин, CEO ALTWeb Group
Новые технологии в поисковом
ранжировании
К чему все привыкли?
- Число вхождений
- Переспам
- TF
- IDF
- TF*IDF
Так ли это актуально сейчас?
Новые технологии в поисковом ранжировании
Новые технологии в поисковом ранжировании
Deep learning
- набор алгоритмов машинного обучения, которые
пытаются моделировать высокоуровневые абстракции в
данных, используя архитектуры, состоящие из множества
нелинейных трансформаций
Применение
- распознавание изображений
- распознавание смысла текста
- определение коммерческих факторов
- расширение запроса
- подсказки
и т.д.
Векторные представления слов (word
embeddings)
W: words -> Rn
W(“пластиковые”) = (0.1,0.3,-0.2,0.7,…)
W(“окна”) = (0.0,0.1,0.5,0.1,…)
Обычно, функция определяется матрицей
Функция корректности N-грамм
Новые подходы к проверке орфографии
- обучение на текстах с высоким уровнем доверия
- автоматическая подстройка алгоритма
Word2vec
- вычисление расстояний между словами
https://code.google.com/archive/p/word2vec/
Word2vec
Word2vec
GBRT (Gradient Boosted Regression Trees)
DSSM (Deep Structured Semantic Models)
DSSM, developed by the MSR Deep Learning Technology
Center(DLTC), is a deep neural network (DNN) modeling
technique for representing text strings (sentences, queries,
predicates, entity mentions, etc.) in a continuous semantic
space and modeling semantic similarity between two text
strings (e.g., Sent2Vec)
RNN (Recurrent neural network)
Вид нейронных сетей, в которых имеется обратная связь.
При этом под обратной связью подразумевается связь от
логически более удалённого элемента к менее
удалённому. Наличие обратных связей позволяет
запоминать и воспроизводить целые последовательности
реакций на один стимул
Векторное представление документов
Векторная модель (vector space model) представление
коллекции документов векторами из одного общего для
всей коллекции векторного пространства.
Дистрибутивная семантика
- область лингвистики, которая занимается вычислением
степени семантической близости между лингвистическими
единицами на основании их дистрибуционных признаков в
больших массивах лингвистических данных
- каждому слову присваивается свой контекстный вектор.
Множество векторов формирует словесное векторное
пространство
Пример словесного векторного пространства,
описывающего дистрибутивные характеристики слов tea и
coffee, в котором контекстом выступает соседнее слово

More Related Content

Новые технологии в поисковом ранжировании

  • 1. Николай Хиврин, CEO ALTWeb Group Новые технологии в поисковом ранжировании
  • 2. К чему все привыкли? - Число вхождений - Переспам - TF - IDF - TF*IDF Так ли это актуально сейчас?
  • 5. Deep learning - набор алгоритмов машинного обучения, которые пытаются моделировать высокоуровневые абстракции в данных, используя архитектуры, состоящие из множества нелинейных трансформаций
  • 6. Применение - распознавание изображений - распознавание смысла текста - определение коммерческих факторов - расширение запроса - подсказки и т.д.
  • 7. Векторные представления слов (word embeddings) W: words -> Rn W(“пластиковые”) = (0.1,0.3,-0.2,0.7,…) W(“окна”) = (0.0,0.1,0.5,0.1,…) Обычно, функция определяется матрицей
  • 9. Новые подходы к проверке орфографии - обучение на текстах с высоким уровнем доверия - автоматическая подстройка алгоритма
  • 10. Word2vec - вычисление расстояний между словами https://code.google.com/archive/p/word2vec/
  • 13. GBRT (Gradient Boosted Regression Trees)
  • 14. DSSM (Deep Structured Semantic Models) DSSM, developed by the MSR Deep Learning Technology Center(DLTC), is a deep neural network (DNN) modeling technique for representing text strings (sentences, queries, predicates, entity mentions, etc.) in a continuous semantic space and modeling semantic similarity between two text strings (e.g., Sent2Vec)
  • 15. RNN (Recurrent neural network) Вид нейронных сетей, в которых имеется обратная связь. При этом под обратной связью подразумевается связь от логически более удалённого элемента к менее удалённому. Наличие обратных связей позволяет запоминать и воспроизводить целые последовательности реакций на один стимул
  • 16. Векторное представление документов Векторная модель (vector space model) представление коллекции документов векторами из одного общего для всей коллекции векторного пространства.
  • 17. Дистрибутивная семантика - область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их дистрибуционных признаков в больших массивах лингвистических данных - каждому слову присваивается свой контекстный вектор. Множество векторов формирует словесное векторное пространство
  • 18. Пример словесного векторного пространства, описывающего дистрибутивные характеристики слов tea и coffee, в котором контекстом выступает соседнее слово