�ݺ�ߣ

Николай Хиврин, CEO ALTWeb Group
Новые технологии в поисковом
ранжировании

К чему все привыкли?
- Число вхождений
- Переспам
- TF
- IDF
- TF*IDF
Так ли это актуально сейчас?

Новые технологии в поисковом ранжировании

Deep learning
- набор алгоритмов машинного обучения, которые
пытаются моделировать высокоуровневые абстракции в
данных, используя архитектуры, состоящие из множества
нелинейных трансформаций

Применение
- распознавание изображений
- распознавание смысла текста
- определение коммерческих факторов
- расширение запроса
- подсказки
и т.д.

Векторные представления слов (word
embeddings)
W: words -> Rn
W(“пластиковые”) = (0.1,0.3,-0.2,0.7,…)
W(“окна”) = (0.0,0.1,0.5,0.1,…)
Обычно, функция определяется матрицей

Функция корректности N-грамм

Новые подходы к проверке орфографии
- обучение на текстах с высоким уровнем доверия
- автоматическая подстройка алгоритма

Word2vec
- вычисление расстояний между словами
https://code.google.com/archive/p/word2vec/

GBRT (Gradient Boosted Regression Trees)

DSSM (Deep Structured Semantic Models)
DSSM, developed by the MSR Deep Learning Technology
Center(DLTC), is a deep neural network (DNN) modeling
technique for representing text strings (sentences, queries,
predicates, entity mentions, etc.) in a continuous semantic
space and modeling semantic similarity between two text
strings (e.g., Sent2Vec)

RNN (Recurrent neural network)
Вид нейронных сетей, в которых имеется обратная связь.
При этом под обратной связью подразумевается связь от
логически более удалённого элемента к менее
удалённому. Наличие обратных связей позволяет
запоминать и воспроизводить целые последовательности
реакций на один стимул

Векторное представление документов
Векторная модель (vector space model) представление
коллекции документов векторами из одного общего для
всей коллекции векторного пространства.

Дистрибутивная семантика
- область лингвистики, которая занимается вычислением
степени семантической близости между лингвистическими
единицами на основании их дистрибуционных признаков в
больших массивах лингвистических данных
- каждому слову присваивается свой контекстный вектор.
Множество векторов формирует словесное векторное
пространство

Пример словесного векторного пространства,
описывающего дистрибутивные характеристики слов tea и
coffee, в котором контекстом выступает соседнее слово

�ݺ�ߣ

Новые технологии в поисковом ранжировании

More Related Content

Новые технологии в поисковом ранжировании