2. К чему все привыкли?
- Число вхождений
- Переспам
- TF
- IDF
- TF*IDF
Так ли это актуально сейчас?
5. Deep learning
- набор алгоритмов машинного обучения, которые
пытаются моделировать высокоуровневые абстракции в
данных, используя архитектуры, состоящие из множества
нелинейных трансформаций
7. Векторные представления слов (word
embeddings)
W: words -> Rn
W(“пластиковые”) = (0.1,0.3,-0.2,0.7,…)
W(“окна”) = (0.0,0.1,0.5,0.1,…)
Обычно, функция определяется матрицей
14. DSSM (Deep Structured Semantic Models)
DSSM, developed by the MSR Deep Learning Technology
Center(DLTC), is a deep neural network (DNN) modeling
technique for representing text strings (sentences, queries,
predicates, entity mentions, etc.) in a continuous semantic
space and modeling semantic similarity between two text
strings (e.g., Sent2Vec)
15. RNN (Recurrent neural network)
Вид нейронных сетей, в которых имеется обратная связь.
При этом под обратной связью подразумевается связь от
логически более удалённого элемента к менее
удалённому. Наличие обратных связей позволяет
запоминать и воспроизводить целые последовательности
реакций на один стимул
16. Векторное представление документов
Векторная модель (vector space model) представление
коллекции документов векторами из одного общего для
всей коллекции векторного пространства.
17. Дистрибутивная семантика
- область лингвистики, которая занимается вычислением
степени семантической близости между лингвистическими
единицами на основании их дистрибуционных признаков в
больших массивах лингвистических данных
- каждому слову присваивается свой контекстный вектор.
Множество векторов формирует словесное векторное
пространство
18. Пример словесного векторного пространства,
описывающего дистрибутивные характеристики слов tea и
coffee, в котором контекстом выступает соседнее слово