2. Содержание
• Аспектный анализ и его задачи
• Выделение аспектов
–Частотный подход
–Инженерный подход
–Машинное обучение с учителем
• Определение тональности
• Обобщение полученной информации
2
3. Анализ тональности
• Область компьютерной лингвистики, изучающая
мнения и эмоции в текстах (рецензиях,
сообщениях, отзывах и пр.)
• Для мнения определяется тональность,
например,
положительное/нейтральное/отрицательное
• Уровни анализа (Liu, 2012):
– Документ в целом
– Отдельные предложения, фразы
– Обсуждаемые в документе сущности и аспекты
3
4. Аспектный анализ тональности
Сущность – конкретный или абстрактный объект,
обсуждаемый в отзыве.
Аспект – характеристика сущности.
Описание аспектов и сущности в отзывах:
• Явное (оценочное слово + аспект): расположение
отличное, отзывчивый персонал
• Неявное: отель сильно постарел, любые вопросы
решались с полуслова
4
5. Пример сущности и ее аспектов
5
Отель
Пляж и
бассейн
Море
Песок
Лежак
Зонтик
Питание
Газировка
Сок
Выпечка
Повар
Территория
Аквапарк
Аниматор
Анимация
Бильярд
Номер
Балкон
Ванная
Вентиляция
Диван
Сервис
Администратор
Бронирование
Горничная
Массаж
Сущность
Слова, ссылающиеся в тексте на аспект
Аспекты
6. Задачи аспектного анализа
• Выделение аспектов:
– Выявление фраз (обычно существительных и
именных словосочетаний), называющих аспект
– Объединение именных словосочетаний,
ссылающихся на один аспект
• Определение тональности:
– для отзыва
– для каждого аспекта
– для сущности
• Обобщение полученной информации
6
7. Подходы к выделению аспектов
• Частотный
• Инженерный
• Машинное обучение с учителем
7
8. Частотный подход
Идея: аспекты – это наиболее часто встречающие в
отзыве существительные и именные словосочетания
8
Книга 85
Автор 70
Ситуация 8
Интрига 47
Качество
печати 27
Перевод 58
Концовка 46
Порог
отсечения
30
9. Частотный подход.
Типичный алгоритм
1. Выявляем в отзыве именные словосочетания.
2. Подсчитываем частоту их употребления.
3. Рассчитываем частотные характеристики. Например:
– TF-IDF на уровне абзаца и документа (Ku, Liang and
Chen, 2006)
– Частота в рассматриваемом и общеязыковом
корпусе (Scaffidi et al., 2007)
3. Отбираем именные словосочетания, значение
характеристики у которых выше заданного порога.
Отобранные именные словосочетания и есть аспекты
9
10. Частотный подход. Плюсы и минусы
+ Простой, но достаточно эффективный
(по данным (Liu, 2007) от 60 до 70% аспектов
выражаются существительными и
именными словосочетаниями)
– Выделает много неаспектов
– Пропускает низкочастотные аспекты
– Требует ручной настройки порога отсечения
10
11. Инженерный подход
Идея: извлекается существительное или именное
словосочетание:
• ближайшее к некоторому оценочному слову
Расположение отличное
• употребляющиеся рядом с названием сущности
Номера в отеле Персонал отеля
аспект оценочное слово
11
аспект аспектсущность сущность
12. Инженерный подход.
Типичный алгоритм
1. Составляем шаблоны:
– полностью вручную
– с помощью машинного обучения (Moghaddam et
al. 2010)
2. Применяем к отзывам
Слова и словосочетания, стоящие на определенных
местах (ASP), и есть аспекты
12
Известный аспект Употребление в тексте Полученные шаблоны
Photo quality Disappointing photo quality _SW_ASP
Battery life Battery life is great _ASP_VB_SW
Photo quality Lovely feature is photo quality _SW_NP_VB_ASP
13. 13
Инженерный подход.
Плюсы и минусы
+ Оценочные слова часто известны или
их легко найти
+ Можно найти малочастотные аспекты
- Выделяет много неаспектов
- Требует ручного составления шаблонов и
разметки обучающей выборки
- Зависит от полноты словаря оценочных
слов
14. 14
Гибридный метод
Идея: используя шаблоны, выбираем часто
встречающие существительные и именные
словосочетания
1. С помощью частотных характеристик
выделяем именные словосочетания
2. Отбираем из них аспекты с помощью
шаблонов
или наоборот
15. 15
Гибридный метод. Плюсы и минусы
+ Уменьшает число неаспектов
- Пропускает редко встречающиеся
аспекты
- Требует ручное составление правил
- Требует ручной настройки порога
отсечения
16. Машинное обучение с учителем
16
Идея: выделение аспектов можно рассматривать как
проблему классификации
Аспекты Неаспекты
?
• На размеченных данным вводим функцию
классификации, используем ее на неразмеченных
• Классификационные признаки: конкретные слова,
части речи, расстояние между словами и т.д.
• Методы: SVM, HMM и т.д.
17. Машинное обучение с учителем.
Плюсы и минусы
17
+ Не требует ручной настройки параметров
+ Не пропускает низкочастотные аспекты
+ Не выделяет лишние аспекты
–Необходимы размеченные данные
18. Объединение именных
словосочетаний
18
Один аспект может выражаться разными именными
словосочетаниями
Сервис: персонал, администратор, официант,
уборщица и т.д.
Подходы:
• Учет семантических отношений: синонимия, род-вид
• Использование метрик схожести фраз: расстояние
Хэмминга, расстояние Левенштейна (Carenini, Ng and
Zwart 2005)
• Машинное обучение с учителем (Zhai et al., 2010)
19. Задача определения тональности
19
Отнесение отзыва или отдельного предложения к
одному из классов тональности:
• положительное / нейтральное / отрицательное
• оценка от -10 до 10
Подходы:
• Машинное обучение с учителем
• Инженерный подход: используется словарь
оценочных слов и шаблоны
Тональность может определяться для: отзыва,
аспекта, сущности
20. 20
Определение тональности. Идеи
• Отзыв: классические подходы
• Аспект: тональность определяется как объединение
тональности всех предложений, описывающих
аспект
• Сущность:
– по аспектам: обобщаем информацию о
тональности каждого аспекта
– по сущности как таковой: тональность
определяется как объединение тональности всех
предложений, описывающих сущность
21. 21
Обобщение и визуализация
информации
Полученная из отзывов информация о
сущности, аспектах и их тональности может
быть представлена в:
• структурированном виде (таблицы,
диаграммы, облака тегов)
• неструктурированном виде (аннотация,
краткий реферат)
22. Пример 1. Таблица
22
Отель 1:
Сущность: отель
Положительных: 105 <предложения из
отзывов>
Отрицательных: 12 <предложения из
отзывов>
Аспект: расположение
Положительных: 95 <предложения из
отзывов>
Отрицательных: 10 <предложения из
отзывов>
Аспект: номер
Положительных: 50 <предложения из отзывов>
Отрицательных: 9 <предложения из отзывов>
27. Создание аннотации
27
• Выделение наиболее значимых и
содержащих оценку предложений из
отзыва
• Заполнение шаблона
Расположение отеля _______. Кухня_____.
Персонал _____. Пляж находится ______.
Уборка была _____. Вид из окна_____.
Номера_____. Цена за номер ____.