ݺߣ

ݺߣShare a Scribd company logo
Аспектный анализ тональности
отзывов
Рой Дарья Александровна (425 группа)
Научный руководитель:
к.ф.-м.н. Н.Э. Ефремова
Содержание
• Аспектный анализ и его задачи
• Выделение аспектов
–Частотный подход
–Инженерный подход
–Машинное обучение с учителем
• Определение тональности
• Обобщение полученной информации
2
Анализ тональности
• Область компьютерной лингвистики, изучающая
мнения и эмоции в текстах (рецензиях,
сообщениях, отзывах и пр.)
• Для мнения определяется тональность,
например,
положительное/нейтральное/отрицательное
• Уровни анализа (Liu, 2012):
– Документ в целом
– Отдельные предложения, фразы
– Обсуждаемые в документе сущности и аспекты
3
Аспектный анализ тональности
Сущность – конкретный или абстрактный объект,
обсуждаемый в отзыве.
Аспект – характеристика сущности.
Описание аспектов и сущности в отзывах:
• Явное (оценочное слово + аспект): расположение
отличное, отзывчивый персонал
• Неявное: отель сильно постарел, любые вопросы
решались с полуслова
4
Пример сущности и ее аспектов
5
Отель
Пляж и
бассейн
Море
Песок
Лежак
Зонтик
Питание
Газировка
Сок
Выпечка
Повар
Территория
Аквапарк
Аниматор
Анимация
Бильярд
Номер
Балкон
Ванная
Вентиляция
Диван
Сервис
Администратор
Бронирование
Горничная
Массаж
Сущность
Слова, ссылающиеся в тексте на аспект
Аспекты
Задачи аспектного анализа
• Выделение аспектов:
– Выявление фраз (обычно существительных и
именных словосочетаний), называющих аспект
– Объединение именных словосочетаний,
ссылающихся на один аспект
• Определение тональности:
– для отзыва
– для каждого аспекта
– для сущности
• Обобщение полученной информации
6
Подходы к выделению аспектов
• Частотный
• Инженерный
• Машинное обучение с учителем
7
Частотный подход
Идея: аспекты – это наиболее часто встречающие в
отзыве существительные и именные словосочетания
8
Книга 85
Автор 70
Ситуация 8
Интрига 47
Качество
печати 27
Перевод 58
Концовка 46
Порог
отсечения
30
Частотный подход.
Типичный алгоритм
1. Выявляем в отзыве именные словосочетания.
2. Подсчитываем частоту их употребления.
3. Рассчитываем частотные характеристики. Например:
– TF-IDF на уровне абзаца и документа (Ku, Liang and
Chen, 2006)
– Частота в рассматриваемом и общеязыковом
корпусе (Scaffidi et al., 2007)
3. Отбираем именные словосочетания, значение
характеристики у которых выше заданного порога.
Отобранные именные словосочетания и есть аспекты
9
Частотный подход. Плюсы и минусы
+ Простой, но достаточно эффективный
(по данным (Liu, 2007) от 60 до 70% аспектов
выражаются существительными и
именными словосочетаниями)
– Выделает много неаспектов
– Пропускает низкочастотные аспекты
– Требует ручной настройки порога отсечения
10
Инженерный подход
Идея: извлекается существительное или именное
словосочетание:
• ближайшее к некоторому оценочному слову
Расположение отличное
• употребляющиеся рядом с названием сущности
Номера в отеле Персонал отеля
аспект оценочное слово
11
аспект аспектсущность сущность
Инженерный подход.
Типичный алгоритм
1. Составляем шаблоны:
– полностью вручную
– с помощью машинного обучения (Moghaddam et
al. 2010)
2. Применяем к отзывам
Слова и словосочетания, стоящие на определенных
местах (ASP), и есть аспекты
12
Известный аспект Употребление в тексте Полученные шаблоны
Photo quality Disappointing photo quality _SW_ASP
Battery life Battery life is great _ASP_VB_SW
Photo quality Lovely feature is photo quality _SW_NP_VB_ASP
13
Инженерный подход.
Плюсы и минусы
+ Оценочные слова часто известны или
их легко найти
+ Можно найти малочастотные аспекты
- Выделяет много неаспектов
- Требует ручного составления шаблонов и
разметки обучающей выборки
- Зависит от полноты словаря оценочных
слов
14
Гибридный метод
Идея: используя шаблоны, выбираем часто
встречающие существительные и именные
словосочетания
1. С помощью частотных характеристик
выделяем именные словосочетания
2. Отбираем из них аспекты с помощью
шаблонов
или наоборот
15
Гибридный метод. Плюсы и минусы
+ Уменьшает число неаспектов
- Пропускает редко встречающиеся
аспекты
- Требует ручное составление правил
- Требует ручной настройки порога
отсечения
Машинное обучение с учителем
16
Идея: выделение аспектов можно рассматривать как
проблему классификации
Аспекты Неаспекты
?
• На размеченных данным вводим функцию
классификации, используем ее на неразмеченных
• Классификационные признаки: конкретные слова,
части речи, расстояние между словами и т.д.
• Методы: SVM, HMM и т.д.
Машинное обучение с учителем.
Плюсы и минусы
17
+ Не требует ручной настройки параметров
+ Не пропускает низкочастотные аспекты
+ Не выделяет лишние аспекты
–Необходимы размеченные данные
Объединение именных
словосочетаний
18
Один аспект может выражаться разными именными
словосочетаниями
Сервис: персонал, администратор, официант,
уборщица и т.д.
Подходы:
• Учет семантических отношений: синонимия, род-вид
• Использование метрик схожести фраз: расстояние
Хэмминга, расстояние Левенштейна (Carenini, Ng and
Zwart 2005)
• Машинное обучение с учителем (Zhai et al., 2010)
Задача определения тональности
19
Отнесение отзыва или отдельного предложения к
одному из классов тональности:
• положительное / нейтральное / отрицательное
• оценка от -10 до 10
Подходы:
• Машинное обучение с учителем
• Инженерный подход: используется словарь
оценочных слов и шаблоны
Тональность может определяться для: отзыва,
аспекта, сущности
20
Определение тональности. Идеи
• Отзыв: классические подходы
• Аспект: тональность определяется как объединение
тональности всех предложений, описывающих
аспект
• Сущность:
– по аспектам: обобщаем информацию о
тональности каждого аспекта
– по сущности как таковой: тональность
определяется как объединение тональности всех
предложений, описывающих сущность
21
Обобщение и визуализация
информации
Полученная из отзывов информация о
сущности, аспектах и их тональности может
быть представлена в:
• структурированном виде (таблицы,
диаграммы, облака тегов)
• неструктурированном виде (аннотация,
краткий реферат)
Пример 1. Таблица
22
Отель 1:
Сущность: отель
Положительных: 105 <предложения из
отзывов>
Отрицательных: 12 <предложения из
отзывов>
Аспект: расположение
Положительных: 95 <предложения из
отзывов>
Отрицательных: 10 <предложения из
отзывов>
Аспект: номер
Положительных: 50 <предложения из отзывов>
Отрицательных: 9 <предложения из отзывов>
Пример 2. Диаграмма
23
Пример 3.
Сравнительная диаграмма
24
Пример 4. Диаграмма
25
Пример 5. Облако тегов
26
Создание аннотации
27
• Выделение наиболее значимых и
содержащих оценку предложений из
отзыва
• Заполнение шаблона
Расположение отеля _______. Кухня_____.
Персонал _____. Пляж находится ______.
Уборка была _____. Вид из окна_____.
Номера_____. Цена за номер ____.
Спасибо за внимание!
28

More Related Content

Рой. Аспектный анализ тональности отзывов

  • 1. Аспектный анализ тональности отзывов Рой Дарья Александровна (425 группа) Научный руководитель: к.ф.-м.н. Н.Э. Ефремова
  • 2. Содержание • Аспектный анализ и его задачи • Выделение аспектов –Частотный подход –Инженерный подход –Машинное обучение с учителем • Определение тональности • Обобщение полученной информации 2
  • 3. Анализ тональности • Область компьютерной лингвистики, изучающая мнения и эмоции в текстах (рецензиях, сообщениях, отзывах и пр.) • Для мнения определяется тональность, например, положительное/нейтральное/отрицательное • Уровни анализа (Liu, 2012): – Документ в целом – Отдельные предложения, фразы – Обсуждаемые в документе сущности и аспекты 3
  • 4. Аспектный анализ тональности Сущность – конкретный или абстрактный объект, обсуждаемый в отзыве. Аспект – характеристика сущности. Описание аспектов и сущности в отзывах: • Явное (оценочное слово + аспект): расположение отличное, отзывчивый персонал • Неявное: отель сильно постарел, любые вопросы решались с полуслова 4
  • 5. Пример сущности и ее аспектов 5 Отель Пляж и бассейн Море Песок Лежак Зонтик Питание Газировка Сок Выпечка Повар Территория Аквапарк Аниматор Анимация Бильярд Номер Балкон Ванная Вентиляция Диван Сервис Администратор Бронирование Горничная Массаж Сущность Слова, ссылающиеся в тексте на аспект Аспекты
  • 6. Задачи аспектного анализа • Выделение аспектов: – Выявление фраз (обычно существительных и именных словосочетаний), называющих аспект – Объединение именных словосочетаний, ссылающихся на один аспект • Определение тональности: – для отзыва – для каждого аспекта – для сущности • Обобщение полученной информации 6
  • 7. Подходы к выделению аспектов • Частотный • Инженерный • Машинное обучение с учителем 7
  • 8. Частотный подход Идея: аспекты – это наиболее часто встречающие в отзыве существительные и именные словосочетания 8 Книга 85 Автор 70 Ситуация 8 Интрига 47 Качество печати 27 Перевод 58 Концовка 46 Порог отсечения 30
  • 9. Частотный подход. Типичный алгоритм 1. Выявляем в отзыве именные словосочетания. 2. Подсчитываем частоту их употребления. 3. Рассчитываем частотные характеристики. Например: – TF-IDF на уровне абзаца и документа (Ku, Liang and Chen, 2006) – Частота в рассматриваемом и общеязыковом корпусе (Scaffidi et al., 2007) 3. Отбираем именные словосочетания, значение характеристики у которых выше заданного порога. Отобранные именные словосочетания и есть аспекты 9
  • 10. Частотный подход. Плюсы и минусы + Простой, но достаточно эффективный (по данным (Liu, 2007) от 60 до 70% аспектов выражаются существительными и именными словосочетаниями) – Выделает много неаспектов – Пропускает низкочастотные аспекты – Требует ручной настройки порога отсечения 10
  • 11. Инженерный подход Идея: извлекается существительное или именное словосочетание: • ближайшее к некоторому оценочному слову Расположение отличное • употребляющиеся рядом с названием сущности Номера в отеле Персонал отеля аспект оценочное слово 11 аспект аспектсущность сущность
  • 12. Инженерный подход. Типичный алгоритм 1. Составляем шаблоны: – полностью вручную – с помощью машинного обучения (Moghaddam et al. 2010) 2. Применяем к отзывам Слова и словосочетания, стоящие на определенных местах (ASP), и есть аспекты 12 Известный аспект Употребление в тексте Полученные шаблоны Photo quality Disappointing photo quality _SW_ASP Battery life Battery life is great _ASP_VB_SW Photo quality Lovely feature is photo quality _SW_NP_VB_ASP
  • 13. 13 Инженерный подход. Плюсы и минусы + Оценочные слова часто известны или их легко найти + Можно найти малочастотные аспекты - Выделяет много неаспектов - Требует ручного составления шаблонов и разметки обучающей выборки - Зависит от полноты словаря оценочных слов
  • 14. 14 Гибридный метод Идея: используя шаблоны, выбираем часто встречающие существительные и именные словосочетания 1. С помощью частотных характеристик выделяем именные словосочетания 2. Отбираем из них аспекты с помощью шаблонов или наоборот
  • 15. 15 Гибридный метод. Плюсы и минусы + Уменьшает число неаспектов - Пропускает редко встречающиеся аспекты - Требует ручное составление правил - Требует ручной настройки порога отсечения
  • 16. Машинное обучение с учителем 16 Идея: выделение аспектов можно рассматривать как проблему классификации Аспекты Неаспекты ? • На размеченных данным вводим функцию классификации, используем ее на неразмеченных • Классификационные признаки: конкретные слова, части речи, расстояние между словами и т.д. • Методы: SVM, HMM и т.д.
  • 17. Машинное обучение с учителем. Плюсы и минусы 17 + Не требует ручной настройки параметров + Не пропускает низкочастотные аспекты + Не выделяет лишние аспекты –Необходимы размеченные данные
  • 18. Объединение именных словосочетаний 18 Один аспект может выражаться разными именными словосочетаниями Сервис: персонал, администратор, официант, уборщица и т.д. Подходы: • Учет семантических отношений: синонимия, род-вид • Использование метрик схожести фраз: расстояние Хэмминга, расстояние Левенштейна (Carenini, Ng and Zwart 2005) • Машинное обучение с учителем (Zhai et al., 2010)
  • 19. Задача определения тональности 19 Отнесение отзыва или отдельного предложения к одному из классов тональности: • положительное / нейтральное / отрицательное • оценка от -10 до 10 Подходы: • Машинное обучение с учителем • Инженерный подход: используется словарь оценочных слов и шаблоны Тональность может определяться для: отзыва, аспекта, сущности
  • 20. 20 Определение тональности. Идеи • Отзыв: классические подходы • Аспект: тональность определяется как объединение тональности всех предложений, описывающих аспект • Сущность: – по аспектам: обобщаем информацию о тональности каждого аспекта – по сущности как таковой: тональность определяется как объединение тональности всех предложений, описывающих сущность
  • 21. 21 Обобщение и визуализация информации Полученная из отзывов информация о сущности, аспектах и их тональности может быть представлена в: • структурированном виде (таблицы, диаграммы, облака тегов) • неструктурированном виде (аннотация, краткий реферат)
  • 22. Пример 1. Таблица 22 Отель 1: Сущность: отель Положительных: 105 <предложения из отзывов> Отрицательных: 12 <предложения из отзывов> Аспект: расположение Положительных: 95 <предложения из отзывов> Отрицательных: 10 <предложения из отзывов> Аспект: номер Положительных: 50 <предложения из отзывов> Отрицательных: 9 <предложения из отзывов>
  • 27. Создание аннотации 27 • Выделение наиболее значимых и содержащих оценку предложений из отзыва • Заполнение шаблона Расположение отеля _______. Кухня_____. Персонал _____. Пляж находится ______. Уборка была _____. Вид из окна_____. Номера_____. Цена за номер ____.