Метод построения корпуса коротких текстов на основе сообщений социальных сетей и микроблогов (twitter). Описан подход к подготовке корпуса коротких текстов и тоново-зависимых терминов для тренировки вероятностного тонового классификатора. Доклад подготовлен для конференции RCDL'13
1 of 44
More Related Content
Метод построения корпуса коротких текстов
1. Проблемы построения
корпуса коротких текстов
для задачи классификации
отзывов на три класса
Юлия Рубцова
Институт систем информатики
им. А.П. Ершова СО РАН
2. Содержание
Обзор предметной области
Сбор корпуса
Фильтрация
Морфологический анализ
Результаты и закономерности
Выводы
Применение
6. Прикладные задачи, которые
решает автоматическое
определение тональности
исследования отношения потребителей к ее
продукции для коммерческой организации;
8. Прикладные задачи, которые
решает автоматическое
определение тональности
исследования отношения потребителей к ее
продукции для коммерческой организации;
разработка рекомендательной системы для
покупателей определенных групп товаров
или услуг;
10. Прикладные задачи, которые
решает автоматическое
определение тональности
исследования отношения потребителей к ее
продукции для коммерческой организации;
разработка рекомендательной системы для
покупателей определенных групп товаров
или услуг;
введение в человеко-машинный интерфейс
компьютерной системы, отвечающей за
адаптацию поведения системы к текущему
эмоциональному состоянию человека
11. человеко-машинный интерфейс,
отвечающей за адаптацию поведения
системы к текущему эмоциональному
состоянию человека
психологическое и медицинское
диагностирование;
обеспечение безопасности за счет анализа
поведения массовых скоплений людей;
помощь в проведении оперативно-
розыскных мероприятий
13. Существующие
корпусы текстов
Корпуса отзывов, содержащие оценки
пользователей
Узкотематические корпуса отзывов
(фильмы, книги, техника)
Корпуса общезначимых новостей (тексты
состоящие из нескольких абзацев)
14. Отличие микроблога от
сервиса отзывов
•
•
•
•
•
•
•
•
•
•
Обдуманный, структурированный
Конструктивная критика или похвала
Не ограничен по длине
Относится к одной предметной области
Может одновременно выражать и
негатиное отношение и позитивное
Спонтанны
Эмоциональны
Ограничение по длине в 140 символов
Общетематический ресурс
Один текст – одна эмоция
16. Корпус
С высокой точностью можно определить
передаваемую эмоцию, если автор указал символ
обозначения эмоции на письме (смайлик).
[Метод J.Read 2005]
:)
:(
:-/
8-)
=(
0_о
:-D
;-)
:-)
(((
:’(
18. Подготовка
1. Составлены словари символов, обозначающие на
письме:
отрицательные эмоции,
Положительные эмоции.
2. Сделано допущение, что выражение эмоции
относится ко всему сообщению, а не к отдельной его
части. (Длина твита 140 символов).
19. Подготовка корпуса
1. Составлены словари символов, обозначающие на
письме:
отрицательные эмоции,
Положительные эмоции.
2. Сделано допущение, что выражение эмоции
относится ко всему сообщению, а не к отдельной его
части. (Длина твита 140 символов).
3. Созданы фильтры для устранения дубликатов и
неопределенностей.
20. Фильтрация
Положительные и отрицательные эмоции в
одном твите
Retweet
Копии твитов
Малоинформативные твиты (<40 символов)
Реплаи
22. Атрибуты корпуса
Класс, к которому принадлежит твит
(положительный/отрицательный)
Дата публикации
Имя автора
Текст твита
Количество реплаев
Количество ретвитов
25. Задача
1. Выявить закономерности распределения
частей речи между коллекциями заведомо
состоящих или не состоящих из
эмоционально окрашенных
высказываний.
2. Выявить закономерности распределения
частей речи между «положительной» и
«отрицательной» коллекциями
31. Позитивные VS неативные
• Глагол в активном залоге настоящего
времени, 1 и 3 лицо, ед. число.
• Глагол в активном залоге, прошедшее
время, 1 и 3 лицо, ед. число.
• Притяжательные местоимения м и ж
рода, ед. числе, родительном падеже.
• глаголы настоящего времени, обозначающие
продолжительность действия в третьем лице
единственного числа несовершенного вида
• сравнительно чаще используются имена
собственные в единственном числе в
винительном падеже
34. Словарь стоп-слов
Фамилии (Навальный)
Названия продуктов (ФК «Зенит»)
Яркие мировые события
Предлоги
Союзы
35. Положительные оценочные слова
Вес слова (отношение
Слово
частоты встречаемости слова
в положительных твитах к
частоте встречаемости в
отрицательных)
Частота встречаемости
слова в коллекции
положительных твитов
4.097362044 клип
60
2.230786002 сериал
56
2.22893319 бл*
401
2.192768754 х**
2211
1.657155316 приятный
1.6101914 рад
52
64
1.434076715 зато
60
1.414158983 крутой
71
1.354405787 смеяться
51
36. Отрицательные оценочные слова
Вес слова (отношение
Слово
частоты встречаемости слова
в отрицательных твитах к
частоте встречаемости в
положительных)
13.01650495 продажа
10.22725389 утро
6.5610792 встать
Частота
встречаемости слова
в коллекции
отрицательных
твитах
56
484
69
6.136352334 проснуться
88
5.835406825 вставать
53
4.881189357 вчера
4.685941782 погибнуть
4.623486813 школа
4.532532974 рано
119
56
305
52
38. построен корпус текстов, автоматически
размеченный на три класса.
В корпусе около 100 000 постов
Каждый текст в корпусе содержит
атрибуты, которые помогут сделать
выводы об актуальности высказывания и
силе его воздействия, важности.
Корпус морфологически размечен.
Извлечены оценочных терминов, не
относящихся к одной заранее
определенной предметной области.
40. Тоновый классификатор
Весами для тонового классификатора, на
основании которых будет определена
вероятность принадлежности высказывания
к тому или иному классу являются:
Актуальность высказывания, сила его
воздействия
Морфология предложений
Оценочные слова
41. Разрабатывается программный
комплекс для построения корпусов
отзывов из разных источников.
Корпуса могут быть использованы для
тренировки других классификаторов.
43. Тоновый классификатор будет
использован для автоматический
оценки отзывов на интернет-ресурсы,
найденные в качестве кандидатов на
включение в интеллектуальные
научные интернет-ресурсы (ИНИР)