2. Содержание
1. Основные виды лингвистической
разметки
2. Стандарты разметки
3. Этапы лингвистической разметки
4. Требования к системе разметки
5. Обзор систем разметки
6. Разрабатываемый программный
инструмент
2
3. Основные виды лингвистической
разметки
• Лингвистическая разметка необходима для машинной
обработки текстов на естественном языке.
• В размеченном виде тексты удобно хранить и подавать на
вход различным программным инструментам.
Основные виды разметки:
Метаразметка (автор текста, название, место издания и т.п.)
Графематическая (границы слов, заголовки, числа)
Морфологическая (часть речи, падеж, начальная форма)
Синтаксическая (отражение синтаксической структуры
предложений)
Семантическая (отношения род-вид, часть-целое, синонимия)
3
5. 5
Основные стандарты разметки
Существует ряд международных стандартов
представления размеченных текстов:
Проект TEI
(использовался при создании НКРЯ)
Рекомендации EAGLES
CDIF
CES
XCES
6. 6
Пример морфологической разметки в
стандарте TEI
<s>
<w><ana lex=“конкурент” gr=“S”></ana>Конкуренты</w>
<w><ana lex=“наступать” gr=“V”></ana>наступают</w>
<w><ana lex=“на” gr=“PR”></ana>на</w>
<w><ana lex=“пятка” gr=“S”></ana>пятки</w>.
</s>
Тег <w> обозначает слово, <s> - предложение
7. Этапы лингвистической разметки
• Естественный язык сложен и постоянно изменяется.
• Разметка текстов, как правило, неоднозначна.
• Системы автоматической разметки работают с ошибками
Графематическая разметка:
А. Кот смотрел на Ильина Б. В. Шпак смотрел на…
Морфологическая разметка:
слово ПЕЧЬ может быть как глаголом, так и
существительным
Как правило, разметка текста производится в два
этапа:
1. Автоматическая разметка текста (корпуса текстов)
2. Ручная корректировка результатов экспертом
7
8. 8
Требования к системе разметки
Система разметки должна обладать следующими
свойствами:
Доступность
Простота использования, наличие документации
Поддержка основных видов разметки
Сохранение результатов в соответствующем
стандарту виде
Поддержка русского языка
Удобный пользовательский интерфейс для ручной
корректировки результата
Плюсом является поддержка дополнительных видов
разметки
9. 9
Системы разметки
UAM CorpusTool
Автор: Mick O` Donnell, 2011 год
BRAT rapid annotation tool
Авторы: Pontus Stenetorp, Sampo Pyysalo, Goran Topić,
Япония, Великобритания, 2012 год
NooJApp
Автор: Max Silberztein, Франция, 2002 год
Проекты
OpenCorpora
Цель проекта – создать открытый размеченный корпус
текстов на русском языке
10. 10
UAM CorpusTool: основные функции
Создание собственного корпуса текстов
Автоматическая разметка для англоязычных текстов
Исправление автоматической разметки
Разметка текста вручную
Добавление собственных дескрипторов
Сохранение разметки в формате XML
12. 12
UAM CorpusTool: особенности
Система доступна для скачивания, проста в
установке, но ее исходный код закрыт
Проста в использовании, имеет полную
документацию
Поддерживаются основные виды разметки для
англоязычных текстов
Результат сохраняется в формате stand-off xml
Нет автоматической разметки для русского языка
Интерфейс для ручной корректировки результата
разметки прост и понятен
13. 13
BRAT rapid annotation tool:
основные функции
Автоматическая разметка для англоязычных текстов
Исправление автоматической разметки
Извлечение некоторой информации из текстов
(имен, названий географических объектов)
Разметка текста вручную
15. 15
BRAT rapid annotation tool:
особенности
Система доступна для скачивания, процесс установки
сложен, открытый исходный код
Не очень сложна в использовании, имеет
документацию
Для англоязычных текстов поддерживаются
основные виды разметки
Результат сохраняется в формате stand-off ann
Для русского языка поддерживается только
автоматическая графематическая разметка
Интерфейс для ручной корректировки результата
разметки прост и понятен
16. 16
NooJApp: основные функции
Автоматическая графематическая, морфологическая
и синтаксическая разметка для английского языка
Исправление автоматической разметки
Разметка текста вручную
Подсчет количества букв, токенов и других
статистических данных
18. 18
NooJApp: особенности
Система доступна для скачивания, процесс установки
легкий, открытый исходный код
Не очень сложна в использовании, имеет
документацию
Основные виды разметки поддерживаются только
для английского языка
Результаты сохраняются в формате not, xml
(стандарт TEI)
Автоматическая разметка поддерживается только
для английского языка
Интерфейс системы не очень удобен для работы
19. 19
Проект OpenCorpora
• Проект предназначен для создания размеченного
корпуса русскоязычных текстов силами сообщества.
• Каждый может принять участие в его создании.
• Сначала тексты размечаются автоматически, затем
участникам предлагается исправить ошибки
автоматической разметки.
Интерфейс
20. 20
Итог
• На данный момент существует множество систем разметки,
но все они ориентированы на работу с англоязычными
текстами.
• Некоторые из этих систем недостаточно удобные и требуют
немало времени для освоения своего интерфейса.
Необходим программный инструмент:
1. Доступный, простой в использовании
2. Поддерживающий основные виды разметки
3. Отвечающий стандартам
4. Ориентированный на работу с русскоязычными
текстами
5. Обладающий удобным пользовательским
интерфейсом для корректировки результата
21. 21
Linguistic annotation system:
основные функции
Автоматическая графематическая разметка для
русского языка
Исправление автоматической разметки
Сохранение разметки в формате XML
В дальнейшем будут добавлены модули
морфологической и терминологической
разметки, возможность сохранения разметки в
соответствии со стандартом TEI.
24. 24
Linguistic annotation system: особенности
Доступное web-приложение, установка не требуется
Простота использования
Поддержка графематической разметки, в
дальнейшем и других основных видов разметки
Полностью ориентировано на работу с
русскоязычными текстами
Есть интуитивно понятный интерфейс для ручной
корректировки результата
Поддержка дополнительных видов разметки
(терминологическая разметка)