ݺߣ

ݺߣShare a Scribd company logo
Пользовательские интерфейсы
систем лингвистической разметки
текстов
Автор: Смолина Мария, 425 группа
Содержание
1. Основные виды лингвистической
разметки
2. Стандарты разметки
3. Этапы лингвистической разметки
4. Требования к системе разметки
5. Обзор систем разметки
6. Разрабатываемый программный
инструмент
2
Основные виды лингвистической
разметки
• Лингвистическая разметка необходима для машинной
обработки текстов на естественном языке.
• В размеченном виде тексты удобно хранить и подавать на
вход различным программным инструментам.
Основные виды разметки:
 Метаразметка (автор текста, название, место издания и т.п.)
 Графематическая (границы слов, заголовки, числа)
 Морфологическая (часть речи, падеж, начальная форма)
 Синтаксическая (отражение синтаксической структуры
предложений)
 Семантическая (отношения род-вид, часть-целое, синонимия)
3
Пример графематической разметки
(проект Диалинг-АОТ)
4
5
Основные стандарты разметки
Существует ряд международных стандартов
представления размеченных текстов:
 Проект TEI
(использовался при создании НКРЯ)
 Рекомендации EAGLES
 CDIF
 CES
 XCES
6
Пример морфологической разметки в
стандарте TEI
<s>
<w><ana lex=“конкурент” gr=“S”></ana>Конкуренты</w>
<w><ana lex=“наступать” gr=“V”></ana>наступают</w>
<w><ana lex=“на” gr=“PR”></ana>на</w>
<w><ana lex=“пятка” gr=“S”></ana>пятки</w>.
</s>
Тег <w> обозначает слово, <s> - предложение
Этапы лингвистической разметки
• Естественный язык сложен и постоянно изменяется.
• Разметка текстов, как правило, неоднозначна.
• Системы автоматической разметки работают с ошибками
Графематическая разметка:
А. Кот смотрел на Ильина Б. В. Шпак смотрел на…
Морфологическая разметка:
слово ПЕЧЬ может быть как глаголом, так и
существительным
Как правило, разметка текста производится в два
этапа:
1. Автоматическая разметка текста (корпуса текстов)
2. Ручная корректировка результатов экспертом
7
8
Требования к системе разметки
Система разметки должна обладать следующими
свойствами:
 Доступность
 Простота использования, наличие документации
 Поддержка основных видов разметки
 Сохранение результатов в соответствующем
стандарту виде
 Поддержка русского языка
 Удобный пользовательский интерфейс для ручной
корректировки результата
 Плюсом является поддержка дополнительных видов
разметки
9
Системы разметки
 UAM CorpusTool
Автор: Mick O` Donnell, 2011 год
 BRAT rapid annotation tool
Авторы: Pontus Stenetorp, Sampo Pyysalo, Goran Topić,
Япония, Великобритания, 2012 год
 NooJApp
Автор: Max Silberztein, Франция, 2002 год
Проекты
 OpenCorpora
Цель проекта – создать открытый размеченный корпус
текстов на русском языке
10
UAM CorpusTool: основные функции
 Создание собственного корпуса текстов
 Автоматическая разметка для англоязычных текстов
 Исправление автоматической разметки
 Разметка текста вручную
 Добавление собственных дескрипторов
 Сохранение разметки в формате XML
11
UAM CorpusTool: интерфейс
12
UAM CorpusTool: особенности
 Система доступна для скачивания, проста в
установке, но ее исходный код закрыт
 Проста в использовании, имеет полную
документацию
 Поддерживаются основные виды разметки для
англоязычных текстов
 Результат сохраняется в формате stand-off xml
 Нет автоматической разметки для русского языка
 Интерфейс для ручной корректировки результата
разметки прост и понятен
13
BRAT rapid annotation tool:
основные функции
 Автоматическая разметка для англоязычных текстов
 Исправление автоматической разметки
 Извлечение некоторой информации из текстов
(имен, названий географических объектов)
 Разметка текста вручную
14
BRAT rapid annotation tool:
интерфейс
15
BRAT rapid annotation tool:
особенности
 Система доступна для скачивания, процесс установки
сложен, открытый исходный код
 Не очень сложна в использовании, имеет
документацию
 Для англоязычных текстов поддерживаются
основные виды разметки
 Результат сохраняется в формате stand-off ann
 Для русского языка поддерживается только
автоматическая графематическая разметка
 Интерфейс для ручной корректировки результата
разметки прост и понятен
16
NooJApp: основные функции
 Автоматическая графематическая, морфологическая
и синтаксическая разметка для английского языка
 Исправление автоматической разметки
 Разметка текста вручную
 Подсчет количества букв, токенов и других
статистических данных
17
NooJApp: интерфейс
18
NooJApp: особенности
 Система доступна для скачивания, процесс установки
легкий, открытый исходный код
 Не очень сложна в использовании, имеет
документацию
 Основные виды разметки поддерживаются только
для английского языка
 Результаты сохраняются в формате not, xml
(стандарт TEI)
 Автоматическая разметка поддерживается только
для английского языка
 Интерфейс системы не очень удобен для работы
19
Проект OpenCorpora
• Проект предназначен для создания размеченного
корпуса русскоязычных текстов силами сообщества.
• Каждый может принять участие в его создании.
• Сначала тексты размечаются автоматически, затем
участникам предлагается исправить ошибки
автоматической разметки.
Интерфейс
20
Итог
• На данный момент существует множество систем разметки,
но все они ориентированы на работу с англоязычными
текстами.
• Некоторые из этих систем недостаточно удобные и требуют
немало времени для освоения своего интерфейса.
Необходим программный инструмент:
1. Доступный, простой в использовании
2. Поддерживающий основные виды разметки
3. Отвечающий стандартам
4. Ориентированный на работу с русскоязычными
текстами
5. Обладающий удобным пользовательским
интерфейсом для корректировки результата
21
Linguistic annotation system:
основные функции
 Автоматическая графематическая разметка для
русского языка
 Исправление автоматической разметки
 Сохранение разметки в формате XML
В дальнейшем будут добавлены модули
морфологической и терминологической
разметки, возможность сохранения разметки в
соответствии со стандартом TEI.
22
Linguistic annotation system: интерфейс
23
Linguistic annotation system: интерфейс
24
Linguistic annotation system: особенности
 Доступное web-приложение, установка не требуется
 Простота использования
 Поддержка графематической разметки, в
дальнейшем и других основных видов разметки
 Полностью ориентировано на работу с
русскоязычными текстами
 Есть интуитивно понятный интерфейс для ручной
корректировки результата
 Поддержка дополнительных видов разметки
(терминологическая разметка)
Спасибо за внимание!
25

More Related Content

Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

  • 1. Пользовательские интерфейсы систем лингвистической разметки текстов Автор: Смолина Мария, 425 группа
  • 2. Содержание 1. Основные виды лингвистической разметки 2. Стандарты разметки 3. Этапы лингвистической разметки 4. Требования к системе разметки 5. Обзор систем разметки 6. Разрабатываемый программный инструмент 2
  • 3. Основные виды лингвистической разметки • Лингвистическая разметка необходима для машинной обработки текстов на естественном языке. • В размеченном виде тексты удобно хранить и подавать на вход различным программным инструментам. Основные виды разметки:  Метаразметка (автор текста, название, место издания и т.п.)  Графематическая (границы слов, заголовки, числа)  Морфологическая (часть речи, падеж, начальная форма)  Синтаксическая (отражение синтаксической структуры предложений)  Семантическая (отношения род-вид, часть-целое, синонимия) 3
  • 5. 5 Основные стандарты разметки Существует ряд международных стандартов представления размеченных текстов:  Проект TEI (использовался при создании НКРЯ)  Рекомендации EAGLES  CDIF  CES  XCES
  • 6. 6 Пример морфологической разметки в стандарте TEI <s> <w><ana lex=“конкурент” gr=“S”></ana>Конкуренты</w> <w><ana lex=“наступать” gr=“V”></ana>наступают</w> <w><ana lex=“на” gr=“PR”></ana>на</w> <w><ana lex=“пятка” gr=“S”></ana>пятки</w>. </s> Тег <w> обозначает слово, <s> - предложение
  • 7. Этапы лингвистической разметки • Естественный язык сложен и постоянно изменяется. • Разметка текстов, как правило, неоднозначна. • Системы автоматической разметки работают с ошибками Графематическая разметка: А. Кот смотрел на Ильина Б. В. Шпак смотрел на… Морфологическая разметка: слово ПЕЧЬ может быть как глаголом, так и существительным Как правило, разметка текста производится в два этапа: 1. Автоматическая разметка текста (корпуса текстов) 2. Ручная корректировка результатов экспертом 7
  • 8. 8 Требования к системе разметки Система разметки должна обладать следующими свойствами:  Доступность  Простота использования, наличие документации  Поддержка основных видов разметки  Сохранение результатов в соответствующем стандарту виде  Поддержка русского языка  Удобный пользовательский интерфейс для ручной корректировки результата  Плюсом является поддержка дополнительных видов разметки
  • 9. 9 Системы разметки  UAM CorpusTool Автор: Mick O` Donnell, 2011 год  BRAT rapid annotation tool Авторы: Pontus Stenetorp, Sampo Pyysalo, Goran Topić, Япония, Великобритания, 2012 год  NooJApp Автор: Max Silberztein, Франция, 2002 год Проекты  OpenCorpora Цель проекта – создать открытый размеченный корпус текстов на русском языке
  • 10. 10 UAM CorpusTool: основные функции  Создание собственного корпуса текстов  Автоматическая разметка для англоязычных текстов  Исправление автоматической разметки  Разметка текста вручную  Добавление собственных дескрипторов  Сохранение разметки в формате XML
  • 12. 12 UAM CorpusTool: особенности  Система доступна для скачивания, проста в установке, но ее исходный код закрыт  Проста в использовании, имеет полную документацию  Поддерживаются основные виды разметки для англоязычных текстов  Результат сохраняется в формате stand-off xml  Нет автоматической разметки для русского языка  Интерфейс для ручной корректировки результата разметки прост и понятен
  • 13. 13 BRAT rapid annotation tool: основные функции  Автоматическая разметка для англоязычных текстов  Исправление автоматической разметки  Извлечение некоторой информации из текстов (имен, названий географических объектов)  Разметка текста вручную
  • 14. 14 BRAT rapid annotation tool: интерфейс
  • 15. 15 BRAT rapid annotation tool: особенности  Система доступна для скачивания, процесс установки сложен, открытый исходный код  Не очень сложна в использовании, имеет документацию  Для англоязычных текстов поддерживаются основные виды разметки  Результат сохраняется в формате stand-off ann  Для русского языка поддерживается только автоматическая графематическая разметка  Интерфейс для ручной корректировки результата разметки прост и понятен
  • 16. 16 NooJApp: основные функции  Автоматическая графематическая, морфологическая и синтаксическая разметка для английского языка  Исправление автоматической разметки  Разметка текста вручную  Подсчет количества букв, токенов и других статистических данных
  • 18. 18 NooJApp: особенности  Система доступна для скачивания, процесс установки легкий, открытый исходный код  Не очень сложна в использовании, имеет документацию  Основные виды разметки поддерживаются только для английского языка  Результаты сохраняются в формате not, xml (стандарт TEI)  Автоматическая разметка поддерживается только для английского языка  Интерфейс системы не очень удобен для работы
  • 19. 19 Проект OpenCorpora • Проект предназначен для создания размеченного корпуса русскоязычных текстов силами сообщества. • Каждый может принять участие в его создании. • Сначала тексты размечаются автоматически, затем участникам предлагается исправить ошибки автоматической разметки. Интерфейс
  • 20. 20 Итог • На данный момент существует множество систем разметки, но все они ориентированы на работу с англоязычными текстами. • Некоторые из этих систем недостаточно удобные и требуют немало времени для освоения своего интерфейса. Необходим программный инструмент: 1. Доступный, простой в использовании 2. Поддерживающий основные виды разметки 3. Отвечающий стандартам 4. Ориентированный на работу с русскоязычными текстами 5. Обладающий удобным пользовательским интерфейсом для корректировки результата
  • 21. 21 Linguistic annotation system: основные функции  Автоматическая графематическая разметка для русского языка  Исправление автоматической разметки  Сохранение разметки в формате XML В дальнейшем будут добавлены модули морфологической и терминологической разметки, возможность сохранения разметки в соответствии со стандартом TEI.
  • 22. 22 Linguistic annotation system: интерфейс
  • 23. 23 Linguistic annotation system: интерфейс
  • 24. 24 Linguistic annotation system: особенности  Доступное web-приложение, установка не требуется  Простота использования  Поддержка графематической разметки, в дальнейшем и других основных видов разметки  Полностью ориентировано на работу с русскоязычными текстами  Есть интуитивно понятный интерфейс для ручной корректировки результата  Поддержка дополнительных видов разметки (терминологическая разметка)