�ݺ�ߣ

Проектирование корпуса
Технологии корпусной лингвистики. Лекция 3
А.В. Луканин

 На первом этапе необходимо ответить на следующие
вопросы:
 Что является единицей корпуса?
 Как обеспечить репрезентативность и
сбалансированность языкового материала?
 Какие жанры включать в корпус?
 Что является текстом в корпусе?
 небольшие объявления в газетах – включать ли их в корпус как
отдельные тексты или их можно объединять?

 Является ли текстом статья в газете? Или один
выпуск газеты нужно расценивать как один текст?
 Что является отдельным текстом – сборник
стихотворений или каждое стихотворение?
 Является ли отдельным текстом каждое письмо в
опубликованной переписке, где авторами писем
являются двое, но письма образуют единый
дискурс, или совокупность этих писем?

 Что следует понимать под корпусом
современного русского языка?
 Представляется, что хронологические рамки корпуса должны быть
разными для разных жанров.
 Что из исходных текстов остается в корпусе, а что
«вычищается»?
 картинки не относятся к языковому материалу и могут быть
удалены
 Что делать с таблицами и, тем более, с цитатами, прямой речью,
иноязычными вкраплениями, единицами измерения?

Единицы корпуса
 основной единицей корпуса текстов могут быть
 словоупотребления (слова)
 основы (корни, леммы)
 предложения

Состав корпуса
 При решении этой задачи разработчики корпуса текстов
обычно используют
 консультации специалистов по языкознанию и лингвостатистике
 либо метод анкет
 Исходя из своего опыта исследований, специалисты
определяют
 общий объём корпуса текстов
 время издания текстов
 число текстов и размер элементарной выборки
 жанры отбираемых текстов и их количество
 число элементарных выборок из каждого жанра

The Brown Standard Corpus of American
English
 группа консультантов-ученых определила его объем в
1 000 000 словоупотреблений
 Было решено, что он должен состоять из 500 текстов по
2000 словоупотреблений каждый
 Тексты должны быть взяты из произведений американских
авторов, изданных в США в 1961 году
 При этом было рекомендовано отобрать 15 письменных
жанров: 9 — информативная проза и 6 — художественная
проза
 Из каждого жанра было сделано от 6 до 80 элементарных
выборок

The American Heritage Intermediate Corpus
 Метод анкет в сочетании с опытом специалистов
 Специалисты, ориентируясь на заданное время
создания корпуса, определили его объем в 5 млн
слов (словоупотреблений) и рекомендовали
включить в него лексику из 22 разделов (жанров)
детской и юношеской литературы на английском
языке

The American Heritage Intermediate Corpus
 Для конкретизации текстов в 221 школу США были
разосланы анкеты с просьбой указать, какие тексты
желательно включить в корпус
 После изучения анкет был составлен список из 19 000
названий книг
 Из этого множества было отобрано 1045 текстов
 На их основе было составлено 10 000 элементарных
выборок по 500 словоупотреблений каждая

Технологический процесс создания
корпуса
1. Обеспечение поступления текстов в соответствии
с перечнем источников.
2. Преобразование в машиночитаемую форму.
 Тексты в электронном виде для создания корпусов
могут быть получены самыми разными способами –
ручной ввод, сканирование, авторские копии, дары и
обмен, Интернет, оригинал-макеты, предоставляемые
издательствами составителям корпусов и др.

корпуса
3. Анализ и предварительная обработка текстов.
 все тексты, полученные из разных источников, проходят
филологическую выверку и корректировку
 подготовка «технологического» описания включает в
себя библиографическое и экстралингвистическое
описания текста

4. Конвертирование и графематический
анализ
 тексты проходят также через один или несколько
этапов предварительной машинной обработки:
 перекодировка (если требуется)
 удаление или преобразование нетекстовых элементов
(рисунки, таблицы)
 удаление из текста переносов
 обеспечение единообразного написания тире и т.д.

Графематический анализ
предполагает проведение следующих операций:
 разделение входного текста на элементы
 слова, разделители и т.д.
 удаление нетекстовых элементов
 выделение и оформление нестандартных
(нелексических) элементов
 обработка специальных текстовых элементов
 имен (имя, отчество), написанных инициалами, иностранных
лексем, записанных латиницей, названий рисунков, примечаний,
страниц форзаца, зачеркиваний, титульных листов, списков
литературы и т.д.

5. Разметка текста
 заключается в приписывании текстам и их компонентам
дополнительной информации (метаданных):
 экстралингвистические, относящиеся ко всему тексту;
 данные о структуре текста;
 лингвистические метаданные, описывающие элементы текста.
 Метаописание текстов корпуса включает
 содержательные элементы данных (библиографические данные,
признаки, характеризующие жанровые и стилевые особенности
текста, сведения об авторе)
 формальные (имя файла, параметры кодирования, версия языка
разметки, исполнители этапов работ)

5. Разметка текста
 Метаданные текстов обычно вводятся вручную
 Структурная разметка документа (выделение
абзацев, предложений, слов) и собственно
лингвистическая разметка обычно
осуществляются автоматически

корпуса
6. Корректировка результатов автоматической
разметки:
 исправление ошибок
 снятие неоднозначности (вручную или
полуавтоматически)

корпуса
7. Конвертирование размеченных текстов в
структуру специализированной лингвистической
информационно-поисковой системы (corpus
manager), обеспечивающей быстрый
многоаспектный поиск и статистическую
обработку (заключительный этап)

8. Обеспечение доступа к корпусу
 Корпус может быть доступен
 в пределах компьютерного класса
 на компакт-диске
 в режиме глобальной сети
 Различным категориям пользователей могут
предоставляться разные права и разные
возможности

9. Создание документационного
обеспечения
 описание различных аспектов создания и
использования корпуса
 в частности, приводятся сведения о разметке,
позволяющие искать по метаданным, язык
запросов корпус-менеджера и т.д.

�ݺ�ߣ

Проектирование корпусов

Recommended

More Related Content

What's hot (19)

Viewers also liked (20)

Similar to Проектирование корпусов (20)

More from Artem Lukanin (20)

Recently uploaded (10)

Проектирование корпусов