ݺߣ

ݺߣShare a Scribd company logo
Проектирование корпуса
Технологии корпусной лингвистики. Лекция 3
А.В. Луканин
Проектирование корпуса
 На первом этапе необходимо ответить на следующие
вопросы:
 Что является единицей корпуса?
 Как обеспечить репрезентативность и
сбалансированность языкового материала?
 Какие жанры включать в корпус?
 Что является текстом в корпусе?
 небольшие объявления в газетах – включать ли их в корпус как
отдельные тексты или их можно объединять?
Проектирование корпуса
 Является ли текстом статья в газете? Или один
выпуск газеты нужно расценивать как один текст?
 Что является отдельным текстом – сборник
стихотворений или каждое стихотворение?
 Является ли отдельным текстом каждое письмо в
опубликованной переписке, где авторами писем
являются двое, но письма образуют единый
дискурс, или совокупность этих писем?
Проектирование корпуса
 Что следует понимать под корпусом
современного русского языка?
 Представляется, что хронологические рамки корпуса должны быть
разными для разных жанров.
 Что из исходных текстов остается в корпусе, а что
«вычищается»?
 картинки не относятся к языковому материалу и могут быть
удалены
 Что делать с таблицами и, тем более, с цитатами, прямой речью,
иноязычными вкраплениями, единицами измерения?
Единицы корпуса
 основной единицей корпуса текстов могут быть
 словоупотребления (слова)
 основы (корни, леммы)
 предложения
Состав корпуса
 При решении этой задачи разработчики корпуса текстов
обычно используют
 консультации специалистов по языкознанию и лингвостатистике
 либо метод анкет
 Исходя из своего опыта исследований, специалисты
определяют
 общий объём корпуса текстов
 время издания текстов
 число текстов и размер элементарной выборки
 жанры отбираемых текстов и их количество
 число элементарных выборок из каждого жанра
The Brown Standard Corpus of American
English
 группа консультантов-ученых определила его объем в
1 000 000 словоупотреблений
 Было решено, что он должен состоять из 500 текстов по
2000 словоупотреблений каждый
 Тексты должны быть взяты из произведений американских
авторов, изданных в США в 1961 году
 При этом было рекомендовано отобрать 15 письменных
жанров: 9 — информативная проза и 6 — художественная
проза
 Из каждого жанра было сделано от 6 до 80 элементарных
выборок
The American Heritage Intermediate Corpus
 Метод анкет в сочетании с опытом специалистов
 Специалисты, ориентируясь на заданное время
создания корпуса, определили его объем в 5 млн
слов (словоупотреблений) и рекомендовали
включить в него лексику из 22 разделов (жанров)
детской и юношеской литературы на английском
языке
The American Heritage Intermediate Corpus
 Для конкретизации текстов в 221 школу США были
разосланы анкеты с просьбой указать, какие тексты
желательно включить в корпус
 После изучения анкет был составлен список из 19 000
названий книг
 Из этого множества было отобрано 1045 текстов
 На их основе было составлено 10 000 элементарных
выборок по 500 словоупотреблений каждая
Технологический процесс создания
корпуса
1. Обеспечение поступления текстов в соответствии
с перечнем источников.
2. Преобразование в машиночитаемую форму.
 Тексты в электронном виде для создания корпусов
могут быть получены самыми разными способами –
ручной ввод, сканирование, авторские копии, дары и
обмен, Интернет, оригинал-макеты, предоставляемые
издательствами составителям корпусов и др.
Технологический процесс создания
корпуса
3. Анализ и предварительная обработка текстов.
 все тексты, полученные из разных источников, проходят
филологическую выверку и корректировку
 подготовка «технологического» описания включает в
себя библиографическое и экстралингвистическое
описания текста
4. Конвертирование и графематический
анализ
 тексты проходят также через один или несколько
этапов предварительной машинной обработки:
 перекодировка (если требуется)
 удаление или преобразование нетекстовых элементов
(рисунки, таблицы)
 удаление из текста переносов
 обеспечение единообразного написания тире и т.д.
Графематический анализ
предполагает проведение следующих операций:
 разделение входного текста на элементы
 слова, разделители и т.д.
 удаление нетекстовых элементов
 выделение и оформление нестандартных
(нелексических) элементов
 обработка специальных текстовых элементов
 имен (имя, отчество), написанных инициалами, иностранных
лексем, записанных латиницей, названий рисунков, примечаний,
страниц форзаца, зачеркиваний, титульных листов, списков
литературы и т.д.
5. Разметка текста
 заключается в приписывании текстам и их компонентам
дополнительной информации (метаданных):
 экстралингвистические, относящиеся ко всему тексту;
 данные о структуре текста;
 лингвистические метаданные, описывающие элементы текста.
 Метаописание текстов корпуса включает
 содержательные элементы данных (библиографические данные,
признаки, характеризующие жанровые и стилевые особенности
текста, сведения об авторе)
 формальные (имя файла, параметры кодирования, версия языка
разметки, исполнители этапов работ)
5. Разметка текста
 Метаданные текстов обычно вводятся вручную
 Структурная разметка документа (выделение
абзацев, предложений, слов) и собственно
лингвистическая разметка обычно
осуществляются автоматически
Технологический процесс создания
корпуса
6. Корректировка результатов автоматической
разметки:
 исправление ошибок
 снятие неоднозначности (вручную или
полуавтоматически)
Технологический процесс создания
корпуса
7. Конвертирование размеченных текстов в
структуру специализированной лингвистической
информационно-поисковой системы (corpus
manager), обеспечивающей быстрый
многоаспектный поиск и статистическую
обработку (заключительный этап)
8. Обеспечение доступа к корпусу
 Корпус может быть доступен
 в пределах компьютерного класса
 на компакт-диске
 в режиме глобальной сети
 Различным категориям пользователей могут
предоставляться разные права и разные
возможности
9. Создание документационного
обеспечения
 описание различных аспектов создания и
использования корпуса
 в частности, приводятся сведения о разметке,
позволяющие искать по метаданным, язык
запросов корпус-менеджера и т.д.

More Related Content

What's hot (19)

Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстов
Artem Lukanin
Предварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовПредварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстов
Artem Lukanin
Конкорданс
Конкорданс Конкорданс
Конкорданс
zojju
История развития английской лексикографии
История развития английской лексикографииИстория развития английской лексикографии
История развития английской лексикографии
Yevgeniya Grigoryeva
Электронные корпусы как основа словарей современного английского языка
Электронные корпусы как основа словарей современного английского языкаЭлектронные корпусы как основа словарей современного английского языка
Электронные корпусы как основа словарей современного английского языка
Yevgeniya Grigoryeva
Корпус современного американского английского
Корпус современного американского английскогоКорпус современного американского английского
Корпус современного американского английского
maymarina19
Сравнительное исследование переводов книги "Преступление и наказание"
Сравнительное исследование переводов книги "Преступление и наказание" Сравнительное исследование переводов книги "Преступление и наказание"
Сравнительное исследование переводов книги "Преступление и наказание"
Анастасия Терешенко
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
KseniyaDolgova
копия юджин альберт найда
копия юджин альберт найдакопия юджин альберт найда
копия юджин альберт найда
Klunnyy
Основные типы словарей английского языка
Основные типы словарей английского языкаОсновные типы словарей английского языка
Основные типы словарей английского языка
Yevgeniya Grigoryeva
Контекстный метод исследования
Контекстный метод исследованияКонтекстный метод исследования
Контекстный метод исследования
Victoria Ishen
подготовка к гиа
подготовка к гиаподготовка к гиа
подготовка к гиа
DrofaUral
Интеллектуальная игра "Синтез наук"
Интеллектуальная игра "Синтез наук"Интеллектуальная игра "Синтез наук"
Интеллектуальная игра "Синтез наук"
Marina Efremova
презентация Microsoft office power point
презентация Microsoft office power pointпрезентация Microsoft office power point
презентация Microsoft office power point
dergachkate
Linguistics, history
Linguistics, historyLinguistics, history
Linguistics, history
MariaSuina
Проблема классификации словарей
Проблема классификации словарейПроблема классификации словарей
Проблема классификации словарей
Yevgeniya Grigoryeva
Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстов
Artem Lukanin
Предварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовПредварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстов
Artem Lukanin
Конкорданс
Конкорданс Конкорданс
Конкорданс
zojju
История развития английской лексикографии
История развития английской лексикографииИстория развития английской лексикографии
История развития английской лексикографии
Yevgeniya Grigoryeva
Электронные корпусы как основа словарей современного английского языка
Электронные корпусы как основа словарей современного английского языкаЭлектронные корпусы как основа словарей современного английского языка
Электронные корпусы как основа словарей современного английского языка
Yevgeniya Grigoryeva
Корпус современного американского английского
Корпус современного американского английскогоКорпус современного американского английского
Корпус современного американского английского
maymarina19
Сравнительное исследование переводов книги "Преступление и наказание"
Сравнительное исследование переводов книги "Преступление и наказание" Сравнительное исследование переводов книги "Преступление и наказание"
Сравнительное исследование переводов книги "Преступление и наказание"
Анастасия Терешенко
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
KseniyaDolgova
копия юджин альберт найда
копия юджин альберт найдакопия юджин альберт найда
копия юджин альберт найда
Klunnyy
Основные типы словарей английского языка
Основные типы словарей английского языкаОсновные типы словарей английского языка
Основные типы словарей английского языка
Yevgeniya Grigoryeva
Контекстный метод исследования
Контекстный метод исследованияКонтекстный метод исследования
Контекстный метод исследования
Victoria Ishen
подготовка к гиа
подготовка к гиаподготовка к гиа
подготовка к гиа
DrofaUral
Интеллектуальная игра "Синтез наук"
Интеллектуальная игра "Синтез наук"Интеллектуальная игра "Синтез наук"
Интеллектуальная игра "Синтез наук"
Marina Efremova
презентация Microsoft office power point
презентация Microsoft office power pointпрезентация Microsoft office power point
презентация Microsoft office power point
dergachkate
Linguistics, history
Linguistics, historyLinguistics, history
Linguistics, history
MariaSuina
Проблема классификации словарей
Проблема классификации словарейПроблема классификации словарей
Проблема классификации словарей
Yevgeniya Grigoryeva

Viewers also liked (20)

дистанционное обучение в корпоративном формате
дистанционное обучение в корпоративном форматедистанционное обучение в корпоративном формате
дистанционное обучение в корпоративном формате
Ирина Слуцкая
дистанционное обучение в корпоративном формате
дистанционное обучение в корпоративном форматедистанционное обучение в корпоративном формате
дистанционное обучение в корпоративном формате
Ирина Слуцкая

Similar to Проектирование корпусов (20)

Требования к курсовой работе
Требования к курсовой работеТребования к курсовой работе
Требования к курсовой работе
Andrey Kulipanov
реферирование и аннотирование
реферирование и аннотированиереферирование и аннотирование
реферирование и аннотирование
Alena1974
компьютерная лексикография
компьютерная лексикографиякомпьютерная лексикография
компьютерная лексикография
Pacific State University, Russia
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций.
Lidia Pivovarova
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
Nadezhda Smolko
8 библ сопровождение_черевыщенко
8 библ сопровождение_черевыщенко8 библ сопровождение_черевыщенко
8 библ сопровождение_черевыщенко
Vladimir Kukharenko
ГИА С2 лингвистический анализ текста как способ формировани
ГИА С2 лингвистический анализ текста как способ формированиГИА С2 лингвистический анализ текста как способ формировани
ГИА С2 лингвистический анализ текста как способ формировани
blackstar554
Оформление реферата
Оформление рефератаОформление реферата
Оформление реферата
Alex160798
материалы и.суязовой
материалы и.суязовойматериалы и.суязовой
материалы и.суязовой
Roman-13
Töö Tekstiga
Töö Tekstiga Töö Tekstiga
Töö Tekstiga
irin
Лингвистическое переводоведение в США.pptx
Лингвистическое переводоведение в США.pptxЛингвистическое переводоведение в США.pptx
Лингвистическое переводоведение в США.pptx
ExsiFx
Стилистика как наука
Стилистика как наукаСтилистика как наука
Стилистика как наука
Марина Терских
темы
темытемы
темы
himbaza
педмарафон 2013
педмарафон 2013педмарафон 2013
педмарафон 2013
Roman-13
Новые поступления - Март 2011
Новые поступления - Март 2011Новые поступления - Март 2011
Новые поступления - Март 2011
Nick
2015 егэ задание №1_чекусова
2015 егэ  задание №1_чекусова2015 егэ  задание №1_чекусова
2015 егэ задание №1_чекусова
Chekusova
Требования к курсовой работе
Требования к курсовой работеТребования к курсовой работе
Требования к курсовой работе
Andrey Kulipanov
реферирование и аннотирование
реферирование и аннотированиереферирование и аннотирование
реферирование и аннотирование
Alena1974
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций.
Lidia Pivovarova
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
Nadezhda Smolko
8 библ сопровождение_черевыщенко
8 библ сопровождение_черевыщенко8 библ сопровождение_черевыщенко
8 библ сопровождение_черевыщенко
Vladimir Kukharenko
ГИА С2 лингвистический анализ текста как способ формировани
ГИА С2 лингвистический анализ текста как способ формированиГИА С2 лингвистический анализ текста как способ формировани
ГИА С2 лингвистический анализ текста как способ формировани
blackstar554
Оформление реферата
Оформление рефератаОформление реферата
Оформление реферата
Alex160798
материалы и.суязовой
материалы и.суязовойматериалы и.суязовой
материалы и.суязовой
Roman-13
Töö Tekstiga
Töö Tekstiga Töö Tekstiga
Töö Tekstiga
irin
Лингвистическое переводоведение в США.pptx
Лингвистическое переводоведение в США.pptxЛингвистическое переводоведение в США.pptx
Лингвистическое переводоведение в США.pptx
ExsiFx
педмарафон 2013
педмарафон 2013педмарафон 2013
педмарафон 2013
Roman-13
Новые поступления - Март 2011
Новые поступления - Март 2011Новые поступления - Март 2011
Новые поступления - Март 2011
Nick
2015 егэ задание №1_чекусова
2015 егэ  задание №1_чекусова2015 егэ  задание №1_чекусова
2015 егэ задание №1_чекусова
Chekusova

More from Artem Lukanin (20)

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...
Artem Lukanin
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in Unitex
Artem Lukanin
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикография
Artem Lukanin
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикография
Artem Lukanin
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемы
Artem Lukanin
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязык
Artem Lukanin
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровне
Artem Lukanin
Типология словарей
Типология словарейТипология словарей
Типология словарей
Artem Lukanin
Семантическое поле
Семантическое полеСемантическое поле
Семантическое поле
Artem Lukanin
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
Artem Lukanin
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
Artem Lukanin
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речи
Artem Lukanin
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
Artem Lukanin
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного перевода
Artem Lukanin
Фреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовФреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстов
Artem Lukanin
Искусственные нейронные сети
Искусственные нейронные сетиИскусственные нейронные сети
Искусственные нейронные сети
Artem Lukanin
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автомат
Artem Lukanin
Теория конечных автоматов
Теория конечных автоматовТеория конечных автоматов
Теория конечных автоматов
Artem Lukanin
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMO
Artem Lukanin
Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...
Artem Lukanin
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in Unitex
Artem Lukanin
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикография
Artem Lukanin
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикография
Artem Lukanin
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемы
Artem Lukanin
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязык
Artem Lukanin
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровне
Artem Lukanin
Типология словарей
Типология словарейТипология словарей
Типология словарей
Artem Lukanin
Семантическое поле
Семантическое полеСемантическое поле
Семантическое поле
Artem Lukanin
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
Artem Lukanin
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
Artem Lukanin
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речи
Artem Lukanin
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
Artem Lukanin
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного перевода
Artem Lukanin
Фреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовФреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстов
Artem Lukanin
Искусственные нейронные сети
Искусственные нейронные сетиИскусственные нейронные сети
Искусственные нейронные сети
Artem Lukanin
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автомат
Artem Lukanin
Теория конечных автоматов
Теория конечных автоматовТеория конечных автоматов
Теория конечных автоматов
Artem Lukanin
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMO
Artem Lukanin

Recently uploaded (10)

Energieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
Energieeffizienz in der Industrie 2te 2nd Edition Markus BleslEnergieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
Energieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
tlyccxcujx8326
Шпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
Шпаргалка по макроэкономике 1st Edition Андрей Викторович ПриходькоШпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
Шпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
tskwceyv536
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...
aqznhgbm975
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...
zphwqtro232
Народное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
Народное музыкальное творчество 1st Edition Татаринова Татьяна ЛеонидовнаНародное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
Народное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
pwvegwzbj3197
Управление репутацией 1st Edition Рева В Е
Управление репутацией 1st Edition Рева В ЕУправление репутацией 1st Edition Рева В Е
Управление репутацией 1st Edition Рева В Е
pwvegwzbj3197
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter RobertsPetroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
vodderjeyes
12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...
12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...
12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...
ilhddlr933
Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...
Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...
Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...
wixsvbyvf9386
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink EditorThe Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
diabisebik
Energieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
Energieeffizienz in der Industrie 2te 2nd Edition Markus BleslEnergieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
Energieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
tlyccxcujx8326
Шпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
Шпаргалка по макроэкономике 1st Edition Андрей Викторович ПриходькоШпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
Шпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
tskwceyv536
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...
aqznhgbm975
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...
zphwqtro232
Народное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
Народное музыкальное творчество 1st Edition Татаринова Татьяна ЛеонидовнаНародное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
Народное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
pwvegwzbj3197
Управление репутацией 1st Edition Рева В Е
Управление репутацией 1st Edition Рева В ЕУправление репутацией 1st Edition Рева В Е
Управление репутацией 1st Edition Рева В Е
pwvegwzbj3197
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter RobertsPetroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
vodderjeyes
12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...
12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...
12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...
ilhddlr933
Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...
Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...
Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...
wixsvbyvf9386
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink EditorThe Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
diabisebik

Проектирование корпусов

  • 1. Проектирование корпуса Технологии корпусной лингвистики. Лекция 3 А.В. Луканин
  • 2. Проектирование корпуса  На первом этапе необходимо ответить на следующие вопросы:  Что является единицей корпуса?  Как обеспечить репрезентативность и сбалансированность языкового материала?  Какие жанры включать в корпус?  Что является текстом в корпусе?  небольшие объявления в газетах – включать ли их в корпус как отдельные тексты или их можно объединять?
  • 3. Проектирование корпуса  Является ли текстом статья в газете? Или один выпуск газеты нужно расценивать как один текст?  Что является отдельным текстом – сборник стихотворений или каждое стихотворение?  Является ли отдельным текстом каждое письмо в опубликованной переписке, где авторами писем являются двое, но письма образуют единый дискурс, или совокупность этих писем?
  • 4. Проектирование корпуса  Что следует понимать под корпусом современного русского языка?  Представляется, что хронологические рамки корпуса должны быть разными для разных жанров.  Что из исходных текстов остается в корпусе, а что «вычищается»?  картинки не относятся к языковому материалу и могут быть удалены  Что делать с таблицами и, тем более, с цитатами, прямой речью, иноязычными вкраплениями, единицами измерения?
  • 5. Единицы корпуса  основной единицей корпуса текстов могут быть  словоупотребления (слова)  основы (корни, леммы)  предложения
  • 6. Состав корпуса  При решении этой задачи разработчики корпуса текстов обычно используют  консультации специалистов по языкознанию и лингвостатистике  либо метод анкет  Исходя из своего опыта исследований, специалисты определяют  общий объём корпуса текстов  время издания текстов  число текстов и размер элементарной выборки  жанры отбираемых текстов и их количество  число элементарных выборок из каждого жанра
  • 7. The Brown Standard Corpus of American English  группа консультантов-ученых определила его объем в 1 000 000 словоупотреблений  Было решено, что он должен состоять из 500 текстов по 2000 словоупотреблений каждый  Тексты должны быть взяты из произведений американских авторов, изданных в США в 1961 году  При этом было рекомендовано отобрать 15 письменных жанров: 9 — информативная проза и 6 — художественная проза  Из каждого жанра было сделано от 6 до 80 элементарных выборок
  • 8. The American Heritage Intermediate Corpus  Метод анкет в сочетании с опытом специалистов  Специалисты, ориентируясь на заданное время создания корпуса, определили его объем в 5 млн слов (словоупотреблений) и рекомендовали включить в него лексику из 22 разделов (жанров) детской и юношеской литературы на английском языке
  • 9. The American Heritage Intermediate Corpus  Для конкретизации текстов в 221 школу США были разосланы анкеты с просьбой указать, какие тексты желательно включить в корпус  После изучения анкет был составлен список из 19 000 названий книг  Из этого множества было отобрано 1045 текстов  На их основе было составлено 10 000 элементарных выборок по 500 словоупотреблений каждая
  • 10. Технологический процесс создания корпуса 1. Обеспечение поступления текстов в соответствии с перечнем источников. 2. Преобразование в машиночитаемую форму.  Тексты в электронном виде для создания корпусов могут быть получены самыми разными способами – ручной ввод, сканирование, авторские копии, дары и обмен, Интернет, оригинал-макеты, предоставляемые издательствами составителям корпусов и др.
  • 11. Технологический процесс создания корпуса 3. Анализ и предварительная обработка текстов.  все тексты, полученные из разных источников, проходят филологическую выверку и корректировку  подготовка «технологического» описания включает в себя библиографическое и экстралингвистическое описания текста
  • 12. 4. Конвертирование и графематический анализ  тексты проходят также через один или несколько этапов предварительной машинной обработки:  перекодировка (если требуется)  удаление или преобразование нетекстовых элементов (рисунки, таблицы)  удаление из текста переносов  обеспечение единообразного написания тире и т.д.
  • 13. Графематический анализ предполагает проведение следующих операций:  разделение входного текста на элементы  слова, разделители и т.д.  удаление нетекстовых элементов  выделение и оформление нестандартных (нелексических) элементов  обработка специальных текстовых элементов  имен (имя, отчество), написанных инициалами, иностранных лексем, записанных латиницей, названий рисунков, примечаний, страниц форзаца, зачеркиваний, титульных листов, списков литературы и т.д.
  • 14. 5. Разметка текста  заключается в приписывании текстам и их компонентам дополнительной информации (метаданных):  экстралингвистические, относящиеся ко всему тексту;  данные о структуре текста;  лингвистические метаданные, описывающие элементы текста.  Метаописание текстов корпуса включает  содержательные элементы данных (библиографические данные, признаки, характеризующие жанровые и стилевые особенности текста, сведения об авторе)  формальные (имя файла, параметры кодирования, версия языка разметки, исполнители этапов работ)
  • 15. 5. Разметка текста  Метаданные текстов обычно вводятся вручную  Структурная разметка документа (выделение абзацев, предложений, слов) и собственно лингвистическая разметка обычно осуществляются автоматически
  • 16. Технологический процесс создания корпуса 6. Корректировка результатов автоматической разметки:  исправление ошибок  снятие неоднозначности (вручную или полуавтоматически)
  • 17. Технологический процесс создания корпуса 7. Конвертирование размеченных текстов в структуру специализированной лингвистической информационно-поисковой системы (corpus manager), обеспечивающей быстрый многоаспектный поиск и статистическую обработку (заключительный этап)
  • 18. 8. Обеспечение доступа к корпусу  Корпус может быть доступен  в пределах компьютерного класса  на компакт-диске  в режиме глобальной сети  Различным категориям пользователей могут предоставляться разные права и разные возможности
  • 19. 9. Создание документационного обеспечения  описание различных аспектов создания и использования корпуса  в частности, приводятся сведения о разметке, позволяющие искать по метаданным, язык запросов корпус-менеджера и т.д.