ݺߣ

ݺߣShare a Scribd company logo
Предварительная обработка и
разметка корпуса
Технологии корпусной лингвистики. Лекция 4
А.В. Луканин
Основные процедуры обработки ЕЯ
 корпус в его современном понимании – это всегда
компьютерная база данных
 в процессе его создания используются
специальные процедуры и программы
 Токенизация – разбиение потока символов в
естественном языке на отдельные значимые
единицы (токены, словоформы) – необходимое
условие для дальнейшей обработки
естественного языка
Токенизация
 Ни один ЕЯ не обладает совершенной пунктуацией
 В англ. языке chap.
 сокращенная форма слова chapter
 chap, расположенное в конце предложения
 Jan.
 сокращенная форма слова January
 имя собственное, расположенное в конце предложения
 Точка в конце предложения оформляется в
отдельный тэг
Основные процедуры обработки ЕЯ
 Лемматизация – процесс образования первоначальной
формы слова, исходя из других его словоформ.
 Во многих языках слово может встречаться в нескольких
формах с различными флексиями.
 Например, английский глагол walk может быть
представлен следующими формами: walk, walked, walks,
walking.
 Базовая форма, walk, зафиксированная в словаре,
называется леммой слова.
Основные процедуры обработки ЕЯ
 Стемминг – нахождении стема (основы) слова.
 Стеммер обрабатывает отдельное слово без знания
контекста, и, таким образом, не может
дифференцировать слова, которые имеют разные
значения в силу отнесенности к разным частям речи.
 Стеммеры обычно более просты для реализации и
быстрее обрабатывают данные, а более низкая точность
их работы может не иметь решающего значения для
многих приложений.
 better -> bett, good -> good
Основные процедуры обработки ЕЯ
 [The] [quick] [brown] [fox] [jumped] [over] [the] [lazy]
[dogs].
 Один из наиболее популярных стеммеров,
SnowballAnalyzer, выдает следующие стемы:
 [quick] [brown] [fox] [jump] [over] [lazy] [dog].
 Леммы слов данного предложения будут следующими:
 [the] [quick] [brown] [fox] [jump] [over] [the] [lazy] [dog].
 Лемматизация связана с идентификацией частей речи и
включает в себя сокращение слов из корпуса до
соответствующих им лексем.
Лемматизация
 Именно лемматизация позволяет исследователю
выделять и изучать все варианты отдельной лексемы без
необходимости введения всех возможных вариантов.
 All women were walking in the streets.
 токены (словоформы) представлены слева в скобках <>
 звездочка '*' – слово в тексте начинается с заглавной буквы
"<*all>"
"all" <*> <Quant> DET PRE SG/PL
"<women>"
"woman" N NOM PL
Лемматизация
"<were>"
"be" <SV> <SVC/N> <SVC/A> V PAST VFIN
"<walking>"
"walk" <SV> <SVO> PCP1
"<in>"
"in" PREP
"<the>"
"the" <Def> DET CENTRAL ART SG/PL
"<streets>"
"street" N NOM PL
"<$.>"
Основные процедуры обработки ЕЯ
 Парсинг – это процесс сопоставления линейной
последовательности лексем (слов, токенов) языка с его
формальной грамматикой.
 Результатом обычно является дерево зависимостей
(синтаксическое дерево).
 Статистические подходы: парсер тренируется на
снабженных вручную пометами синтаксических деревьях
(tree-banks)
 Подходы, основанные на правилах или основанные на
ограничениях: прямо моделируют специфические
лингвистические теории.
Парсинг
 Большинство предложений неоднозначны в любой
теории.
 На основе правил (или перечня ограничений) должна
быть разработана стратегия снятия неоднозначности.
 Многие стратегии снятия неоднозначности полагаются на:
 количественные данные – частоту данной структуры в данном
корпусе (тип),
 ограничения на выборку для данных лексических единиц, которые
были получены или выделены из корпусных данных, и т.д.
Основные процедуры обработки ЕЯ
 Необходимо рассматривать два условия при обсуждении
предварительной обработки корпусов:
1. Каждый шаг подготовки текста к обработке заставляет
составителя корпуса принимать лингвистические
решения, которые влияют на последующие шаги и на
оценку корпуса.
 Конечный пользователь должен быть в курсе этих решений, чтобы
найти то, что он ищет.
 New York и Baden Baden – одно или два слова?
 Что делать с такими явлениями, как немецкие глаголы с
отделяемыми приставками?
Основные процедуры обработки ЕЯ
2. Конечного пользователя нужно поставить в известность о
том, какая работа была проделана на стадии
предварительной обработки и о возможных погрешностях
 любые ошибки в кодировке, особенно системные, могут повлиять
на результаты, полученные пользователями корпуса
Разметка корпуса
 Разметка корпусов (tagging, annotation) представляет
собой трудоемкую операцию, особенно учитывая
размеры современных корпусов.
 Некоторые виды разметки, в частности, анафорической,
просодической, основная часть работы проводится
вручную.
 Для морфологического и синтаксического анализа
существуют различные программные средства, которые
принято называть соответственно тэггеры (taggers) и
парсеры (parsers).
Разметка корпуса
 Автоматический морфологический анализатор (тэггер)
приписывает каждой лексической единице
грамматические характеристики
 часть речи, лемма и набор граммем (например, род, число, падеж,
одушевленность/неодушевленность, переходность и т.д.).
 Автоматический синтаксический анализатор фиксирует
синтаксические связи между словами и
словосочетаниями, а синтаксическим единицам
приписывает соответствующие характеристики
 тип предложения, синтаксическая функция словосочетания и т.д.
Снятие неоднозначности
 Автоматический анализ ЕЯ небезошибочен и многозначен
– он, как правило, дает несколько вариантов анализа для
одной лексической единицы (слова, словосочетания,
предложения).
 В этом случае говорят о грамматической омонимии.
 Снятие неоднозначности (морфологической,
синтаксической) – одна из важнейших и сложнейших
задач компьютерной лингвистики.
 При создании корпусов для снятия неоднозначности
используются автоматические и ручные способы.
Снятие неоднозначности
 Корпусы нового поколения включают сотни миллионов
слов, поэтому выдвигаются принципы разработки систем,
которые бы минимизировали вмешательство человека.
 Автоматическое разрешение морфологической или
синтаксической неоднозначности, как правило,
основывается на использовании информации более
высокого уровня (синтаксического, семантического) с
применением статистических методов.
Снятие неоднозначности
 Для указания леммы словоформы достаточно сравнить
слова по морфологическому словарю.
 Если форма может быть членом более чем одной
категории, необходимо снятие морфологической
неоднозначности.
 Например, слова words, forms, can, use, present и process могут
быть как существительными, так и глаголами.
 Достичь точной разметки английского корпуса можно
путём анализа контекста или анализа более высокого
уровня.
Лингвистическая разметка
 Морфологическая
 Синтаксическая
 Семантическая
 Анафорическая
 Просодическая
 Дискурсная
 и др.
Морфологическая разметка
 part-of-speech tagging (POS-tagging), дословно –
частеречная разметка
 также указываются признаки грамматических
категорий, свойственных данной части речи
 большинство крупных корпусов являются
морфологически размеченными корпусами
 успехи в компьютерной морфологии позволяют
автоматически с большой степенью правильности
размечать корпусы больших размеров
Морфологическая разметка
 Метка включает лемму, признак части речи,
признаки грамматических категорий
 В 1980 году появилась размеченная версия
Брауновского корпуса, в которой была проведена
лемматизация словоформ, маркировка их
поверхностно-синтаксических функций и т.д.
Морфологическая разметка
 the_AT jury_NN further_RB said_VBD in_IN term-
end_NN presentments_NNS that_CS the_AT
*city_NP *executive_NP *committee_NP ,_,
which_WDT had_HVD over-all_JJ charge_NN of_IN
the_AT election_NN ,_, deserves_VBZ the_AT
praise_NN and_CC thanks_NNS of_IN the_AT
*city_NP *of_NP *atlanta_NP for_IN the_AT
manner_NN in_IN which_WDT the_AT election_NN
was_BEDZ conducted_VBN |
Морфологическая разметка АОТ
<?xml version="1.0" encoding="windows-1251" ?> <text> <p>
<s><w>Звонили<ana lemma="ЗВОНИТЬ" pos="Г"
gram="мн,нс,нп,дст,прш," /></w>
<w>к<ana lemma="К" pos="ПРЕДЛ" gram="" /></w>
<w>вечерне
<ana lemma="ВЕЧЕРНЯ" pos="С" gram="жр,ед,дт,пр,но," />
<ana lemma="ВЕЧЕРНИЙ" pos="П" gram="ср,ед,кр," /></w>
<pun>.</pun> </s>
<s><w>Торжественный<ana lemma="ТОРЖЕСТВЕННЫЙ" pos="П"
gram="мр,ед,им,вн," /></w>
<w>гул<ana lemma="ГУЛ" pos="С" gram="мр,ед,им,вн,но," /></w>
<w>колоколов
<ana lemma="КОЛОКОЛ" pos="С" gram="мр,мн,рд,но," />
<ana lemma="КОЛОКОЛОВ" pos="С" gram="мр,фам,ед,им,од," /></w>
<pun>.</pun> </s></p></text>
Синтаксическая разметка
 является результатом парсинга, выполняемого на
основе данных морфологического анализа
 описывает синтаксические связи между лексичес-
кими единицами и различные синтаксические
конструкции (например, придаточное предложе-
ние, глагольное словосочетание и т.д.)
 В отличие от морфологии, способы представле-
ния синтаксической структуры и синтаксических
отношений не столь унифицированы.
Синтаксическая разметка
 Наблюдается разнообразие синтаксических
теорий и формализмов:
 грамматика зависимостей;
 грамматика непосредственно составляющих;
 грамматика структурных схем;
 традиционные синтаксические учения о членах
предложения;
 функциональная грамматика;
 семантический синтаксис и др.
Предварительная обработка и разметка корпуса текстов
Семантическая разметка
 предусматривает спецификацию значения слов,
разрешение омонимии и синонимии,
категоризацию слов (разряды), выделение
тематических классов, признаков каузативности,
оценочных и деривационных характеристик и т.д.
 Семантические тэги чаще всего обозначают
семантические категории, к которым относится
данное слово или словосочетание, и более узкие
подкатегории, специфицирующие его значение.
Семантическая разметка НКРЯ
 каждой словоформе приписываются пометы трёх
типов:
1. разряд (имя собственное, возвратное
местоимение и т.д.);
2. лексико-семантические характеристики
(тематический класс лексемы, признаки
каузативности, оценки и т.д.);
3. деривационные характеристики («диминутив»,
«отадъективное наречие» и т.д.).
Семантическая разметка НКРЯ
 лексико-семантические тэги сгруппированы по
следующим полям:
 таксономия (тематический класс лексемы) – для
имен существительных, прилагательных, глаголов и
наречий;
 мереология (указание на отношения «часть –
целое», «элемент – множество») – для предметных
и непредметных имен;
Семантическая разметка НКРЯ
 топология (топологический статус обозначаемого
объекта) – для предметных имен;
 каузация – для глаголов;
 служебный статус – для глаголов;
 оценка – для предметных и непредметных имен,
прилагательных и наречий.
Семантическая разметка НКРЯ
 Словообразовательные характеристики включают
несколько типов:
 морфо-семантические словообразовательные признаки
(например, «каритив», «семельфактив»);
 разряд производящего слова (например, отглагольное
существительное или отадъективное наречие);
 лексико-семантический (таксономический) тип производящего
слова (например, наречие, образованное от прилагательного
размера);
 морфологический тип словообразования (субстантивация,
сложное слово)

More Related Content

What's hot (9)

Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусов
Artem Lukanin
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
Artem Lukanin
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)
Smolensk Computer Science Club
172.употребление французских неопределенных детерминативов и переводческие о...
172.употребление французских неопределенных  детерминативов и переводческие о...172.употребление французских неопределенных  детерминативов и переводческие о...
172.употребление французских неопределенных детерминативов и переводческие о...
ivanov156633595
Понятие лексикографии
Понятие лексикографииПонятие лексикографии
Понятие лексикографии
Artem Lukanin
прикладная лингистика
прикладная лингистикаприкладная лингистика
прикладная лингистика
AndreySemenyuk
сжатое изложение
сжатое изложениесжатое изложение
сжатое изложение
Анна Бодня
проба
пробапроба
проба
Kirill Molochev
425.теория и практика перевода переводческие трансформации
425.теория и практика перевода переводческие трансформации425.теория и практика перевода переводческие трансформации
425.теория и практика перевода переводческие трансформации
ivanov15548
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусов
Artem Lukanin
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
Artem Lukanin
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)
Smolensk Computer Science Club
172.употребление французских неопределенных детерминативов и переводческие о...
172.употребление французских неопределенных  детерминативов и переводческие о...172.употребление французских неопределенных  детерминативов и переводческие о...
172.употребление французских неопределенных детерминативов и переводческие о...
ivanov156633595
Понятие лексикографии
Понятие лексикографииПонятие лексикографии
Понятие лексикографии
Artem Lukanin
прикладная лингистика
прикладная лингистикаприкладная лингистика
прикладная лингистика
AndreySemenyuk
425.теория и практика перевода переводческие трансформации
425.теория и практика перевода переводческие трансформации425.теория и практика перевода переводческие трансформации
425.теория и практика перевода переводческие трансформации
ivanov15548

Viewers also liked (20)

дистанционное обучение в корпоративном формате
дистанционное обучение в корпоративном форматедистанционное обучение в корпоративном формате
дистанционное обучение в корпоративном формате
Ирина Слуцкая
20131210прохоренков
20131210прохоренков20131210прохоренков
20131210прохоренков
Yandex
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMO
Artem Lukanin
Внутреняя оптимизация
Внутреняя оптимизацияВнутреняя оптимизация
Внутреняя оптимизация
prmegaindex
Иван Ямщиков, Яндекс
Иван Ямщиков, ЯндексИван Ямщиков, Яндекс
Иван Ямщиков, Яндекс
Yandex
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Yandex
живые сайты
живые сайтыживые сайты
живые сайты
zexzex
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Yandex
методические рекомендации_2_часть
методические рекомендации_2_частьметодические рекомендации_2_часть
методические рекомендации_2_часть
Alexander Shapovalov
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Yandex
повышение продаж
повышение продажповышение продаж
повышение продаж
prmegaindex
Кейс от Studio f1: интернет-магазин антикварной мебели
Кейс от Studio f1: интернет-магазин антикварной мебелиКейс от Studio f1: интернет-магазин антикварной мебели
Кейс от Studio f1: интернет-магазин антикварной мебели
Нарижный Денис
дистанционное обучение в корпоративном формате
дистанционное обучение в корпоративном форматедистанционное обучение в корпоративном формате
дистанционное обучение в корпоративном формате
Ирина Слуцкая
20131210прохоренков
20131210прохоренков20131210прохоренков
20131210прохоренков
Yandex
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMO
Artem Lukanin
Внутреняя оптимизация
Внутреняя оптимизацияВнутреняя оптимизация
Внутреняя оптимизация
prmegaindex
Иван Ямщиков, Яндекс
Иван Ямщиков, ЯндексИван Ямщиков, Яндекс
Иван Ямщиков, Яндекс
Yandex
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Yandex
живые сайты
живые сайтыживые сайты
живые сайты
zexzex
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Yandex
методические рекомендации_2_часть
методические рекомендации_2_частьметодические рекомендации_2_часть
методические рекомендации_2_часть
Alexander Shapovalov
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Yandex
повышение продаж
повышение продажповышение продаж
повышение продаж
prmegaindex
Кейс от Studio f1: интернет-магазин антикварной мебели
Кейс от Studio f1: интернет-магазин антикварной мебелиКейс от Studio f1: интернет-магазин антикварной мебели
Кейс от Studio f1: интернет-магазин антикварной мебели
Нарижный Денис

Similar to Предварительная обработка и разметка корпуса текстов (12)

АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксис
eibolshakova
Модули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ruМодули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ru
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
корпусная лингвистика 03
корпусная лингвистика 03корпусная лингвистика 03
корпусная лингвистика 03
KseniyaVitl
корпусная лингвистика
корпусная лингвистика корпусная лингвистика
корпусная лингвистика
KseniyaVitl
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автомат
Artem Lukanin
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введение
eibolshakova
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
KseniyaDolgova
АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксис
eibolshakova
корпусная лингвистика 03
корпусная лингвистика 03корпусная лингвистика 03
корпусная лингвистика 03
KseniyaVitl
корпусная лингвистика
корпусная лингвистика корпусная лингвистика
корпусная лингвистика
KseniyaVitl
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автомат
Artem Lukanin
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введение
eibolshakova
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
KseniyaDolgova

More from Artem Lukanin (18)

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...
Artem Lukanin
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in Unitex
Artem Lukanin
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикография
Artem Lukanin
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикография
Artem Lukanin
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемы
Artem Lukanin
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязык
Artem Lukanin
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровне
Artem Lukanin
Типология словарей
Типология словарейТипология словарей
Типология словарей
Artem Lukanin
Семантическое поле
Семантическое полеСемантическое поле
Семантическое поле
Artem Lukanin
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
Artem Lukanin
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
Artem Lukanin
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речи
Artem Lukanin
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
Artem Lukanin
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного перевода
Artem Lukanin
Фреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовФреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстов
Artem Lukanin
Искусственные нейронные сети
Искусственные нейронные сетиИскусственные нейронные сети
Искусственные нейронные сети
Artem Lukanin
Теория конечных автоматов
Теория конечных автоматовТеория конечных автоматов
Теория конечных автоматов
Artem Lukanin
Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...
Artem Lukanin
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in Unitex
Artem Lukanin
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикография
Artem Lukanin
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикография
Artem Lukanin
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемы
Artem Lukanin
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязык
Artem Lukanin
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровне
Artem Lukanin
Типология словарей
Типология словарейТипология словарей
Типология словарей
Artem Lukanin
Семантическое поле
Семантическое полеСемантическое поле
Семантическое поле
Artem Lukanin
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
Artem Lukanin
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
Artem Lukanin
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речи
Artem Lukanin
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
Artem Lukanin
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного перевода
Artem Lukanin
Фреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовФреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстов
Artem Lukanin
Искусственные нейронные сети
Искусственные нейронные сетиИскусственные нейронные сети
Искусственные нейронные сети
Artem Lukanin
Теория конечных автоматов
Теория конечных автоматовТеория конечных автоматов
Теория конечных автоматов
Artem Lukanin

Recently uploaded (10)

12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...
12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...
12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...
ilhddlr933
Управление репутацией 1st Edition Рева В Е
Управление репутацией 1st Edition Рева В ЕУправление репутацией 1st Edition Рева В Е
Управление репутацией 1st Edition Рева В Е
pwvegwzbj3197
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink EditorThe Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
diabisebik
Шпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
Шпаргалка по макроэкономике 1st Edition Андрей Викторович ПриходькоШпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
Шпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
tskwceyv536
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...
aqznhgbm975
Energieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
Energieeffizienz in der Industrie 2te 2nd Edition Markus BleslEnergieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
Energieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
tlyccxcujx8326
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...
zphwqtro232
Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...
Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...
Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...
wixsvbyvf9386
Народное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
Народное музыкальное творчество 1st Edition Татаринова Татьяна ЛеонидовнаНародное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
Народное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
pwvegwzbj3197
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter RobertsPetroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
vodderjeyes
12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...
12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...
12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...
ilhddlr933
Управление репутацией 1st Edition Рева В Е
Управление репутацией 1st Edition Рева В ЕУправление репутацией 1st Edition Рева В Е
Управление репутацией 1st Edition Рева В Е
pwvegwzbj3197
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink EditorThe Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
diabisebik
Шпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
Шпаргалка по макроэкономике 1st Edition Андрей Викторович ПриходькоШпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
Шпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
tskwceyv536
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...
aqznhgbm975
Energieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
Energieeffizienz in der Industrie 2te 2nd Edition Markus BleslEnergieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
Energieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
tlyccxcujx8326
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...
zphwqtro232
Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...
Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...
Музыкальное оформление культурно досуговых программ 1st Edition Лазарева Людм...
wixsvbyvf9386
Народное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
Народное музыкальное творчество 1st Edition Татаринова Татьяна ЛеонидовнаНародное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
Народное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
pwvegwzbj3197
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter RobertsPetroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
vodderjeyes

Предварительная обработка и разметка корпуса текстов

  • 1. Предварительная обработка и разметка корпуса Технологии корпусной лингвистики. Лекция 4 А.В. Луканин
  • 2. Основные процедуры обработки ЕЯ  корпус в его современном понимании – это всегда компьютерная база данных  в процессе его создания используются специальные процедуры и программы  Токенизация – разбиение потока символов в естественном языке на отдельные значимые единицы (токены, словоформы) – необходимое условие для дальнейшей обработки естественного языка
  • 3. Токенизация  Ни один ЕЯ не обладает совершенной пунктуацией  В англ. языке chap.  сокращенная форма слова chapter  chap, расположенное в конце предложения  Jan.  сокращенная форма слова January  имя собственное, расположенное в конце предложения  Точка в конце предложения оформляется в отдельный тэг
  • 4. Основные процедуры обработки ЕЯ  Лемматизация – процесс образования первоначальной формы слова, исходя из других его словоформ.  Во многих языках слово может встречаться в нескольких формах с различными флексиями.  Например, английский глагол walk может быть представлен следующими формами: walk, walked, walks, walking.  Базовая форма, walk, зафиксированная в словаре, называется леммой слова.
  • 5. Основные процедуры обработки ЕЯ  Стемминг – нахождении стема (основы) слова.  Стеммер обрабатывает отдельное слово без знания контекста, и, таким образом, не может дифференцировать слова, которые имеют разные значения в силу отнесенности к разным частям речи.  Стеммеры обычно более просты для реализации и быстрее обрабатывают данные, а более низкая точность их работы может не иметь решающего значения для многих приложений.  better -> bett, good -> good
  • 6. Основные процедуры обработки ЕЯ  [The] [quick] [brown] [fox] [jumped] [over] [the] [lazy] [dogs].  Один из наиболее популярных стеммеров, SnowballAnalyzer, выдает следующие стемы:  [quick] [brown] [fox] [jump] [over] [lazy] [dog].  Леммы слов данного предложения будут следующими:  [the] [quick] [brown] [fox] [jump] [over] [the] [lazy] [dog].  Лемматизация связана с идентификацией частей речи и включает в себя сокращение слов из корпуса до соответствующих им лексем.
  • 7. Лемматизация  Именно лемматизация позволяет исследователю выделять и изучать все варианты отдельной лексемы без необходимости введения всех возможных вариантов.  All women were walking in the streets.  токены (словоформы) представлены слева в скобках <>  звездочка '*' – слово в тексте начинается с заглавной буквы "<*all>" "all" <*> <Quant> DET PRE SG/PL "<women>" "woman" N NOM PL
  • 8. Лемматизация "<were>" "be" <SV> <SVC/N> <SVC/A> V PAST VFIN "<walking>" "walk" <SV> <SVO> PCP1 "<in>" "in" PREP "<the>" "the" <Def> DET CENTRAL ART SG/PL "<streets>" "street" N NOM PL "<$.>"
  • 9. Основные процедуры обработки ЕЯ  Парсинг – это процесс сопоставления линейной последовательности лексем (слов, токенов) языка с его формальной грамматикой.  Результатом обычно является дерево зависимостей (синтаксическое дерево).  Статистические подходы: парсер тренируется на снабженных вручную пометами синтаксических деревьях (tree-banks)  Подходы, основанные на правилах или основанные на ограничениях: прямо моделируют специфические лингвистические теории.
  • 10. Парсинг  Большинство предложений неоднозначны в любой теории.  На основе правил (или перечня ограничений) должна быть разработана стратегия снятия неоднозначности.  Многие стратегии снятия неоднозначности полагаются на:  количественные данные – частоту данной структуры в данном корпусе (тип),  ограничения на выборку для данных лексических единиц, которые были получены или выделены из корпусных данных, и т.д.
  • 11. Основные процедуры обработки ЕЯ  Необходимо рассматривать два условия при обсуждении предварительной обработки корпусов: 1. Каждый шаг подготовки текста к обработке заставляет составителя корпуса принимать лингвистические решения, которые влияют на последующие шаги и на оценку корпуса.  Конечный пользователь должен быть в курсе этих решений, чтобы найти то, что он ищет.  New York и Baden Baden – одно или два слова?  Что делать с такими явлениями, как немецкие глаголы с отделяемыми приставками?
  • 12. Основные процедуры обработки ЕЯ 2. Конечного пользователя нужно поставить в известность о том, какая работа была проделана на стадии предварительной обработки и о возможных погрешностях  любые ошибки в кодировке, особенно системные, могут повлиять на результаты, полученные пользователями корпуса
  • 13. Разметка корпуса  Разметка корпусов (tagging, annotation) представляет собой трудоемкую операцию, особенно учитывая размеры современных корпусов.  Некоторые виды разметки, в частности, анафорической, просодической, основная часть работы проводится вручную.  Для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers).
  • 14. Разметка корпуса  Автоматический морфологический анализатор (тэггер) приписывает каждой лексической единице грамматические характеристики  часть речи, лемма и набор граммем (например, род, число, падеж, одушевленность/неодушевленность, переходность и т.д.).  Автоматический синтаксический анализатор фиксирует синтаксические связи между словами и словосочетаниями, а синтаксическим единицам приписывает соответствующие характеристики  тип предложения, синтаксическая функция словосочетания и т.д.
  • 15. Снятие неоднозначности  Автоматический анализ ЕЯ небезошибочен и многозначен – он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения).  В этом случае говорят о грамматической омонимии.  Снятие неоднозначности (морфологической, синтаксической) – одна из важнейших и сложнейших задач компьютерной лингвистики.  При создании корпусов для снятия неоднозначности используются автоматические и ручные способы.
  • 16. Снятие неоднозначности  Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются принципы разработки систем, которые бы минимизировали вмешательство человека.  Автоматическое разрешение морфологической или синтаксической неоднозначности, как правило, основывается на использовании информации более высокого уровня (синтаксического, семантического) с применением статистических методов.
  • 17. Снятие неоднозначности  Для указания леммы словоформы достаточно сравнить слова по морфологическому словарю.  Если форма может быть членом более чем одной категории, необходимо снятие морфологической неоднозначности.  Например, слова words, forms, can, use, present и process могут быть как существительными, так и глаголами.  Достичь точной разметки английского корпуса можно путём анализа контекста или анализа более высокого уровня.
  • 18. Лингвистическая разметка  Морфологическая  Синтаксическая  Семантическая  Анафорическая  Просодическая  Дискурсная  и др.
  • 19. Морфологическая разметка  part-of-speech tagging (POS-tagging), дословно – частеречная разметка  также указываются признаки грамматических категорий, свойственных данной части речи  большинство крупных корпусов являются морфологически размеченными корпусами  успехи в компьютерной морфологии позволяют автоматически с большой степенью правильности размечать корпусы больших размеров
  • 20. Морфологическая разметка  Метка включает лемму, признак части речи, признаки грамматических категорий  В 1980 году появилась размеченная версия Брауновского корпуса, в которой была проведена лемматизация словоформ, маркировка их поверхностно-синтаксических функций и т.д.
  • 21. Морфологическая разметка  the_AT jury_NN further_RB said_VBD in_IN term- end_NN presentments_NNS that_CS the_AT *city_NP *executive_NP *committee_NP ,_, which_WDT had_HVD over-all_JJ charge_NN of_IN the_AT election_NN ,_, deserves_VBZ the_AT praise_NN and_CC thanks_NNS of_IN the_AT *city_NP *of_NP *atlanta_NP for_IN the_AT manner_NN in_IN which_WDT the_AT election_NN was_BEDZ conducted_VBN |
  • 22. Морфологическая разметка АОТ <?xml version="1.0" encoding="windows-1251" ?> <text> <p> <s><w>Звонили<ana lemma="ЗВОНИТЬ" pos="Г" gram="мн,нс,нп,дст,прш," /></w> <w>к<ana lemma="К" pos="ПРЕДЛ" gram="" /></w> <w>вечерне <ana lemma="ВЕЧЕРНЯ" pos="С" gram="жр,ед,дт,пр,но," /> <ana lemma="ВЕЧЕРНИЙ" pos="П" gram="ср,ед,кр," /></w> <pun>.</pun> </s> <s><w>Торжественный<ana lemma="ТОРЖЕСТВЕННЫЙ" pos="П" gram="мр,ед,им,вн," /></w> <w>гул<ana lemma="ГУЛ" pos="С" gram="мр,ед,им,вн,но," /></w> <w>колоколов <ana lemma="КОЛОКОЛ" pos="С" gram="мр,мн,рд,но," /> <ana lemma="КОЛОКОЛОВ" pos="С" gram="мр,фам,ед,им,од," /></w> <pun>.</pun> </s></p></text>
  • 23. Синтаксическая разметка  является результатом парсинга, выполняемого на основе данных морфологического анализа  описывает синтаксические связи между лексичес- кими единицами и различные синтаксические конструкции (например, придаточное предложе- ние, глагольное словосочетание и т.д.)  В отличие от морфологии, способы представле- ния синтаксической структуры и синтаксических отношений не столь унифицированы.
  • 24. Синтаксическая разметка  Наблюдается разнообразие синтаксических теорий и формализмов:  грамматика зависимостей;  грамматика непосредственно составляющих;  грамматика структурных схем;  традиционные синтаксические учения о членах предложения;  функциональная грамматика;  семантический синтаксис и др.
  • 26. Семантическая разметка  предусматривает спецификацию значения слов, разрешение омонимии и синонимии, категоризацию слов (разряды), выделение тематических классов, признаков каузативности, оценочных и деривационных характеристик и т.д.  Семантические тэги чаще всего обозначают семантические категории, к которым относится данное слово или словосочетание, и более узкие подкатегории, специфицирующие его значение.
  • 27. Семантическая разметка НКРЯ  каждой словоформе приписываются пометы трёх типов: 1. разряд (имя собственное, возвратное местоимение и т.д.); 2. лексико-семантические характеристики (тематический класс лексемы, признаки каузативности, оценки и т.д.); 3. деривационные характеристики («диминутив», «отадъективное наречие» и т.д.).
  • 28. Семантическая разметка НКРЯ  лексико-семантические тэги сгруппированы по следующим полям:  таксономия (тематический класс лексемы) – для имен существительных, прилагательных, глаголов и наречий;  мереология (указание на отношения «часть – целое», «элемент – множество») – для предметных и непредметных имен;
  • 29. Семантическая разметка НКРЯ  топология (топологический статус обозначаемого объекта) – для предметных имен;  каузация – для глаголов;  служебный статус – для глаголов;  оценка – для предметных и непредметных имен, прилагательных и наречий.
  • 30. Семантическая разметка НКРЯ  Словообразовательные характеристики включают несколько типов:  морфо-семантические словообразовательные признаки (например, «каритив», «семельфактив»);  разряд производящего слова (например, отглагольное существительное или отадъективное наречие);  лексико-семантический (таксономический) тип производящего слова (например, наречие, образованное от прилагательного размера);  морфологический тип словообразования (субстантивация, сложное слово)