ݺߣ

ݺߣShare a Scribd company logo
Основные понятия
корпусной лингвистики
Технологии корпусной лингвистики.
Лекция 1
А.В. Луканин
Корпусная лингвистика
 это раздел компьютерной лингвистики,
занимающийся разработкой общих
принципов построения и использования
лингвистических корпусов (корпусов
текстов) с применением компьютерных
технологий
Корпус текстов
 это большой, представленный в
машиночитаемом виде,
унифицированный, структурированный,
размеченный, филологически
компетентный массив языковых данных,
предназначенный для решения
конкретных лингвистических задач
 включает информацию о ситуации, в
которой текст был произведен, такую как
информация о говорящем, авторе,
адресате или аудитории
Корпус текстов
 используются для статистического
анализа и проверки гипотез, проверки
случаев встречаемости или обоснования
языковых правил по определенным
областям
 в основе него должен лежать логический
замысел, логическая идея, объединяющая
эти тексты и воплощенная в правилах
организации текстов в корпус, алгоритме и
программе анализа корпуса текстов
Корпусный менеджер
 это специализированная поисковая
система, включающая программные
средства для поиска данных в корпусе,
получения статистической информации и
предоставления пользователю
результатов в удобной форме
 Поиск в корпусе позволяет по любому
слову построить конкорданс
Конкорданс
 это список всех употреблений данного
слова в контексте со ссылками на
источник
<A> лингвистика
Корпус текстов
 Корпусы могут использоваться для
получения разнообразных справок и
статистических данных о языковых и
речевых единицах:
 определить частоту словоформ, лексем,
грамматических категорий,
 проследить изменение частот и контекстов в
различные периоды времени,
 получить данные о совместной встречаемости
лексических единиц и т.д.
Брауновский корпус
 The Brown Standard Corpus of American
English (1964)
 включает 500 текстов из американских книг,
газет, журналов, впервые опубликованных в
США в 1961 году
 был разработан в Брауновском университете
(Brown University) в США в 1963 году
 1 млн. слов (500 текстов по 2000 слов в
каждом)
 Авторы корпуса У. Френсис (W. Francis) и
Г. Кучера (H. Kucera)
Брауновский корпус
 снабжён большим количеством
материалов первичной статистической
обработки: частотным и алфавитно-
частотным словарем, разнообразными
статистическими распределениями
 Цель создания – обеспечить системное
изучение отдельных жанров письменного
английского языка и сравнение жанров
Корпус Ланкастер-Осло-Берген
 The Lancaster-Oslo-Bergen Corpus (1978)
 назван по названиям британского и двух
норвежских университетов, или кратко LOB
 включает тексты из 15 жанров (регистров),
впервые опубликованных в Великобритании в
1961 году
 1 млн. слов британского варианта английского
языка (500 текстов по 2000 слов в каждом)
История создания корпусов
 К 1990 году уже было зафиксировано более 600
компьютерных корпусов.
 По годам составления они были распределены
примерно следующим образом:
-1965 10
1966-1970 20
1971-1975 30
1976-1980 80
1981-1985 160
1986-1990 320
История создания корпусов
 Среди современных корпусов английского
языка (как британского, так и американского
варианта) наиболее известны
 Британский национальный корпус (British National
Corpus – BNC),
 Международный корпус английского языка
(International Corpus of English – ICE),
 лингвистический Банк английского языка (Bank of
English),
 Корпус современного американского английского
(Corpus of Contemporary American English – COCA)
и др.
История создания корпусов
 В настоящее время корпусы созданы для
многих языков мира
 Современные корпусы насчитывают уже
сотни миллиардов словоупотреблений
Репрезентативность корпусов
 Термин «корпус» обычно обозначает собрание
текстов конечного фиксированного размера
 С течением времени объем и состав корпуса
может меняться, однако эти изменения должны
либо не менять его структуру, либо менять ее
обоснованно
 Представительность корпуса, соотношение его
отдельных частей (по разным характеристикам)
получили название репрезентативности, или
сбалансировнности
Репрезентативность корпусов
 Объём первых корпусов составлял 1 млн.
словоупотреблений
 Брауновский корпус
 корпус Ланкастер-Осло-Берген
 Упсальский корпус русского языка
 Такой объём не позволял отражать язык
во всем его многообразии
 В настоящее время считается, что
общеязыковой (национальный) корпус
должен включать не менее 100 млн.
словоупотреблений.
Репрезентативность корпусов
 Национальный корпус представляет
данный язык на определенном этапе (или
этапах) его существования во всём
многообразии жанров, стилей,
территориальных и социальных вариантов
и т. п.
 НКРЯ, http://ruscorpora.ru
 BNC, ограниченно доступный по адресу
http://www.natcorp.ox.ac.uk/ или
http://sara.natcorp.ox.ac.uk
Репрезентативность корпусов
 Корпус – это уменьшенная модель языка или
подъязыка
 Под репрезентативностью понимается
необходимо-достаточное и пропорциональное
представление в корпусе текстов различных
периодов, жанров, стилей, авторов и т.д., то есть
способность отражать все свойства проблемной
области
 репрезентативность корпуса определяет
достоверность полученных на его материале
результатов
Корпусы для специальной цели
 отражают бытование некоторого
лингвистического или культурного
феномена в общественной речевой
практике, они построены ad hoc
 корпус пословиц
 корпус политических метафор в газетной речи
 критерием репрезентативности будет
служить требование максимально
объективного представления бытования
интересующего его создателей явления
Корпусы для специальной цели
 В начале XXI века свободно обсуждаются
такие корпусы текстов, как
 корпус газетных заголовков
 корпус английских текстов, предназначенных
для отладки систем машинного перевода
 корпус политических метафор
 критерий отбора текстов в таких корпусах
задает его создатель, исходя из целей
своей практической или научной
деятельности
Методология конструирования
корпуса
 должна зависеть от типа корпуса
 Для национальных корпусов:
основывается на принципе дедукции –
реализации проблемы корректности
движения от общего (объективно
существующей речевой практики
носителей языка) к отражающему это
общее частному корпусу текстов
Методология конструирования
корпуса
 Для корпусов ad hoc: должна корректно
отражать частные, единичные
лингвистические феномены в корпусе
текстов, специально созданном для их
отражения
 Часто применяется комбинированный
подход

More Related Content

Основные понятия корпусной лингвистики

  • 1. Основные понятия корпусной лингвистики Технологии корпусной лингвистики. Лекция 1 А.В. Луканин
  • 2. Корпусная лингвистика  это раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий
  • 3. Корпус текстов  это большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач  включает информацию о ситуации, в которой текст был произведен, такую как информация о говорящем, авторе, адресате или аудитории
  • 4. Корпус текстов  используются для статистического анализа и проверки гипотез, проверки случаев встречаемости или обоснования языковых правил по определенным областям  в основе него должен лежать логический замысел, логическая идея, объединяющая эти тексты и воплощенная в правилах организации текстов в корпус, алгоритме и программе анализа корпуса текстов
  • 5. Корпусный менеджер  это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления пользователю результатов в удобной форме  Поиск в корпусе позволяет по любому слову построить конкорданс
  • 6. Конкорданс  это список всех употреблений данного слова в контексте со ссылками на источник
  • 8. Корпус текстов  Корпусы могут использоваться для получения разнообразных справок и статистических данных о языковых и речевых единицах:  определить частоту словоформ, лексем, грамматических категорий,  проследить изменение частот и контекстов в различные периоды времени,  получить данные о совместной встречаемости лексических единиц и т.д.
  • 9. Брауновский корпус  The Brown Standard Corpus of American English (1964)  включает 500 текстов из американских книг, газет, журналов, впервые опубликованных в США в 1961 году  был разработан в Брауновском университете (Brown University) в США в 1963 году  1 млн. слов (500 текстов по 2000 слов в каждом)  Авторы корпуса У. Френсис (W. Francis) и Г. Кучера (H. Kucera)
  • 10. Брауновский корпус  снабжён большим количеством материалов первичной статистической обработки: частотным и алфавитно- частотным словарем, разнообразными статистическими распределениями  Цель создания – обеспечить системное изучение отдельных жанров письменного английского языка и сравнение жанров
  • 11. Корпус Ланкастер-Осло-Берген  The Lancaster-Oslo-Bergen Corpus (1978)  назван по названиям британского и двух норвежских университетов, или кратко LOB  включает тексты из 15 жанров (регистров), впервые опубликованных в Великобритании в 1961 году  1 млн. слов британского варианта английского языка (500 текстов по 2000 слов в каждом)
  • 12. История создания корпусов  К 1990 году уже было зафиксировано более 600 компьютерных корпусов.  По годам составления они были распределены примерно следующим образом: -1965 10 1966-1970 20 1971-1975 30 1976-1980 80 1981-1985 160 1986-1990 320
  • 13. История создания корпусов  Среди современных корпусов английского языка (как британского, так и американского варианта) наиболее известны  Британский национальный корпус (British National Corpus – BNC),  Международный корпус английского языка (International Corpus of English – ICE),  лингвистический Банк английского языка (Bank of English),  Корпус современного американского английского (Corpus of Contemporary American English – COCA) и др.
  • 14. История создания корпусов  В настоящее время корпусы созданы для многих языков мира  Современные корпусы насчитывают уже сотни миллиардов словоупотреблений
  • 15. Репрезентативность корпусов  Термин «корпус» обычно обозначает собрание текстов конечного фиксированного размера  С течением времени объем и состав корпуса может меняться, однако эти изменения должны либо не менять его структуру, либо менять ее обоснованно  Представительность корпуса, соотношение его отдельных частей (по разным характеристикам) получили название репрезентативности, или сбалансировнности
  • 16. Репрезентативность корпусов  Объём первых корпусов составлял 1 млн. словоупотреблений  Брауновский корпус  корпус Ланкастер-Осло-Берген  Упсальский корпус русского языка  Такой объём не позволял отражать язык во всем его многообразии  В настоящее время считается, что общеязыковой (национальный) корпус должен включать не менее 100 млн. словоупотреблений.
  • 17. Репрезентативность корпусов  Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.  НКРЯ, http://ruscorpora.ru  BNC, ограниченно доступный по адресу http://www.natcorp.ox.ac.uk/ или http://sara.natcorp.ox.ac.uk
  • 18. Репрезентативность корпусов  Корпус – это уменьшенная модель языка или подъязыка  Под репрезентативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.д., то есть способность отражать все свойства проблемной области  репрезентативность корпуса определяет достоверность полученных на его материале результатов
  • 19. Корпусы для специальной цели  отражают бытование некоторого лингвистического или культурного феномена в общественной речевой практике, они построены ad hoc  корпус пословиц  корпус политических метафор в газетной речи  критерием репрезентативности будет служить требование максимально объективного представления бытования интересующего его создателей явления
  • 20. Корпусы для специальной цели  В начале XXI века свободно обсуждаются такие корпусы текстов, как  корпус газетных заголовков  корпус английских текстов, предназначенных для отладки систем машинного перевода  корпус политических метафор  критерий отбора текстов в таких корпусах задает его создатель, исходя из целей своей практической или научной деятельности
  • 21. Методология конструирования корпуса  должна зависеть от типа корпуса  Для национальных корпусов: основывается на принципе дедукции – реализации проблемы корректности движения от общего (объективно существующей речевой практики носителей языка) к отражающему это общее частному корпусу текстов
  • 22. Методология конструирования корпуса  Для корпусов ad hoc: должна корректно отражать частные, единичные лингвистические феномены в корпусе текстов, специально созданном для их отражения  Часто применяется комбинированный подход