полуавтоматическая генерации словарей для лексикографов
1 of 23
Download to read offline
More Related Content
полуавтоматическая генерации словарей для лексикографов
1. ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА НАТЕМУ:
«ПРОГРАММНАЯ СРЕДА ПОЛУАВТОМАТИЧЕСКОЙ
ГЕНЕРАЦИИ СЛОВАРЕЙ ДЛЯ ЛЕКСИКОГРАФОВ»
РУКОВОДИТЕЛЬ: К.Ф.-М.Н., ДОЦЕНТ, СОШНИКОВ Д.В.
ДИПЛОМНИК ГРУППЫ 08-606: КИРИЛИНА А.А.
МОСКОВСКИЙАВИАЦИОННЫЙ ИНСТИТУТ
(НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ)
Москва, 2015
9. 8. ЗАДАЧИ
Построить общую модель данных
Реализовать импорт данных
Реализовать генерацию «обратного» словаря
Создать пользовательский клиент для
редактирования словаря лексикографом
10. 9. МЕТАЯЗЫК
Общие идеи
Словам соответствуют UID
Гипотеза С-В
Фрагмент таблицы БД
14. 14. РЕДАКТИРОВАНИЕ СЛОВАРЯ
Функции для редактирования и связки слов и примеров.
Можно вывести список несвязанных ни с какими словами примерами.
Причины их появления:
Такие примеры могут появиться из-за особенностей перевода:
аппарат cihaz, apparat; кассовый ~ kassa cihazı; звуковой ~ лингв. ses
cihazı; речевой ~ лингв. söz cihazı; летательный ~ uçquç şekiy
Формы одного слова не распознались из-за неточности правил.
Неоднокоренные слова посчитались однокоренными – например с
коротенькими словами.
21. 21. РЕЗУЛЬТАТЫ
Разработана модель представления множества словарей на едином
лингвистическом поле (несколько словарей вместе в одной модели)
(!переписывать)
Разработан алгоритм построения «обратного» словаря
Разработана среда, позволяющая считывать словари в формате .docx для
последующей обработки и редактирования
22. 22. ПЛАНЫ
Русско-крымскотатарский в крымскотатарско-русский
Совместный словарь трёх авторов на базе русско-украинско-
крымскотатарского
Русско-караимский в караимско-русский
Перевод в облачную архитектуру SAAS
Облачный доступ к программе Microsoft Bizspark – подана заявка.
У меня есть знакомый, который составил русско-крымскотатарский словарь и он спросил, могу ли я написать программу, которая сгенерировала бы на его основе крымскотатарско-русский словарь.
// Тюркская языковая группа -> кыпчакские и огузские. Татарский – кыпчакский язык, а турецкий – огузский, а крымскотатарский язык – гибридный. Среди крымских татар у южнобережных диалект относится к огузской группе, а у степных – к кыпчакской. Есть ещё диалект средней полосы - смешанный, литературный язык основан на смешанном.
//Я решила взяться за более обобщенную задачу – сделать автоматическое рабочее место лексикографа для работы с любыми словарями.
На этом языке говорит около полумиллиона человек. Помимо Крыма на нём говорят в разных странах: в Узбекистане, Турции, Румынии, Болгарии, прилегающих к Крыму районах России и Украины. У крымских татар, живущих в этих странах, крымскотатарский – единственный общий язык, на котором они могут общаться друг с другом.
Для того чтобы собрать все слова-переводы, нужно читать словарь, параллельно выписывая все слова из правой части словарных статей вместе с переводом (то есть заголовком). Встретив слово второй раз в правой части какой-либо статьи, нужно дописать второй перевод для этого слова и так далее. Вместе со словами-переводами нужно выписывать и примеры к ним.
Посмотрите, сколько действий вам нужно сделать, даже если ваш словарь состоит из трех слов. А если их не три, а тридцать тысяч?
Действия, которые нужно проделать, с одной стороны – монотонная задача, действия несложные, но в огромных количествах и требующие внимания, чтобы ничего не пропустить и вставить куда нужно. Поэтому эта деятельность требует много человекочасов, а это дорого.
Мы решили обобщить задачу и сделать автоматизированное рабочее место лексикографа. Лексикограф – человек, который занимается составлением словарей.
АРМ должно поддерживать считывание словарей с различной внутренней структурой (разметкой, обозначениями и т.д.) и генерацию словарей на разных языках.
// Дв
// Создание АРМ лексикографа с поддержкой словарей в различных форматах и с генерацией словарей в различных форматах.
На рынке есть конкуренты, но, во-первых, их не много.
Во-вторых, либо это бесплатные приложения с небогатым функционалом, либо функционал шире, но они дорого стоят. А это не подходит людям, занимающимся миноритарными языками у нас в стране, потому что они как правило небогаты, у них нет таких денег.
// WeSay – для энтузиастов, которые хотят составить словарь своего родного языка, а не для учёных. Экспорт только в один формат, невозможность
В АРМ, разработанной в рамках выполнения дипломной работы, помимо обычного для таких систем функционала (редактирование и дополнение словаря) можно считывать уже написанный словарь в формате .docx и создавать к нему «обратный».
Таким образом задачи у меня были такие: …
Нет привязки к конкретному языку. Все слова хранятся в таблице.
// По которой генерировалась БД // поменять картинку
Я реализовала её (модель) на платформе Microsoft .NET, СУБД SQL Server
Вордовский документ состоит из нескольких XML документов. Нам нужен только один из них, тот, который содержит то, что написал пользователь. Таким образом мы можем рассматривать словарь как XML документ. С помощью XSLT преобразования преобразуем XML документ во внутренний формат моей системы. Благодаря этому, когда мы решим использовать словарь с другой разметкой (где примеры будут разделены не точками с запятой, а запятыми, вместо римских цифр арабские и т.п.), достаточно будет только написать новое XSLT-преобразование.
// посмотреть название штуки, которая сохраняет в ворд из проги
// ответ на вопрос почему XSLT, а не RegExp – потому что, во-первых, regexp зашит в коде, а XSLT в отдельном файле и его просто поменять. Ну и потому, что XSLT – технология для работы с XML документами, и она обеспечивает более удобный способ обращения с ними.
К сожалению есть одна сложность, которая не позволяет соотнести все примеры с каким-либо словом.
Пример «летательный аппарат – учкъуч шекий не является примером ни к слову джихаз, ни к слову аппарат.
// Ещё две причины:
Формы одного (однокоренные) слова не распознались из-за неточности правил
Неоднокоренные слова посчитались однокоренными – например с коротенькими словами
Лексикографу предстоит руками группировать переводы по смысловым (синонимичным) группам и оставшиеся бесхозными примеры связывать со словарными статьями.
А этот слайд для тех, кто уже было подумал, что в моей работе нет математики. Чтобы пользователю было комфортнее работать, я оцениваю оставшееся время работы над словарём на основе времени редактирования каждой статьи. Во многих программах, где реализована функция оставшегося времени работы (например, в навигаторе; время копирования файлов и т.д.) и там как правило пользователю показывают точечную оценку оставшегося времени, то есть число: пять минут, два часа и т.д. Поэтому часто при изменение ситуации оставшееся время меняется и это сбивает человека с толку. Поэтому я решила сделать интервальную оценку, чтобы пользователь видел диапазон, в который с достаточно большой вероятностью он уложится.
// Доверительный интервал для среднего значения при неизвестной дисперсии. Величина – оставшееся время, оно случайное и я оцениваю его среднее значение. Матожидание – это среднее значение. Квантили у меня Стьюдентовские, потому что .
(X_n)^- -среднее время редактирования одной статьи, рассчитанное на основе статей, которые лексикограф уже отредактировал.
Оставшееся время – СВ и я пытаюсь оценить её среднее значение, оно же мат. ожидание. Эта СВ – гауссовская. Доверительный интервал для гауссовской СВ с неизвестной дисперсией рассчитывается по такой формуле.
Был разработан алгоритм генерации обратного словаря. С его помощью для каждой будущей словарной статьи подбираются слова-переводы, примеры и переводы примеров.
// Вообще-то термин обратный словарь уже занят и им называют словари, в которых слова отсортированы по алфавиту не с начала слова, а с конца.
// Проходимся по разным таблицам (заменить это на «алгоритм генерации обратного словаря» и взять и написать в виде псевдокода. Для все w принадл. W – мн-ву слов) и собираем нужные данные.
Склеиваем нужные данные в нужном порядке
Теперь можно вывести в файл (и отнести в типографию)
В итоге мы получили «обратный» словарь и можем его редактировать.
//Исходный ???
Я провела исследование существующих мобильных приложений для запоминания иностранных слов и спроектировала интерфейс мобильного приложения в Ак-шюр Ар-Пи.
// Запомнить названия проанализрованных приложений: AnyMemo, LinguaLeo, …
// Почему я не сделала программу: …
На защиту выносятся следующие результаты.
// Разработан алгоритм построения «обратного» словаря с учётом сложных примеров
// Среда, позволяющая:
Считывать уже написанный словарь и работать с ним
Создать словарь «обратный» к данному
Работать над совместным словарём с другим автором
Редактировать словарь
Вывести словарь в файл