Сравнительное исследование переводов книги "Преступление и наказание" Анастасия ТерешенкоDifference betwen Russian and English translations of "Crime and Punishment" by F.M.Dostoevsky
Контекстный метод исследованияVictoria IshenЗдесь я подробно рассказываю о таком методе в филологическом исследовании как контекстный.А также показываю его применения на конкретных примерах.
Сравнительное исследование переводов книги "Преступление и наказание" Анастасия ТерешенкоDifference betwen Russian and English translations of "Crime and Punishment" by F.M.Dostoevsky
Контекстный метод исследованияVictoria IshenЗдесь я подробно рассказываю о таком методе в филологическом исследовании как контекстный.А также показываю его применения на конкретных примерах.
дистанционное обучение в корпоративном форматеИрина Слуцкаяоткрытый вебинар Дистанционное обучение в корпоративном формате: Возможности, ограничения и решения.
материалы и.суязовойRoman-13Предложенный материал представляет собой программу действий, как в короткие сроки (за месяц) подготовить выпускников к успешной сдаче зимнего сочинения.
Стилистика как наукаМарина ТерскихI. Предмет стилистики.
II. Задачи и основные направления стилистики.
III. Связь стилистики с другими филологическими дисциплинами:
а) стилистика и общее языкознание;
б) стилистика и теория перевода; стилистика и поэтика;
в) стилистика и культура речи;
г) стилистика и лингвистический анализ текста.
IV. Методы и приемы стилистических исследований.
Normalization of Non-Standard Words with Finite State Transducers for Russi...Artem LukaninThis document discusses text normalization for Russian speech synthesis. It introduces Normatex, an open-source Russian text normalization system using finite state transducers. Normatex expands non-standard words like numbers, abbreviations, and acronyms. It achieved 84.33% recall and 93.95% precision on a test corpus. The document outlines challenges in Russian normalization like inflection and ambiguity, and describes how Normatex handles cardinal and ordinal numbers, acronyms, and abbreviations.
Text Processing with Finite State Transducers in UnitexArtem LukaninThis document discusses text processing using finite state transducers in Unitex. It provides an overview of Unitex, describing what it is, what corpora and finite state transducers are. It then demonstrates how to use Unitex to preprocess text from a file, tokenize it, apply dictionaries, and build finite state graphs to match and tag hyponyms and hypernyms in Russian texts. References are provided at the end.
Energieeffizienz in der Industrie 2te 2nd Edition Markus Blesltlyccxcujx8326Energieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
Energieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
Energieeffizienz in der Industrie 2te 2nd Edition Markus Blesl
Шпаргалка по макроэкономике 1st Edition Андрей Викторович Приходькоtskwceyv536Шпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
Шпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
Шпаргалка по макроэкономике 1st Edition Андрей Викторович Приходько
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Ут...aqznhgbm975Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Уткин Игорь Викторович
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Уткин Игорь Викторович
Комплексная реабилитация детей с интеллектуальными нарушениями 1st Edition Уткин Игорь Викторович
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александр...zphwqtro232Основы исследовательской деятельности 1st Edition Иванищева Надежда Александровна
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александровна
Основы исследовательской деятельности 1st Edition Иванищева Надежда Александровна
Народное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовнаpwvegwzbj3197Народное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
Народное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
Народное музыкальное творчество 1st Edition Татаринова Татьяна Леонидовна
Управление репутацией 1st Edition Рева В Еpwvegwzbj3197Управление репутацией 1st Edition Рева В Е
Управление репутацией 1st Edition Рева В Е
Управление репутацией 1st Edition Рева В Е
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter RobertsvodderjeyesPetroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
Petroleum Contracts English Law Practice 2nd Edition 2nd Edition Peter Roberts
12 религий которые меняют мир сегодня Все об их истории учении практиках и зн...ilhddlr93312 религий которые меняют мир сегодня Все об их истории учении практиках и значении 2nd Edition Мэри Пэт Фишер
12 религий которые меняют мир сегодня Все об их истории учении практиках и значении 2nd Edition Мэри Пэт Фишер
12 религий которые меняют мир сегодня Все об их истории учении практиках и значении 2nd Edition Мэри Пэт Фишер
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink EditordiabisebikThe Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
The Eu Law Of Economic And Monetary Union Fabian Amtenbrink Editor
2. Проектирование корпуса
На первом этапе необходимо ответить на следующие
вопросы:
Что является единицей корпуса?
Как обеспечить репрезентативность и
сбалансированность языкового материала?
Какие жанры включать в корпус?
Что является текстом в корпусе?
небольшие объявления в газетах – включать ли их в корпус как
отдельные тексты или их можно объединять?
3. Проектирование корпуса
Является ли текстом статья в газете? Или один
выпуск газеты нужно расценивать как один текст?
Что является отдельным текстом – сборник
стихотворений или каждое стихотворение?
Является ли отдельным текстом каждое письмо в
опубликованной переписке, где авторами писем
являются двое, но письма образуют единый
дискурс, или совокупность этих писем?
4. Проектирование корпуса
Что следует понимать под корпусом
современного русского языка?
Представляется, что хронологические рамки корпуса должны быть
разными для разных жанров.
Что из исходных текстов остается в корпусе, а что
«вычищается»?
картинки не относятся к языковому материалу и могут быть
удалены
Что делать с таблицами и, тем более, с цитатами, прямой речью,
иноязычными вкраплениями, единицами измерения?
5. Единицы корпуса
основной единицей корпуса текстов могут быть
словоупотребления (слова)
основы (корни, леммы)
предложения
6. Состав корпуса
При решении этой задачи разработчики корпуса текстов
обычно используют
консультации специалистов по языкознанию и лингвостатистике
либо метод анкет
Исходя из своего опыта исследований, специалисты
определяют
общий объём корпуса текстов
время издания текстов
число текстов и размер элементарной выборки
жанры отбираемых текстов и их количество
число элементарных выборок из каждого жанра
7. The Brown Standard Corpus of American
English
группа консультантов-ученых определила его объем в
1 000 000 словоупотреблений
Было решено, что он должен состоять из 500 текстов по
2000 словоупотреблений каждый
Тексты должны быть взяты из произведений американских
авторов, изданных в США в 1961 году
При этом было рекомендовано отобрать 15 письменных
жанров: 9 — информативная проза и 6 — художественная
проза
Из каждого жанра было сделано от 6 до 80 элементарных
выборок
8. The American Heritage Intermediate Corpus
Метод анкет в сочетании с опытом специалистов
Специалисты, ориентируясь на заданное время
создания корпуса, определили его объем в 5 млн
слов (словоупотреблений) и рекомендовали
включить в него лексику из 22 разделов (жанров)
детской и юношеской литературы на английском
языке
9. The American Heritage Intermediate Corpus
Для конкретизации текстов в 221 школу США были
разосланы анкеты с просьбой указать, какие тексты
желательно включить в корпус
После изучения анкет был составлен список из 19 000
названий книг
Из этого множества было отобрано 1045 текстов
На их основе было составлено 10 000 элементарных
выборок по 500 словоупотреблений каждая
10. Технологический процесс создания
корпуса
1. Обеспечение поступления текстов в соответствии
с перечнем источников.
2. Преобразование в машиночитаемую форму.
Тексты в электронном виде для создания корпусов
могут быть получены самыми разными способами –
ручной ввод, сканирование, авторские копии, дары и
обмен, Интернет, оригинал-макеты, предоставляемые
издательствами составителям корпусов и др.
11. Технологический процесс создания
корпуса
3. Анализ и предварительная обработка текстов.
все тексты, полученные из разных источников, проходят
филологическую выверку и корректировку
подготовка «технологического» описания включает в
себя библиографическое и экстралингвистическое
описания текста
12. 4. Конвертирование и графематический
анализ
тексты проходят также через один или несколько
этапов предварительной машинной обработки:
перекодировка (если требуется)
удаление или преобразование нетекстовых элементов
(рисунки, таблицы)
удаление из текста переносов
обеспечение единообразного написания тире и т.д.
13. Графематический анализ
предполагает проведение следующих операций:
разделение входного текста на элементы
слова, разделители и т.д.
удаление нетекстовых элементов
выделение и оформление нестандартных
(нелексических) элементов
обработка специальных текстовых элементов
имен (имя, отчество), написанных инициалами, иностранных
лексем, записанных латиницей, названий рисунков, примечаний,
страниц форзаца, зачеркиваний, титульных листов, списков
литературы и т.д.
14. 5. Разметка текста
заключается в приписывании текстам и их компонентам
дополнительной информации (метаданных):
экстралингвистические, относящиеся ко всему тексту;
данные о структуре текста;
лингвистические метаданные, описывающие элементы текста.
Метаописание текстов корпуса включает
содержательные элементы данных (библиографические данные,
признаки, характеризующие жанровые и стилевые особенности
текста, сведения об авторе)
формальные (имя файла, параметры кодирования, версия языка
разметки, исполнители этапов работ)
15. 5. Разметка текста
Метаданные текстов обычно вводятся вручную
Структурная разметка документа (выделение
абзацев, предложений, слов) и собственно
лингвистическая разметка обычно
осуществляются автоматически
16. Технологический процесс создания
корпуса
6. Корректировка результатов автоматической
разметки:
исправление ошибок
снятие неоднозначности (вручную или
полуавтоматически)
17. Технологический процесс создания
корпуса
7. Конвертирование размеченных текстов в
структуру специализированной лингвистической
информационно-поисковой системы (corpus
manager), обеспечивающей быстрый
многоаспектный поиск и статистическую
обработку (заключительный этап)
18. 8. Обеспечение доступа к корпусу
Корпус может быть доступен
в пределах компьютерного класса
на компакт-диске
в режиме глобальной сети
Различным категориям пользователей могут
предоставляться разные права и разные
возможности
19. 9. Создание документационного
обеспечения
описание различных аспектов создания и
использования корпуса
в частности, приводятся сведения о разметке,
позволяющие искать по метаданным, язык
запросов корпус-менеджера и т.д.