ݺߣ

ݺߣShare a Scribd company logo
Лингвистические свойства переводов
методами корпусной лингвистики:
год спустя
Мария Куниловская
Индустрия перевода, ПНИПУ
Пермь, 06 июня 2018
1
Проект поддержан РФФИ (No 17-06-00107)
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Содержание
1 Языковая специфика переводов как основание оценки
Мотивация и цель
Теория и методология
2 Синтаксические признаки студенческих переводов
Research design
Корпусные данные и пространство признаков
Классификация
Результаты
Case studies
3 Другие результаты
4 References
2 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Мотивация и цель
Можно ли формализовать оценку качества перевода?
Область исследований:
эмпирическое изучение переводов, корпусная и
компьютерная лингвистика
Цель проекта:
построить модель признаков переводного текста для
аппроксимации его экспертной оценки
верифицировать описанные в литературе отклонения
переводов от ожидаемой нормы и квантифицировать их
3 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Мотивация и цель
Исходные посылки:
1 эксперт отличает хороший перевод от плохого по
объективным формализуемым признакам
2 текст перевода можно оценить без соотнесения с
оригиналом
3 профессиональные переводы лучше студенческих
Практический результат:
автоматическое ранжирование студенческих (конкурсных)
переводов по интерпретируемым признакам,
согласующееся с экспертной оценкой
4 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Теория и методология
Теория (1): основные критерии качества
1 адекватность (fitness for communicative purpose)
[House, 2001, Nord, 2006]
2 точность (fidelity, semantic accuracy)
3 соответствие языковой норме и узусу (readability)
студенческие переводы отличаются от профессиональных
именно по степени читабельности
(Carl and Buch-Kromann, 2010)
субъективность и нечеткость разграничения этих критериев
[Callison-Burch et al., 2007]
возможность формализации отклонений от нормы
(“переводизмов”)
норма ожидания заказчика/потребителя (Крылов
(04.06.2018): “трудно воспринимать”)
5 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Теория и методология
Теория (1, cont.): подходы к оценке
академические (Латышев 2003, Княжева 2015) и
индустриальные (BLEU, TransCheck, Multidoc, LISA QA)
дескриптивные и прескриптивные
продукт и процесс (ISO 17100:2015)
Переводоведение
“холистические”
параметрические системы
(напр., DipTrans,
[Williams, 2009])
классификации ошибок
(напр., АТА Framework,
MeLLANGE, Бузаджи 2009)
НО: субъективизм,
трудозатраты, неформализуемо
Компьютерная лингвистика
измерение лингв. расстояния
(в МП) до референтного
перевода (BLEU, Meteor see
[Vela et al., 2014])
до сравнимых
непереводных текстов на
ПЯ (норма ожидания, DTS
[Toury, 1995], многомерный
анализ [Biber, 1988])
6 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Теория и методология
Теория (2): корпусное переводоведение и переводизмы
Дескриптивизм: изучение особенностей языка переводов как
подсистемы ПЯ
translationese [Gellerstam, 1986],
third code [Frawley, 1984],
laws of translation [Toury, 1995]
“features which typically occur in translated text rather than original
utterances and which are not the result of interference from specific
linguistic systems” [Baker, 1993]
Тенденции, влияющие на языковой выбор переводчика:
симплификация
эксплиситация
интерференция
нормализация
гипотеза уникальных
единиц
7 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Теория и методология
Количественные исследования переводов: направления
соотнесение закономерностей процесса и результата
[Carl and Buch-Kromann, 2010]
изучение тенденций в переводе
[Laviosa, 1998, Mauranen, 2004, Xiao et al., 2006,
Bernardini, 2007, Hansen-Schirra, 2011]
выявление переводов (translationese detection:
[Baroni and Bernardini, 2006, Ilisei, 2012, Popescu, 2011,
Volansky et al., 2015])
изучение вариативности языка переводов
жанровой [Kruger and van Rooy, 2010, Neumann, 2013],
стилометрия [Rybicki, 2005],
в зависимости от направления [Evert and Neumann, 2017],
квалификации переводчика
[Rabad´an et al., 2009, Rubino et al., 2016, Sutter et al., 2017]
8 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Теория и методология
Общая методика эмпирических исследований
1 формулировка верифицируемой гипотезы и общий дизайн
эксперимента
2 выбор или создание рабочих корпусов (коллекции текстов
в машиночитаемом формате)
3 выработка способов представления данных (разметка?) и
извлечения лингвистической информации
4 статистический и качественный анализ
5 интерпретация полученных результатов с целью их
переработки в знание
9 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Research design
Общие вопросы-1
Известно, что машина лучше чем человек отличает переводы
от не-переводов [Baroni and Bernardini, 2006], используя при
этом малоинформативные признаки (сочетания символов:
’дж’,’ейт’).
Сможет ли она различать хорошие и плохие переводы,
если ей показать, на что смотреть?
Можно ли обучить классификатор на интерпретируемых
признаках (например, синтаксические) и извлечь из
эксперимента знание о синтаксических особенностях
переводов?
11 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Research design
Общие вопросы-2
Как представить текст в виде статистики синтаксических
отношений?
Грамматика зависимостей и приложения для
автоматического синтаксического анализа текста из
проекта Universal Dependences
Где взять корпуса переводов разного качества?
Представим качество как функцию от профессиональной
компетенции (студенты vs. профессионалы), т.е. зададим
классы сравниваемых текстов экстралингвистически!
12 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Research design
Why syntax?
лексические ошибки часто носят локальный характер,
некоммуникативный порядок слов, отсутствие когезии?
неграмматичность препятствуют пониманию смысла
текста;
предполагают, что интерференция на синтаксическом
уровне чаще остается незамеченной переводчиком
[Mauranen, 2004];
чем профессиональные переводчики проводят более
глубокие синтаксические преобразования (Munday, 2013);
синтаксические явления частотнее и более независимы от
темы текста.
13 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Research design
Обобщаем
Итак, задачи
1 построить алгоритм машинного обучения, который,
принимая на вход синтаксическую статистику,
сможет с приемлемой точностью классифицировать
переводы/не-переводы и студентов/профессионалов
2 if successful, определить наиболее значимые для
классификатора синтаксические признаки и провести их
качественный анализ
14 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Данные и признаки
Russian Learner Translator Corpus
Description
> 2,2 млн слов
параллельный множественный корпус,
выровненный на уровне предложений
доступен для скачивания и через
интерфейс поиска https://rus-ltc.org
EN < > RU
10 видов метаданных
11 жанров
переводы студентов ПиП из 15 вузов
России
около 700 текстов размечено по
ошибкам
Нам нужны студенческие
переводы!
15 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Данные и признаки
Корпусные ресурсы (EN > RU)
Тестовые Текстов Слов
Учебный корпус (RusLTC)
Оригиналы 200 223K
Переводы 200 205K
Профессиональный корпус
Оригиналы 200 343K
Переводы 200 321K
Референтный Текстов Слов
НКРЯ (не-переводы) 1,5K 3M
все тексты одного типа: информативный газетный текст
синтаксический анализ UDPipe 1.2
[Straka and Strakov´a, 2017], русс. модель обучена на UD 2.1
SynTagRus treebank [Droganova and Zeman, 2016].
16 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Данные и признаки
Пространство признаков
3 группы, 45 признаков
34 синтаксических
отношения, (напр.,
дополнение,
обстоятельство, предикат),
представленых как средние
по тексту вероятности их
появления в предложении
7 графовых признаков,
отражающих структурную
сложность предложения
4 меры линейной и
иерархической сложности
дерева
17 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Данные и признаки
формат данных: CONLL-U format
Universal Dependency Relations
17 universal PoS tags + morph.features
43 and 39 relations for English and Russian
UDpipe - это программа (алгоримт) для токенизации,
частеречной разметки и синтаксического парсинга текста
Для обучения алгоритма используются уже размеченные
корпусы = трибанки (treebanks).
18 / 41
1962 X 45
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Классификация
Обучение с учителем, задача классификации
ядро классификатора - метод опорных векторов (SVM) со
взвешенными коэффициентами для классов
мера точности классификации: macro F1 на
кросс-валидации (k=10)
сравнение с альтернативными подходами (baseline):
результаты того же классификатора, обученного на
сочетаниях частеречных тегов [Pastor et al., 2008]
ex. ‘SCONJ PROPN VERB’, ‘NOUN NOUN ADJ’.
способ определения наиболее информативных признаков:
дисперсионный анализ корреляции признака с меткой
класса (ANOVA F-value)
20 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Результаты
Результаты 5 экспериментов по сравнению с
альтернативой
Macro-F1 for different feature sets and classification setups
Binary classification 3-class
transl/RNC learner/RNC prof/RNC learner/prof
10 best features
PoS baseline 0.735 0.738 0.658 0.791 0.603
Syntax 0.818 0.796 0.740 0.721 0.635
all features
PoS baseline 0.820 0.820 0.797 0.806 0.707
Syntax 0.866 0.841 0.871 0.703 0.707
Интерпретация: классификация на синтаксических отношениях
не хуже, результаты сравнимы с используемыми подходами
требует в разы меньше вычислительных мощностей
21 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Case studies
Обобщение результатов статистического анализа и
результатов экспериментов
Анализ проводился только для значимых признаков, общих для
классификаций переводы vs. не-переводы и студенты vs.
профессионалы.
Во всех экспериментах в топ-10 одни и те же
синтаксические отношения;
Большинство из них имееют бОльшую вероятность в
переводах;
Задача различения студенческих и профессиональных
переводов - самая сложная
Обнаруженные закономерности:
повышенная сложность синтаксиса = бОльшее число
зависимых клауз и сложных глагольных предикатов:
advcl, acl:relcl, ccopl, xcomp.
использование пассивов = вероятность aux:pass, nsubj:pass
выше. 22 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Case studies
Синтаксическая усложненность (1)
В переводах (особенно студенческих)
больше придаточных: чаще используются advcl, acl:relc;
чаще эксплицитно выражены субъекты (особенно
прономинализированные) nsubj:
Example (more of nsubj)
... человек на улице не думает о ЕС, когда он входит в
торговый центр.
... the man in street not think about EU, when he enters in
shopping center.
(Source: ... the man on the street is not thinking about EU as he
enters a shopping centre.)
чаще эксплицитно выражены подчинительные отношения
mark.
23 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Case studies
Синтаксическая усложненность (2)
Переводы выдает перенос xcomp - сложного
глагольного/модального сказуемого
Example (модальные, каузативные, аспектуальные глаголы)
... пытается заставить их сесть ...
... try to make them sit down ...
... может заставить потерять управление.
... can cause to lose control.
Интерференция
EN > RU ( x 1.4 )
Translations > non-translations ( 1.5 times )
Симплификация
Меньшее лексическое разнообразие:
top 25 heads cover 83% (learners), 77% (prof), 73% (RNC).
24 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Case studies
Форма пассива
Переводы vs. не-переводы
Translations use less passives in general:
down to 15% (learners) and 11% (prof) to the number of
sentences from 18.6% in RNC.
But more of these passives are analytical:
up to 38% (learners) and 35% (prof) from 25% in the RNC.
Example (analytical passives)
... аргумент может быть учтён...
... this argument can be considered ...
эти недостатки были компенсированы за счет...
... these shortcomings were remedied by ...
Были проведены научные исследования, целью которых ...
Was conducted research to find out ... 25 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Case studies
What we have learned
1 Синтасическое представление переводов позволяет
отразить отличия переводов и не-переводов
Наш результат F1 = 86.6% сравним с
Bag-of-words 87.19% [Rubino et al., 2016];
PoS+feat+syntax 86.26% [Laippala et al., 2015];
PoS trigrams on our data 82% after [Pastor et al., 2008].
2 В переводах с английского в предложениях больше клауз,
чем в непереводных русских текстах
3 В переводах чаще встречаются полностью реализованные
структуры (без эллипса), предложения с составным
сказуемым и аналитическими пассивами.
26 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Студенты vs. проф. vs. непереводы (корпусные методы)
Статистические различия по параметрам:
1 Длина предложения
2 Плотность информации (соотношение знаменательных и
служебных слов)
3 Лексическое разнообразие
соотношение словоформ и словоупотреблений (TTR на
леммах)
соотношение высокочастотных и низкочастотных слов
4 Частотности коннекторов и некоторых частей речи
28 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Студенты vs. проф. vs. непереводы (машинное обучение)
Эксперимент по машинной классификации текстов на переводы
и не-переводы по совокупности признаков конца пердложения
местоимение в конце предложения
never heard of him – никогда не слышал о нем
forgot about it – совершенно забыл об этом
нетипичное положение некоторых коннекторов
бонус: классификатор выявляет автоматический перевод,
сданный вечерниками как свой
29 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
Спасибо,
что подумали над моими вопросами:
формализуемо ли языковое качество переводов?
коррелируют ли статистически значимые различия с
воспринимаемым/предполагаемым качеством?
Вопросы?
Мария Куниловская и Ko
mkunilovskaya@gmail.com
Russian Learner Translator Corpus
30 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
References I
Baker, M. (1993). Corpus Linguistics and Translation Studies:
Implications and Applications. In Text and Technology: In honour
of John Sinclair, pages 232–250. J. Benjamins, Amsterdam.
Baroni, M. and Bernardini, S. (2006). A new approach to the
study of translationese: Machine-learning the difference between
original and translated text. Literary and Linguistic Computing,
21(3):259–274.
Bernardini, S. (2007). Collocations in Translated Language :
Combining Parallel , Comparable and Reference Corpora. pages
1–16.
Biber, D. (1988). Variation across speech and writing. page 299.
32 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
References II
Callison-Burch, C., Fordyce, C., Koehn, P., Monz, C., and
Schroeder, J. (2007). (Meta-) Evaluation of Machine
Translation. In Proceedings of the Second Workshop on
Statistical Machine Translation, ACL, pages 136–158.
Carl, M. and Buch-Kromann, M. (2010). Correlating translation
product and translation process data of professional and student
translators. 14 Annual Conference of the European Association
for Machine Translation, Saint-Rapha¨el, France, (May).
Droganova, K. and Zeman, D. (2016). Conversion of SynTagRus
(the Russian dependency treebank) to Universal Dependencies.
Technical report, Institute of Formal and Applied Linguistics
(´UFAL MFF UK) Faculty of Mathematics and Physics, Charles
University.
33 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
References III
Evert, S. and Neumann, S. (2017). The impact of translation
direction on characteristics of translated texts: A multivariate
analysis for english and german. Empirical Translation Studies:
New Methodological and Theoretical Traditions, 300:47.
Frawley, W. (1984). Prolegomenon to a theory of translation.
Translation: Literary, Linguistic & Philosophical Perspectives,
159:175.
Gellerstam, M. (1986). Translationese in Swedish novels
translated from English. Translation studies in Scandinavia.
34 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
References IV
Hansen-Schirra, S. (2011). Between normalization and
shining-through. Specific properties of English-German
translations and their influence on the target language.
Multilingual Discourse Production: Diachronic and . . . , pages
133–162.
House, J. (2001). Translation Quality Assessment: Linguistic
Description versus Social Evaluation. Meta: Journal des
traducteurs, 46(2):243.
Ilisei, I.-n. (2012). A machine learning approach to the
identification of translational language: an inquiry into
translationese. Doctoral thesis, University of Wolverhampton.
35 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
References V
Kruger, H. and van Rooy, B. (2010). The features of non-literary
translated language: a pilot study. The International Symposium
on Using Corpora in Contrastive and Translation Studies,
(2001):1–29.
Laippala, V., Kanerva, J., Missil¨a, A., Pyysalo, S., Salakoski, T.,
and Ginter, F. (2015). Towards the classification of the Finnish
Internet Parsebank: Detecting translations and informality. In
Proceedings of the 20th Nordic Conference of Computational
Linguistics (NODALIDA 2015), pages 107–116. Link¨oping
University Electronic Press, Sweden.
Laviosa, S. (1998). Core Patterns of Lexical Use in a Comparable
Corpus of English Narrative Prose. Meta: Journal des
traducteurs, 43(4):557.
36 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
References VI
Mauranen, A. (2004). Corpora, universals and interference. In
Translation universals: Do they exist, pages 65–82. J. Benjamins,
Amsterdam.
Neumann, S. (2013). LSB2013 conference - Genre- and
Register-related Text and Discourse Features in Multilingual
Corpora 11-12 January 2013 - Institut libre Marie Haps, Brussels
(Belgium) - www.mariehaps.be/lsb2013. (January):11–13.
Nord, C. (2006). Translating as a purposeful activity: a
prospective approach. TEFLIN Journal: A publication on the
teaching and . . . , 17(2):131–143.
37 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
References VII
Pastor, G. C., Mitkov, R., Afzal, N., and Pekar, V. (2008).
Translation universals: do they exist? A corpus-based NLP study
of convergence and simplification. In Proceedings of the 8th
Conference of the Association for Machine Translation in the
Americas (AMTA’08), number October, pages 21–25.
Popescu, M. (2011). Studying Translationese at the Character
Level. Proceedings of the International Conference Recent
Advances in Natural Language Processing 2011,
(September):634–639.
Rabad´an, R., Labrador, B., and Ram´on, N. (2009). Corpus-based
contrastive analysis and translation universals A tool for
translation quality assessment. Babel, 55(4):303–328.
38 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
References VIII
Rubino, R., Lapshinova-Koltunski, E., and Van Genabith, J.
(2016). Information Density and Quality Estimation Features as
Translationese Indicators for Human Translation Classification. In
HLT-NAACL, pages 960–970.
Rybicki, J. (2005). Burrowing into translation: Character
idiolects in henryk sienkiewicz’s trilogy and its two english
translations. Literary and Linguistic Computing, 21(1):91–103.
Straka, M. and Strakov´a, J. (2017). Tokenizing, POS Tagging,
Lemmatizing and Parsing UD 2.0 with UDPipe. In Proceedings
of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw
Text to Universal Dependencies, pages 88–99.
39 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
References IX
Sutter, G. D., Cappelle, B., and Loock, R. (2017). Towards a
corpus-based, statistical approach to translation quality:
Measuring and visualizing linguistic deviance in student
translation. Linguistica Antverpiensia, New Series, pages 25–39.
Toury, G. (1995). Descriptive Translation Studies - and Beyond.
John Benjamins Publishing Company.
Vela, M., Schumann, A.-C., and Wurm, A. (2014). Beyond
Linguistic Equivalence. An Empirical Study of Translation
Evaluation in a Translation Learner Corpus. In Proceedings of
the EACL Workshop on Humans and Computer-assisted
Translation, pages 47 – 56.
40 / 41
Специфика переводов и оценка Синтаксис переводов Другие результаты References
References X
Volansky, V., Ordan, N., and Wintner, S. (2015). On the
features of translationese. Digital Scholarship in the Humanities,
30(1):98–118.
Williams, M. (2009). Translation quality assessment. Mutatis
mutandis, 2(1):3–23.
Xiao, R., He, L., and Ming, Y. (2006). In Pursuit of the Third
Code: Using the ZJU Corpus of Translational Chinese in
Translation Studies. In Xiao, R., editor, Using Corpora in
Contrastive and Translation Studies, pages 182–214. Cambridge
Scholars, Newcastle.
41 / 41

More Related Content

Лингвистические свойства переводов (на материале RusLTC)

  • 1. Лингвистические свойства переводов методами корпусной лингвистики: год спустя Мария Куниловская Индустрия перевода, ПНИПУ Пермь, 06 июня 2018 1 Проект поддержан РФФИ (No 17-06-00107)
  • 2. Специфика переводов и оценка Синтаксис переводов Другие результаты References Содержание 1 Языковая специфика переводов как основание оценки Мотивация и цель Теория и методология 2 Синтаксические признаки студенческих переводов Research design Корпусные данные и пространство признаков Классификация Результаты Case studies 3 Другие результаты 4 References 2 / 41
  • 3. Специфика переводов и оценка Синтаксис переводов Другие результаты References Мотивация и цель Можно ли формализовать оценку качества перевода? Область исследований: эмпирическое изучение переводов, корпусная и компьютерная лингвистика Цель проекта: построить модель признаков переводного текста для аппроксимации его экспертной оценки верифицировать описанные в литературе отклонения переводов от ожидаемой нормы и квантифицировать их 3 / 41
  • 4. Специфика переводов и оценка Синтаксис переводов Другие результаты References Мотивация и цель Исходные посылки: 1 эксперт отличает хороший перевод от плохого по объективным формализуемым признакам 2 текст перевода можно оценить без соотнесения с оригиналом 3 профессиональные переводы лучше студенческих Практический результат: автоматическое ранжирование студенческих (конкурсных) переводов по интерпретируемым признакам, согласующееся с экспертной оценкой 4 / 41
  • 5. Специфика переводов и оценка Синтаксис переводов Другие результаты References Теория и методология Теория (1): основные критерии качества 1 адекватность (fitness for communicative purpose) [House, 2001, Nord, 2006] 2 точность (fidelity, semantic accuracy) 3 соответствие языковой норме и узусу (readability) студенческие переводы отличаются от профессиональных именно по степени читабельности (Carl and Buch-Kromann, 2010) субъективность и нечеткость разграничения этих критериев [Callison-Burch et al., 2007] возможность формализации отклонений от нормы (“переводизмов”) норма ожидания заказчика/потребителя (Крылов (04.06.2018): “трудно воспринимать”) 5 / 41
  • 6. Специфика переводов и оценка Синтаксис переводов Другие результаты References Теория и методология Теория (1, cont.): подходы к оценке академические (Латышев 2003, Княжева 2015) и индустриальные (BLEU, TransCheck, Multidoc, LISA QA) дескриптивные и прескриптивные продукт и процесс (ISO 17100:2015) Переводоведение “холистические” параметрические системы (напр., DipTrans, [Williams, 2009]) классификации ошибок (напр., АТА Framework, MeLLANGE, Бузаджи 2009) НО: субъективизм, трудозатраты, неформализуемо Компьютерная лингвистика измерение лингв. расстояния (в МП) до референтного перевода (BLEU, Meteor see [Vela et al., 2014]) до сравнимых непереводных текстов на ПЯ (норма ожидания, DTS [Toury, 1995], многомерный анализ [Biber, 1988]) 6 / 41
  • 7. Специфика переводов и оценка Синтаксис переводов Другие результаты References Теория и методология Теория (2): корпусное переводоведение и переводизмы Дескриптивизм: изучение особенностей языка переводов как подсистемы ПЯ translationese [Gellerstam, 1986], third code [Frawley, 1984], laws of translation [Toury, 1995] “features which typically occur in translated text rather than original utterances and which are not the result of interference from specific linguistic systems” [Baker, 1993] Тенденции, влияющие на языковой выбор переводчика: симплификация эксплиситация интерференция нормализация гипотеза уникальных единиц 7 / 41
  • 8. Специфика переводов и оценка Синтаксис переводов Другие результаты References Теория и методология Количественные исследования переводов: направления соотнесение закономерностей процесса и результата [Carl and Buch-Kromann, 2010] изучение тенденций в переводе [Laviosa, 1998, Mauranen, 2004, Xiao et al., 2006, Bernardini, 2007, Hansen-Schirra, 2011] выявление переводов (translationese detection: [Baroni and Bernardini, 2006, Ilisei, 2012, Popescu, 2011, Volansky et al., 2015]) изучение вариативности языка переводов жанровой [Kruger and van Rooy, 2010, Neumann, 2013], стилометрия [Rybicki, 2005], в зависимости от направления [Evert and Neumann, 2017], квалификации переводчика [Rabad´an et al., 2009, Rubino et al., 2016, Sutter et al., 2017] 8 / 41
  • 9. Специфика переводов и оценка Синтаксис переводов Другие результаты References Теория и методология Общая методика эмпирических исследований 1 формулировка верифицируемой гипотезы и общий дизайн эксперимента 2 выбор или создание рабочих корпусов (коллекции текстов в машиночитаемом формате) 3 выработка способов представления данных (разметка?) и извлечения лингвистической информации 4 статистический и качественный анализ 5 интерпретация полученных результатов с целью их переработки в знание 9 / 41
  • 10. Специфика переводов и оценка Синтаксис переводов Другие результаты References Research design Общие вопросы-1 Известно, что машина лучше чем человек отличает переводы от не-переводов [Baroni and Bernardini, 2006], используя при этом малоинформативные признаки (сочетания символов: ’дж’,’ейт’). Сможет ли она различать хорошие и плохие переводы, если ей показать, на что смотреть? Можно ли обучить классификатор на интерпретируемых признаках (например, синтаксические) и извлечь из эксперимента знание о синтаксических особенностях переводов? 11 / 41
  • 11. Специфика переводов и оценка Синтаксис переводов Другие результаты References Research design Общие вопросы-2 Как представить текст в виде статистики синтаксических отношений? Грамматика зависимостей и приложения для автоматического синтаксического анализа текста из проекта Universal Dependences Где взять корпуса переводов разного качества? Представим качество как функцию от профессиональной компетенции (студенты vs. профессионалы), т.е. зададим классы сравниваемых текстов экстралингвистически! 12 / 41
  • 12. Специфика переводов и оценка Синтаксис переводов Другие результаты References Research design Why syntax? лексические ошибки часто носят локальный характер, некоммуникативный порядок слов, отсутствие когезии? неграмматичность препятствуют пониманию смысла текста; предполагают, что интерференция на синтаксическом уровне чаще остается незамеченной переводчиком [Mauranen, 2004]; чем профессиональные переводчики проводят более глубокие синтаксические преобразования (Munday, 2013); синтаксические явления частотнее и более независимы от темы текста. 13 / 41
  • 13. Специфика переводов и оценка Синтаксис переводов Другие результаты References Research design Обобщаем Итак, задачи 1 построить алгоритм машинного обучения, который, принимая на вход синтаксическую статистику, сможет с приемлемой точностью классифицировать переводы/не-переводы и студентов/профессионалов 2 if successful, определить наиболее значимые для классификатора синтаксические признаки и провести их качественный анализ 14 / 41
  • 14. Специфика переводов и оценка Синтаксис переводов Другие результаты References Данные и признаки Russian Learner Translator Corpus Description > 2,2 млн слов параллельный множественный корпус, выровненный на уровне предложений доступен для скачивания и через интерфейс поиска https://rus-ltc.org EN < > RU 10 видов метаданных 11 жанров переводы студентов ПиП из 15 вузов России около 700 текстов размечено по ошибкам Нам нужны студенческие переводы! 15 / 41
  • 15. Специфика переводов и оценка Синтаксис переводов Другие результаты References Данные и признаки Корпусные ресурсы (EN > RU) Тестовые Текстов Слов Учебный корпус (RusLTC) Оригиналы 200 223K Переводы 200 205K Профессиональный корпус Оригиналы 200 343K Переводы 200 321K Референтный Текстов Слов НКРЯ (не-переводы) 1,5K 3M все тексты одного типа: информативный газетный текст синтаксический анализ UDPipe 1.2 [Straka and Strakov´a, 2017], русс. модель обучена на UD 2.1 SynTagRus treebank [Droganova and Zeman, 2016]. 16 / 41
  • 16. Специфика переводов и оценка Синтаксис переводов Другие результаты References Данные и признаки Пространство признаков 3 группы, 45 признаков 34 синтаксических отношения, (напр., дополнение, обстоятельство, предикат), представленых как средние по тексту вероятности их появления в предложении 7 графовых признаков, отражающих структурную сложность предложения 4 меры линейной и иерархической сложности дерева 17 / 41
  • 17. Специфика переводов и оценка Синтаксис переводов Другие результаты References Данные и признаки формат данных: CONLL-U format Universal Dependency Relations 17 universal PoS tags + morph.features 43 and 39 relations for English and Russian UDpipe - это программа (алгоримт) для токенизации, частеречной разметки и синтаксического парсинга текста Для обучения алгоритма используются уже размеченные корпусы = трибанки (treebanks). 18 / 41
  • 19. Специфика переводов и оценка Синтаксис переводов Другие результаты References Классификация Обучение с учителем, задача классификации ядро классификатора - метод опорных векторов (SVM) со взвешенными коэффициентами для классов мера точности классификации: macro F1 на кросс-валидации (k=10) сравнение с альтернативными подходами (baseline): результаты того же классификатора, обученного на сочетаниях частеречных тегов [Pastor et al., 2008] ex. ‘SCONJ PROPN VERB’, ‘NOUN NOUN ADJ’. способ определения наиболее информативных признаков: дисперсионный анализ корреляции признака с меткой класса (ANOVA F-value) 20 / 41
  • 20. Специфика переводов и оценка Синтаксис переводов Другие результаты References Результаты Результаты 5 экспериментов по сравнению с альтернативой Macro-F1 for different feature sets and classification setups Binary classification 3-class transl/RNC learner/RNC prof/RNC learner/prof 10 best features PoS baseline 0.735 0.738 0.658 0.791 0.603 Syntax 0.818 0.796 0.740 0.721 0.635 all features PoS baseline 0.820 0.820 0.797 0.806 0.707 Syntax 0.866 0.841 0.871 0.703 0.707 Интерпретация: классификация на синтаксических отношениях не хуже, результаты сравнимы с используемыми подходами требует в разы меньше вычислительных мощностей 21 / 41
  • 21. Специфика переводов и оценка Синтаксис переводов Другие результаты References Case studies Обобщение результатов статистического анализа и результатов экспериментов Анализ проводился только для значимых признаков, общих для классификаций переводы vs. не-переводы и студенты vs. профессионалы. Во всех экспериментах в топ-10 одни и те же синтаксические отношения; Большинство из них имееют бОльшую вероятность в переводах; Задача различения студенческих и профессиональных переводов - самая сложная Обнаруженные закономерности: повышенная сложность синтаксиса = бОльшее число зависимых клауз и сложных глагольных предикатов: advcl, acl:relcl, ccopl, xcomp. использование пассивов = вероятность aux:pass, nsubj:pass выше. 22 / 41
  • 22. Специфика переводов и оценка Синтаксис переводов Другие результаты References Case studies Синтаксическая усложненность (1) В переводах (особенно студенческих) больше придаточных: чаще используются advcl, acl:relc; чаще эксплицитно выражены субъекты (особенно прономинализированные) nsubj: Example (more of nsubj) ... человек на улице не думает о ЕС, когда он входит в торговый центр. ... the man in street not think about EU, when he enters in shopping center. (Source: ... the man on the street is not thinking about EU as he enters a shopping centre.) чаще эксплицитно выражены подчинительные отношения mark. 23 / 41
  • 23. Специфика переводов и оценка Синтаксис переводов Другие результаты References Case studies Синтаксическая усложненность (2) Переводы выдает перенос xcomp - сложного глагольного/модального сказуемого Example (модальные, каузативные, аспектуальные глаголы) ... пытается заставить их сесть ... ... try to make them sit down ... ... может заставить потерять управление. ... can cause to lose control. Интерференция EN > RU ( x 1.4 ) Translations > non-translations ( 1.5 times ) Симплификация Меньшее лексическое разнообразие: top 25 heads cover 83% (learners), 77% (prof), 73% (RNC). 24 / 41
  • 24. Специфика переводов и оценка Синтаксис переводов Другие результаты References Case studies Форма пассива Переводы vs. не-переводы Translations use less passives in general: down to 15% (learners) and 11% (prof) to the number of sentences from 18.6% in RNC. But more of these passives are analytical: up to 38% (learners) and 35% (prof) from 25% in the RNC. Example (analytical passives) ... аргумент может быть учтён... ... this argument can be considered ... эти недостатки были компенсированы за счет... ... these shortcomings were remedied by ... Были проведены научные исследования, целью которых ... Was conducted research to find out ... 25 / 41
  • 25. Специфика переводов и оценка Синтаксис переводов Другие результаты References Case studies What we have learned 1 Синтасическое представление переводов позволяет отразить отличия переводов и не-переводов Наш результат F1 = 86.6% сравним с Bag-of-words 87.19% [Rubino et al., 2016]; PoS+feat+syntax 86.26% [Laippala et al., 2015]; PoS trigrams on our data 82% after [Pastor et al., 2008]. 2 В переводах с английского в предложениях больше клауз, чем в непереводных русских текстах 3 В переводах чаще встречаются полностью реализованные структуры (без эллипса), предложения с составным сказуемым и аналитическими пассивами. 26 / 41
  • 26. Специфика переводов и оценка Синтаксис переводов Другие результаты References Студенты vs. проф. vs. непереводы (корпусные методы) Статистические различия по параметрам: 1 Длина предложения 2 Плотность информации (соотношение знаменательных и служебных слов) 3 Лексическое разнообразие соотношение словоформ и словоупотреблений (TTR на леммах) соотношение высокочастотных и низкочастотных слов 4 Частотности коннекторов и некоторых частей речи 28 / 41
  • 27. Специфика переводов и оценка Синтаксис переводов Другие результаты References Студенты vs. проф. vs. непереводы (машинное обучение) Эксперимент по машинной классификации текстов на переводы и не-переводы по совокупности признаков конца пердложения местоимение в конце предложения never heard of him – никогда не слышал о нем forgot about it – совершенно забыл об этом нетипичное положение некоторых коннекторов бонус: классификатор выявляет автоматический перевод, сданный вечерниками как свой 29 / 41
  • 28. Специфика переводов и оценка Синтаксис переводов Другие результаты References Спасибо, что подумали над моими вопросами: формализуемо ли языковое качество переводов? коррелируют ли статистически значимые различия с воспринимаемым/предполагаемым качеством? Вопросы? Мария Куниловская и Ko mkunilovskaya@gmail.com Russian Learner Translator Corpus 30 / 41
  • 29. Специфика переводов и оценка Синтаксис переводов Другие результаты References References I Baker, M. (1993). Corpus Linguistics and Translation Studies: Implications and Applications. In Text and Technology: In honour of John Sinclair, pages 232–250. J. Benjamins, Amsterdam. Baroni, M. and Bernardini, S. (2006). A new approach to the study of translationese: Machine-learning the difference between original and translated text. Literary and Linguistic Computing, 21(3):259–274. Bernardini, S. (2007). Collocations in Translated Language : Combining Parallel , Comparable and Reference Corpora. pages 1–16. Biber, D. (1988). Variation across speech and writing. page 299. 32 / 41
  • 30. Специфика переводов и оценка Синтаксис переводов Другие результаты References References II Callison-Burch, C., Fordyce, C., Koehn, P., Monz, C., and Schroeder, J. (2007). (Meta-) Evaluation of Machine Translation. In Proceedings of the Second Workshop on Statistical Machine Translation, ACL, pages 136–158. Carl, M. and Buch-Kromann, M. (2010). Correlating translation product and translation process data of professional and student translators. 14 Annual Conference of the European Association for Machine Translation, Saint-Rapha¨el, France, (May). Droganova, K. and Zeman, D. (2016). Conversion of SynTagRus (the Russian dependency treebank) to Universal Dependencies. Technical report, Institute of Formal and Applied Linguistics (´UFAL MFF UK) Faculty of Mathematics and Physics, Charles University. 33 / 41
  • 31. Специфика переводов и оценка Синтаксис переводов Другие результаты References References III Evert, S. and Neumann, S. (2017). The impact of translation direction on characteristics of translated texts: A multivariate analysis for english and german. Empirical Translation Studies: New Methodological and Theoretical Traditions, 300:47. Frawley, W. (1984). Prolegomenon to a theory of translation. Translation: Literary, Linguistic & Philosophical Perspectives, 159:175. Gellerstam, M. (1986). Translationese in Swedish novels translated from English. Translation studies in Scandinavia. 34 / 41
  • 32. Специфика переводов и оценка Синтаксис переводов Другие результаты References References IV Hansen-Schirra, S. (2011). Between normalization and shining-through. Specific properties of English-German translations and their influence on the target language. Multilingual Discourse Production: Diachronic and . . . , pages 133–162. House, J. (2001). Translation Quality Assessment: Linguistic Description versus Social Evaluation. Meta: Journal des traducteurs, 46(2):243. Ilisei, I.-n. (2012). A machine learning approach to the identification of translational language: an inquiry into translationese. Doctoral thesis, University of Wolverhampton. 35 / 41
  • 33. Специфика переводов и оценка Синтаксис переводов Другие результаты References References V Kruger, H. and van Rooy, B. (2010). The features of non-literary translated language: a pilot study. The International Symposium on Using Corpora in Contrastive and Translation Studies, (2001):1–29. Laippala, V., Kanerva, J., Missil¨a, A., Pyysalo, S., Salakoski, T., and Ginter, F. (2015). Towards the classification of the Finnish Internet Parsebank: Detecting translations and informality. In Proceedings of the 20th Nordic Conference of Computational Linguistics (NODALIDA 2015), pages 107–116. Link¨oping University Electronic Press, Sweden. Laviosa, S. (1998). Core Patterns of Lexical Use in a Comparable Corpus of English Narrative Prose. Meta: Journal des traducteurs, 43(4):557. 36 / 41
  • 34. Специфика переводов и оценка Синтаксис переводов Другие результаты References References VI Mauranen, A. (2004). Corpora, universals and interference. In Translation universals: Do they exist, pages 65–82. J. Benjamins, Amsterdam. Neumann, S. (2013). LSB2013 conference - Genre- and Register-related Text and Discourse Features in Multilingual Corpora 11-12 January 2013 - Institut libre Marie Haps, Brussels (Belgium) - www.mariehaps.be/lsb2013. (January):11–13. Nord, C. (2006). Translating as a purposeful activity: a prospective approach. TEFLIN Journal: A publication on the teaching and . . . , 17(2):131–143. 37 / 41
  • 35. Специфика переводов и оценка Синтаксис переводов Другие результаты References References VII Pastor, G. C., Mitkov, R., Afzal, N., and Pekar, V. (2008). Translation universals: do they exist? A corpus-based NLP study of convergence and simplification. In Proceedings of the 8th Conference of the Association for Machine Translation in the Americas (AMTA’08), number October, pages 21–25. Popescu, M. (2011). Studying Translationese at the Character Level. Proceedings of the International Conference Recent Advances in Natural Language Processing 2011, (September):634–639. Rabad´an, R., Labrador, B., and Ram´on, N. (2009). Corpus-based contrastive analysis and translation universals A tool for translation quality assessment. Babel, 55(4):303–328. 38 / 41
  • 36. Специфика переводов и оценка Синтаксис переводов Другие результаты References References VIII Rubino, R., Lapshinova-Koltunski, E., and Van Genabith, J. (2016). Information Density and Quality Estimation Features as Translationese Indicators for Human Translation Classification. In HLT-NAACL, pages 960–970. Rybicki, J. (2005). Burrowing into translation: Character idiolects in henryk sienkiewicz’s trilogy and its two english translations. Literary and Linguistic Computing, 21(1):91–103. Straka, M. and Strakov´a, J. (2017). Tokenizing, POS Tagging, Lemmatizing and Parsing UD 2.0 with UDPipe. In Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 88–99. 39 / 41
  • 37. Специфика переводов и оценка Синтаксис переводов Другие результаты References References IX Sutter, G. D., Cappelle, B., and Loock, R. (2017). Towards a corpus-based, statistical approach to translation quality: Measuring and visualizing linguistic deviance in student translation. Linguistica Antverpiensia, New Series, pages 25–39. Toury, G. (1995). Descriptive Translation Studies - and Beyond. John Benjamins Publishing Company. Vela, M., Schumann, A.-C., and Wurm, A. (2014). Beyond Linguistic Equivalence. An Empirical Study of Translation Evaluation in a Translation Learner Corpus. In Proceedings of the EACL Workshop on Humans and Computer-assisted Translation, pages 47 – 56. 40 / 41
  • 38. Специфика переводов и оценка Синтаксис переводов Другие результаты References References X Volansky, V., Ordan, N., and Wintner, S. (2015). On the features of translationese. Digital Scholarship in the Humanities, 30(1):98–118. Williams, M. (2009). Translation quality assessment. Mutatis mutandis, 2(1):3–23. Xiao, R., He, L., and Ming, Y. (2006). In Pursuit of the Third Code: Using the ZJU Corpus of Translational Chinese in Translation Studies. In Xiao, R., editor, Using Corpora in Contrastive and Translation Studies, pages 182–214. Cambridge Scholars, Newcastle. 41 / 41