How does machine translation affect language? Analyzing the effect of machine translation on translated texts
Date
2023-06-30Author
Sarajlic, Jelena
Metadata
Show full item recordAbstract
[EN] This Master Thesis analyses the effect of neural machine translation on the language of
the translation in terms of lexical, morphological, and syntactical diversity or richness.
Four neural machine translation models are trained. Two different corpora of similar
length and domain, one of which was created in this work, are used to train and evaluate
the models, as well as translate text. Two language pairs were used in both directions:
English and Spanish; and English and Croatian. Regarding lexical richness, the majority
of our results indicate a degree of lexical loss in the translations. One metric shows a gain
of lexical diversity in one of the translations. In morphological richness, the results are
not as clear, with most of the metrics showing slight to no loss, or even a gain of richness
in two of the translations. Part of speech distribution analysis, as well as parse
distribution analyses, both seem to confirm claims made by some that neural machine
translation systems increase the frequency of most and decrease the frequency of least
frequent items. [EU] Master-lan honen helburua da aztertzea itzultzaile automatiko neuronalek duten eragina
proposatzen dituzten itzulpenetako hizkuntzan, aniztasun eta aberastasun lexikoari,
morfologikoari eta sintaktikoari dagokionez. Horretarako, lau itzultzaile neuronal
entrenatu dira. Entrenamendua, ebaluazioa eta itzulpen automatikoak egin dira domeinu
eta luzera antzeko bi corpus erabilita (bata bereziki lan honetarako sortua). Bi
hizkuntza-pare landu dira, noranzko bietan: ingelesa eta gaztelania batetik, ingelesa eta
kroaziera bestetik. Aberastasun lexikoari erreparatuta, emaitza gehienek adierazten dute
galera maila bat edo beste. Hala ere, metriketako batek aniztasun lexikoaren gehitzea
gertatu izana erakusten du. Aberastasun morfologikoari buruz emaitzak ez dira argiak,
izan ere, metrika gehienek galera txikia edo galerarik eza adierazten dute, eta, bi kasutan,
aberastasunaren igoera. Kategoria gramatikalen eta sintaxiaren distribuzio-analisiari
begiratuta, gure emaitzak bat datoz ikerlariek aurretiaz egindako baieztapenekin, hau da,
itzultzaile neuronalek maiztasun handiko elementuen agerpenak areagotzen dituzte eta
maiztasun gutxikoenenak mugatu.