Hizkuntza Anitzeko Erlazio Semantikoen Erauzketa Medikuntzaren Domeinuan
Laburpena
Aro digital honentan datu kopuru handiena textu gordin formatuan aurkitzen da. Datu
horiekin lan egiteko Informazio Erauzketa (IE) bihurtzen da oinarri gaur egungo
aplikazioetan. Hizkuntzaren prozesaketa automatikoko ataza gehientxuenetan gertatu
den bezala ikasketa sakonak artearen egoera ezarri du, baita IEn ere. Jakina da teknika
hauek datu kopuru handiak behar dituztela errendimendu ona lortzeko. Badira hainbat
domeinu eta testuinguru, datu anotatu gutxikoak, zailtasunak dituztenak ikasketa
sakoneko tekniken aurrerapenak modu eraginkorrean erabiltzeko. Anotazio berriak egitea
garestia izaten da orokorrean, batez ere eredu berri hauek behar duten kopuruetara
iristeko. Lan honen helburu nagusia domeinu eta testuinguru hauentzako modu merke
batean ikasketa sakoneko sistemen errendimendua hobetzeko teknikak esploratzea da.
Zehatzago esanda, ezagutza-transferentzia eta datuen-gehikuntza automatikoa
paradigmetan ikertuko dugu helburua lortzeko. Azkenik, teknika hauek baliabide urrikoa
den medikuntzako domeinuko eHealth-KD 2020 ataza-partekatuan aplikatuko eta
ebalutako dira, uneko artearen egoera hobetzeko helburuarekin. In this digital age the greatest amount of data is found in raw text format. Information
Extraction (IE) to work with this data becomes the basis in today's applications. As has
happened in most tasks of automatic language processing, deep learning has established
the state of the art in IE as well. It is well known that these techniques require a large
amount of data to achieve good performance. There are a number of domains and
contexts, with little annotated data, that have di culties making e ective the use of
advances in deep learning techniques. Making new annotations is generally expensive,
especially to reach the numbers needed for these new models. The main goal of this work
is to explore techniques to improve the performance of deep learning systems in a
cost-e ective way for these domains and contexts. More speci cally, we will investigate
transfer-learning and automatic data augmentation paradigms to achieve the goal.
Finally, these techniques will be applied and evaluated in the shared task eHealth-KD
2020 in the low-resource medical domain, with the goal of improving the state of the art.