Análisis del sesgo de género en los modelos NLP

Azpillaga Rivera, Javier

Ver/

Memoria TFG (932.6Kb)

Fecha

2021-10-08

Autor

Azpillaga Rivera, Javier

Metadatos

Mostrar el registro completo del ítem

Estadisticas en RECOLECTA
(LA Referencia)

URI

http://hdl.handle.net/10810/53294

Resumen

Este proyecto explora la existencia del sesgo de género en el ámbito del Procesamiento del Lenguaje Natural o NLP (Natural Language Processing). Se trata de un fenómeno de extrema importancia, dada la importancia exponencialmente creciente del aprendizaje automático dentro de la sociedad, y cómo la extrema dependencia de las técnicas NLP en datos históricos, de probado sesgo, puede contribuir a que el mismo no solo no desaparezca de la sociedad, sino que contribuya a mantenerlo o incluso ampliarlo. Por un lado se ha hecho una recopilación de diferentes estudios que ya han analizado, medido y mitigado el mencionado sesgo en base a estudios publicados de las técnicas del estado del arte actuales, lo cual ayuda a conocer de primera mano el estado actual. Posteriormente se procede a aplicar de forma práctica una de las formas de medición del sesgo de género en los modelos de lenguaje, en este caso concreto en los BERT (Bidirectional Encoder Representations from Transformers). Esto nos permite conocer cómo funciona y cómo se aplica esta técnica y, adicionalmente, lo que nos dice sobre el nivel del sesgo de género en una de las herramientas del estado del arte más utilizadas en el ámbito de NLP. Además se ha extendido la técnica a los idiomas castellano y euskera, aparte del inglés originalmente estudiado, y para versiones de BERT tanto monolingües como multilingües.