Análisis del sesgo de género en los modelos NLP
Ikusi/ Ireki
Data
2021-10-08Egilea
Azpillaga Rivera, Javier
Laburpena
Este proyecto explora la existencia del sesgo de género en el ámbito del Procesamiento del Lenguaje Natural o NLP (Natural Language Processing). Se trata de un fenómeno de extrema importancia, dada la importancia exponencialmente creciente del aprendizaje automático dentro de la sociedad, y cómo la extrema dependencia de las técnicas NLP en datos históricos, de probado sesgo, puede contribuir a que el mismo no solo no desaparezca de la sociedad, sino que contribuya a mantenerlo o incluso ampliarlo.
Por un lado se ha hecho una recopilación de diferentes estudios que ya han analizado, medido y mitigado el mencionado sesgo en base a estudios publicados de las técnicas del estado del arte actuales, lo cual ayuda a conocer de primera mano el estado actual. Posteriormente se procede a aplicar de forma práctica una de las formas de medición del sesgo de género en los modelos de lenguaje, en este caso concreto en los BERT (Bidirectional Encoder Representations from Transformers). Esto nos permite conocer cómo
funciona y cómo se aplica esta técnica y, adicionalmente, lo que nos dice sobre el nivel del sesgo de género en una de las herramientas del estado del arte más utilizadas en el ámbito de NLP. Además se ha extendido la técnica a los idiomas castellano y euskera, aparte del inglés originalmente estudiado, y para versiones de BERT tanto monolingües como multilingües.