Reconocimiento de lengua de signos mediante aprendizaje profundo
View/ Open
Date
2025-02-14Author
Durán Arce, Unai
Metadata
Show full item recordAbstract
La comunicación efectiva es esencial en todas las interacciones y para acceder a muchos servicios. Para las personas con discapacidades auditivas, el lenguaje de signos es su principal
medio de comunicación. No obstante, la barrera lingüística entre las lenguas de signos y las lenguas habladas, así como entre las diferentes lenguas de signos, puede dificultar la comunicación fluida entre personas con discapacidad auditiva y personas oyentes, así como entre las propias personas signantes.
Una aplicación para traducir puede desempeñar un papel crucial en la eliminación de esta barrera. Gracias a las tecnologías avanzadas actuales, como el aprendizaje profundo, es posible desarrollar sistemas capaces de reconocer la lengua de signos. Estos modelos pueden aprender patrones complejos en las secuencias de gestos de la lengua de signos y generar traducciones.
En este contexto, el presente proyecto se centra en el desarrollo y entrenamiento de un modelo de clasificación de secuencias basado en transformers. Este modelo se ha entrenado utilizando un conjunto de datos que incluye vídeos de personas realizando un solo signo en lenguaje de signos. De estos vídeos se ha extraído una secuencia de poses, formadas por puntos de interés del cuerpo humano, como la posición de las manos y los brazos, así como la expresión facial.
Para evaluar la eficacia del modelo, se ha utilizado un conjunto de datos de prueba denominado WLASL, que recoge dos mil ejemplos de diferentes poses en lengua de signos americana (ASL). Se ha calculado tanto la precisión del reconocimiento como la precisión top-5 para verificar la capacidad del modelo de clasificar correctamente. Aunque este trabajo no es exhaustivo debido al alcance del TFG, los resultados obtenidos no están lejos de los reportados en la literatura. Komunikazio eraginkorra funtsezkoa da elkarrekintza guztietan. Entzumen-urritasunak dituztenpertsonentzat, zeinu-mintzaira da komunikazio-bide nagusia. Hala ere, zeinu-hizkuntzen eta hizkuntza mintzatuen arteko hizkuntza-oztopoak, bai eta zeinu-hizkuntzen artekoak ere,
zaildu egin dezake entzumen-urritasuna duten pertsonen eta entzuleen arteko komunikazio arina, bai eta zeinu-mintzairaren beraren artekoa ere.
Itzultzeko aplikazio batek berebiziko garrantzia izan dezake hesi hori kentzeko. Gaur egungo teknologia aurreratuei esker, hala nola ikaskuntza sakonari esker, zeinu-hizkuntza ezagutzeko gai diren sistemak garatu daitezke. Eredu horiek eredu konplexuak ikas ditzakete zeinuhizkuntzaren keinuen sekuentzietan, eta itzulpenak sor ditzakete.
Testuinguru horretan,transformers -en oinarritutako sekuentziak sailkatzeko eredu baten garapenean eta entrenamenduan zentratzen da proiektu hau. Eredu hau pertsonen bideoak barne hartzen dituen datu-multzo bat erabiliz entrenatu da, zeinu-hizkuntzan zeinu bakar
bat eginez. Bideo horietatik pose-sekuentzia bat atera da, giza gorputzaren puntu interesgarriez osatuak, hala nola eskuen eta besoen posizioaz eta aurpegi-adierazpenaz.
Ereduaren eraginkortasuna ebaluatzeko, WLASL izeneko datu-multzoa erabili da, Amerikako zeinu-mintzairaren (ASL) bi mila adibide biltzen dituena. Ereduak behar bezala sailkatzeko duen gaitasuna egiaztatzeko, aintzatespenaren zehaztasuna eta top-5 zehaztasuna kalkulatu
dira. Nahiz eta lan hau ez den zehatza GFAren irismena dela eta, lortutako emaitzak ez daude literaturan jasotakoetatik urrun. Effective communication is essential for all interactions and accessing many services. For people with hearing disabilities, sign language is their primary communication tool. However,the language barrier between sign and spoken languages, as well as between different sign languages, can hinder smooth communication between hearing and deaf people and among signers themselves.
A translation application can play a crucial role in eliminating this barrier. Thanks to advanced technologies like deep learning, it is now possible to develop systems capable of recognizing sign language. These models can learn complex patterns in sign language gesture
sequences and generate translations.
In this context, the present project focuses on developing and training a sequence classification model based on transformers. This model has been trained using a dataset that includes videos of people performing individual signs in sign language. From these videos, a
sequence of poses has been extracted, capturing key points of the human body, such as hand and arm positions, as well as facial expressions.
To evaluate the model’s effectiveness, the WLASL test dataset, which includes two thousand examples of different poses in American Sign Language (ASL), has been used. Both recognition accuracy and top-5 accuracy have been calculated to verify the model’s classification
ability. Although this work is not exhaustive due to the project’s scope, the results obtained are comparable to those reported in the literature.