Aprendizaje por refuerzo en Unity para entrenamiento de varios agentes en entornos competitivos
Fecha
2022-10-19Autor
Salas Lavesa, Unai
Metadatos
Mostrar el registro completo del ítemResumen
En este proyecto se estudia el aprendizaje por refuerzo (reinforcement learning, abreviado como RL a lo largo del documento) de forma competitiva entre dos agentes con el fin de observar las interacciones entre ambos, junto con la viabilidad y eficiencia de diferentes algoritmos.
El proyecto está formado por tres fases incrementales a la que se enfrentan los agentes.
La primera fase será una fase simple, diseñada para el desarrollo completo de un
agente base, con todas las características funcionales con las que contará en las
siguientes fases. El agente en esta fase aprenderá a llegar al objetivo en un escenario
simple.
En la segunda fase dos agentes se enfrentan entre ellos en un escenario simple con el
objetivo de llegar antes que el otro agente al objetivo.
En la tercera y última fase se introduce un laberinto generado de forma aleatoria
para que los agentes puedan competir entre ellos como en la segunda fase, pero en
un entorno que no conocen y que en cada ejecución cambia.
Los agentes fueron capaces de obtener unos resultados favorables tras el entrenamiento
para las dos primeras fases, las cuales usaban entornos simples, mostrando incluso com-
portamientos e interacciones entre ellos que no eran esperados. Sin embargo, en la tercera fueron capaces de resolver laberintos de 4x4 celdas pero no pudieron hacer frente a los laberintos de 8x8 celdas.