tfVAE: una librería para el estudio del Variational Auto-Encoder - un caso de uso
Fecha
2023-11-28Autor
Pintado García, Iker
Metadatos
Mostrar el registro completo del ítemResumen
[EN] In recent years, the Artificial Intelligence (AI) has experienced a significant upswing, more particularly in the field of Deep Learning (DL). The Variational Auto-Encoder (VAE) is a deep generative model that maps the features of the input data to a latent prior distribution, and reconstructs data from latent vectors. To map and reconstruct the data, the model uses a encoder and decoder Deep Neural Networks (DNN) respectively, and the latent prior is usually a Gaussian distribution. Although the VAE is a functional generative model, its training method is conflicting because its cost function is composed of two values: the reconstruction error and the Kullback-Leibler (KL) divergence. For this reason, we experimented on this training process and on different variants of the state of the art of the model that propose improvements on this aspect. For the experimentation, a lack of tools to work with the VAE in a simple, agile and flexible way was observed. For this reason, the creation of a library called tfVAE was proposed, which offers an ordered, structured and scalable solution to the given problem. This not only allows the study or experimentation of the model, but also facilitates the implementation of new variants of it. This library unites concepts from Computer Science with the use of neural models, and from Software Engineering, such as the use of an architectural pattern based on Domain Driven Design (DDD). For the experimentation, preliminary experiments were first carried out using the MNIST database, which would serve as a reference point for the rest of the experiments, where the MNIST and Fashion-MNIST databases would be used. The main experiments were carried out with the model architectures of the preliminary experiments and applied to the state-of-the-art models. In this stage of the experimentation, only the generative capability of the models was tested using the Frechet Inception Distance (FID) computed using our own inception models as a metric. It was mainly observed that the FID obtained from a custom model can obtain consistent results, that reducing the magnitude of the KL divergence leads to better generations, and that scaling the latent vectors can lead to better image generation. Idioma: Inglés [EU] Azken urtetan, Adimen Artifizialak gorakada handia izan du, Ikaskuntza Sakonaren arloan, hain zuzen ere. Variational Auto-Encoder-a (VAE) eredu sortzaile sakon bat da, aldez aurretik ezkutuko banaketa batera sarrera datuen ezaugarriak mapatzen dituena, eta datuak ezkutuko bektoreetatik abiatuta berreraikitzen dituena. Datuak mapatzeko eta berreraikitzeko, ereduak erabiltzen ditu kodetzailea eta deskodetzailea Sare Neuronal Sakonak, hurrenez hurren, eta a priori banaketa latentea Gaussiana banaketa da normalean. VAE eredu sortzaile funtzionala den arren, bere entrenamendu-metodoa gatazkatsua da, kostu-funtzioa bi baliok osatzen baitute: berreraikitze-errorea eta Kullback-Leibler (KL) dibergentziak. Horregatik, esperimentatu dugu entrenamendu-prozesu horri buruz, eta ereduaren egoeraren bariante desberdinak esperimentatu nahi izan dira, alderdi horretan hobekuntzak proposatzen dituztenak. Esperimentaziorako, VAErekin modu sinple, azkar eta malguan lan egiteko tresnarik ez zegoela ikusi zen. Horregatik, tfVAE izeneko liburutegia sortzea planteatu zen, emandako arazoari irtenbide ordenatua, egituratua eta eskalagarria emateko. Horrek, ereduaren azterketa edo esperimentazioa ahalbidetzeaz gain, haren bariante berrien inplementazioa ere errazten du. Liburutegi honek Konputazio Zientzien eredu neuronalen eta Software Ingeniaritzaren kontzeptuak batzen ditu, hala nola Domain Driven Design-en oinarritutako arkitektura-patroiaren erabilera. Esperimentaziorako, lehenik eta behin, MNIST datu-basea erabiliz egindako aurretiazko esperimentu batzuk egin ziren, gainerako esperimentuetarako erreferentzia-puntu gisa balioko zutenak, non MNIST eta Fashion-MNIST datu-baseak erabiliko ziren. Esperimentu nagusiak aurretiazko esperimentuen ereduen arkitekturekin egin ziren, artearen egoeraren ereduei aplikatuz. Esperimentazio-etapa honetan, modeloen sortze-gaitasuna soilik egiaztatu zen, Frechet Inception Distance (FID) erabiliz, betiere inception eredu propioen baldintzapean, metrika gisa. Batez ere ikusi zen eredu pertsonalizatu batetik lortutako FIDak emaitza sendoak lor ditzakeela, KL dibergentziaren magnitudea murrizteak sorkuntza hobeak dakartzala, eta ezkutuko bektoreen eskalatzeak irudi-sorkuntza hobea ekar dezakeela. Idioma:Euskera [ES] En los últimos años, la Inteligencia Artificial ha experimentado un importante repunte, más concretamente, en el campo del Aprendizaje Profundo. El Variational Auto-Encoder (VAE) es un modelo generativo profundo que mapea las características de los datos de entrada a una distribución previa latente, y reconstruye los datos a partir de vectores latentes. Para mapear y reconstruir los datos, el modelo utiliza una Red Neuronal Profunda codificadora y otra decodificadora, respectivamente, y la distribución latente a priori suele ser una distribución Gaussiana. A pesar de que el VAE es un modelo generativo funcional, su método de entrenamiento resulta conflictivo debido a que su función de coste se compone de dos valores: el error de reconstrucción y la divergencia Kullback-Leibler (KL). Por esto mismo, se ha experimentado sobre este proceso de entrenamiento y sobe distintas variantes del estado del arte del modelo que proponen mejoras sobre este aspecto. Para la experimentación, se observó una ausencia de herramientas para trabajar con el VAE de una manera simple, agil y flexible. Por ello, se planteó la creación de una librería llamada tfVAE que plantea una solución ordenada, estructurada y escalable al problema dado. Ésta no solo permite el estudio o la experimentación del modelo, sino que también facilita la implementación de nuevas variantes del mismo. Esta librería une conceptos de las Ciencias de la Computación con el uso de modelos neuronales, y de la Ingeniería del Software, como el uso de un patrón de arquitectura basado en Domain Driven Design. Para la experimentación, se realizaron primero unos experimentos preliminares hechos utilizando la base de datos MNIST, y que servirían como punto de referencia para el resto de experimentos, dónde se utilizarían las bases de datos MNIST y Fashion-MNIST. Los experimentos principales se realizaron con las arquitecturas de los modelos de los experimentos preliminares aplicándolas a los modelos del estado del arte. En esta etapa de experimentación se comprobó únicamente la capacidad generativa de los modelos, utilizando el Frechet Inception Distance (FID) utilizando modelos inception propios como métrica. Se observó principalmente que el FID obtenido de un modelo personalizado puede obtener resultados consistentes, que la reducción de magnitud de la divergencia KL lleva a mejores generaciones, y que el escalado de los vectores latentes puede desembocar en una mejor generación de imágenes. Idioma: Español