Desarrollo de herramientas para la predicción de contactos inter-proteínas.
Fecha
2023-02-28Autor
Lequerica Mateos, Marcos
Metadatos
Mostrar el registro completo del ítemResumen
[ES] DEEPCOV es una red neuronal convolucional capaz de predecir estructuras tridimensionales de
proteínas con un alto valor de precisión, utilizando datos de covarianza de las secuencias peptídicas
fácilmente obtenibles. La red tiene mejores valores de precisión que las técnicas basadas en Análisis
de Emparejamiento Directo demostrando que filtra mejor el ruido evolutivo que tanto afecta a estas
técnicas cuando son utilizadas sobre proteínas con pocos homólogos conocidos.
En este trabajo se pretende, a través de un entrenamiento adaptado de la red convolucional, conseguir
un modelo de DEEPCOV válido para la predicción de estructuras de complejos proteicos.
En primer lugar, se desarrolló una herramienta para la colecta y procesamiento de los datos del
entrenamiento y que trabaja de forma automática. La herramienta fue capaz de generar 2973 archivos
de forma autónoma y es útil para su futuro uso, siendo posible adaptarla con facilidad.
En segundo lugar, la red fue entrenada con los archivos generados por la herramienta, obteniendo unos
valores de precisión de 18’58%, 15’73% y 19’02% en la predicción de top 1, top 5 y top 10 contactos
inter-proteína más cercanos respectivamente. El Valor Predictivo Positivo fue de 40’97%. La baja
precisión de la red podría ser explicada por el relativamente bajo número de datos utilizados y la
generación de ruido extra en el nuevo procedimiento de generación de datos. [EN] DEEPCOV is a convolutional neural network able to predict tridimensional structures of proteins with
high precision values using covariance data of the peptide sequences, which is easily obtainable. The
network has higher precision values than the Direct Coupling Analysis based techniques, proving that
it is better at filtering the evolutive noise. This noise affects the Direct Coupling Analysis techniques
so much when used over proteins with few homologues known.
This project meant to, by an adapted training of the network, achieve a DEEPCOV model valid for the
prediction of protein complexes’ structures. It took a number of steps to harness this.
On first place, a tool for automatic data collection and processing was developed. The tool generated
2973 files for the network’s training autonomously. The tool is also usable in the future since its
behavior is adapted easily.
On second place, the network was trained with the data generated by the tool, obtaining precision
values of 18’58%, 15’73% and 19’02% for the prediction of the top1, top5 and top10 closest intra-protein contacts respectively. The positive predictive value was 40’97%. The low prediction values
could be explained with the small amount of data used for the network training, or the introduction of
some noise generating steps during the data generation.