Defensa de tesis
Lunes, 06 de Julio de 2026 12:30
Salón de Grados de la ETSII
Título de la tesis: On Data Engineering and Knowledge Graphs - Graph Neural Networks and Antimicrobial Resistance Prediction
Doctorando: Fernando Luis Sola Espinosa
Directores: Inma Hernández Salmerón y Daniel Ayala Hernández
Tutor: David Ruiz Cortés
Resumen:
El rápido crecimiento de los datos estructurados y la creciente adopción del aprendizaje automático han impulsado un notable interés en los grafos de conocimiento como representación de datos flexible y semánticamente rica.Los grafos de conocimiento almacenan información como una red de entidades conectadas mediante relaciones, lo que los hace especialmente adecuados para tareas de completado y predicción. Las redes neuronales de grafos (GNNs) han surgido como una familia de arquitecturas de gran utilidad para la predicción sobre grafos, aunque algunos aspectos clave de su comportamiento siguen siendo opacos: en particular, el papel de los embeddings de nodos en el rendimiento de las GNNs ha recibido comparativamente poca atención, y la evaluación de técnicas de predicción de relaciones adolece de una falta de estandarización que dificulta la reproducibilidad y la comparación justa entre propuestas.
En el ámbito biomédico, la heterogeneidad de los datos de secuencias biológicas en las bases de datos principales supone un cuello de botella fundamental para los flujos de trabajo intensivos en datos. Este reto es especialmente relevante en el contexto de la predicción de resistencia a antimicrobianos (AMR), donde la integración de bases de datos de genes de resistencia con recursos genómicos más amplios, como los grafos de pathway, es un requisito previo para construir modelos más expresivos y con mayor fundamento biológico. La AMR representa una de las amenazas de salud pública más urgentes a nivel mundial, y los enfoques basados en aprendizaje automático sobre datos de secuenciación de genoma completo ofrecen un potencial considerable como alternativa más rápida a los métodos tradicionales de evaluación de susceptibilidad.
Esta tesis aborda estos retos interrelacionados mediante un conjunto de contribuciones reproducibles que abarcan la evaluación de grafos de conocimiento, la integración de datos biológicos y la predicción de AMR. En primer lugar, llevamos a cabo un estudio sistemático de la combinación de embeddings profundos e independientes del dominio con arquitecturas GNN en múltiples tareas de predicción, demostrando que la elección del embedding influye significativamente en el rendimiento. En segundo lugar, desarrollamos AYNEXT, una suite modular de código abierto que estandariza la evaluación de técnicas de predicción de enlaces. En tercer lugar, construimos la suite gin, compuesta por ginmappeR y Gintegrator, dos herramientas complementarias que ofrecen traducción de identificadores unificada y en tiempo real entre las principales bases de datos de secuencias biológicas. Por último, construimos un conjunto de datos multi-especie y multi-antibiótico a gran escala y establecemos una baseline de aprendizaje automático para la predicción de AMR a partir de características genómicas, mostrando que la combinación de anotaciones de genes de resistencia curados con características a escala genómica mejora sustancialmente el rendimiento predictivo, y presentamos resultados preliminares sobre predicción de AMR basada en GNNs mediante grafos de pathway. Estos resultados demuestran que un enfoque riguroso en la representación de los datos y la metodología de evaluación produce mejoras consistentes y cuantificables con respecto a las referencias existentes: la elección del tipo de embedding en la predicción basada en redes de grafos (GNN) influye significativamente en el rendimiento, con reducciones del error superiores al 25% en múltiples tareas; la combinación de anotaciones de todo el genoma con características de genes de resistencia eleva el F1 medio de 0,68 a 0,75; y los experimentos preliminares de resistencia a antibióticos con GNNs y basados en pathways biológicos alcanzan precisiones superiores al 83%. Estas contribuciones se presentan en detalle en las publicaciones que constituyen el núcleo de esta tesis.
Desarrollado por iCagenda