Grandes cantidades de datos («big data») ofrecen un enorme potencial para mejorar la precisión de las predicciones genómicas en el fitomejoramiento.
por el Instituto Leibniz de Genética Vegetal e Investigación de Plantas de Cultivo

Impulsados por los resultados satisfactorios con híbridos de trigo, investigadores del Instituto Leibniz del IPK han extendido este enfoque a las llamadas líneas endogámicas.
Por primera vez, combinaron datos fenotípicos y genotípicos de cuatro programas comerciales de mejoramiento de trigo. Los resultados del estudio se publicaron en la revista Plant Biotechnology Journal .
En los últimos años, los métodos de aprendizaje profundo se han vuelto cada vez más cruciales para la predicción genómica. A diferencia de los métodos convencionales, los enfoques de aprendizaje profundo funcionan con transformaciones flexibles y no lineales de los datos de entrada. El objetivo es reconocer patrones en los datos y vincularlos con características observables como el rendimiento o la altura de la planta.
Los parámetros necesarios para ello se optimizan a partir de amplios datos de entrenamiento. Estos métodos ofrecen ventajas especiales cuando las características de las plantas se ven fuertemente influenciadas por interacciones complejas que no se consideran adecuadamente en los modelos convencionales.
En este contexto, un equipo de investigación del IPK ha asumido el papel de administrador de datos académicos y ha fusionado los datos de cuatro programas de mejoramiento de trigo con datos de ensayos de asociaciones público-privadas anteriores.
«Necesitábamos datos de numerosos genotipos que ya se habían probado en diferentes entornos, es decir, en diferentes lugares», explica el Prof. Dr. Jochen Reif, jefe del departamento de «Investigación Genética» del IPK.
El nuevo conjunto de datos abarcó 12 años de actividad experimental en 168 entornos y formó un conjunto de entrenamiento para predicciones genómicas con hasta 9500 genotipos, incluyendo rendimiento de grano, altura de la planta y fecha de espigado. Un desafío principal fue fusionar los diferentes datos y, en última instancia, hacerlos comparables.
«A pesar de la heterogeneidad de la información fenotípica y genotípica, logramos desmantelar los silos de datos de las empresas y, por lo tanto, obtener datos vinculables mediante una preparación meticulosa, que incluyó la imputación de los SNP faltantes», afirma el Prof. Dr. Reif.
El equipo utilizó estos datos para comparar métodos clásicos de predicción genómica con enfoques de aprendizaje profundo basados en redes neuronales . Con la ayuda de estas redes, fue posible reconocer patrones en datos estructurados.
«Nuestros análisis demostraron que diferentes series de pruebas pueden combinarse con flexibilidad para realizar predicciones genómicas y que la precisión de la predicción mejora continuamente a medida que aumenta el tamaño del conjunto de entrenamiento, al menos hasta unos 4000 genotipos», explica Moritz Lell, primer autor del estudio. Si el conjunto de entrenamiento se amplía aún más, los valores de predicción solo aumentan ligeramente.
«Sin embargo, suponemos que este estancamiento puede superarse si incluimos un número significativamente mayor de entornos en el conjunto de datos», enfatiza el Prof. Dr. Reif. «Esto permitiría aprovechar aún mejor el potencial del big data en la investigación genética».
Más información: Moritz Lell et al., Rompiendo los silos de datos entre empresas para entrenar predicciones genómicas: Un estudio de viabilidad en trigo, Plant Biotechnology Journal (2025). DOI: 10.1111/pbi.70095
