Un nuevo modelo de aprendizaje automático para predecir el rendimiento de los cultivos utilizando datos ambientales e información genética se puede utilizar para desarrollar variedades de cultivos nuevas y de mayor rendimiento.
por John Lovett, Universidad de Arkansas
Igor Fernandes, estudiante de maestría en estadística y analítica de la Universidad de Arkansas, ingresó a los estudios de agricultura con una formación en ciencia de datos y cierta experiencia en agronomía como asistente de pregrado en Embrapa, la Corporación Brasileña de Investigación Agropecuaria. Con la perspectiva de un forastero y una experiencia de trabajo con datos ambientales a través de uno de sus ex asesores, desarrolló un enfoque novedoso para pronosticar el desempeño de las variedades de cultivos en el campo.
Su interés en el tema condujo a un estudio publicado recientemente en coautoría con su asesor, Sam Fernandes, profesor adjunto de estadística agrícola y genética cuantitativa en la Estación Experimental Agrícola de Arkansas, el brazo de investigación de la División de Agricultura del Sistema Universitario de Arkansas.
El estudio, publicado en la revista Theoretical and Applied Genetics , se titula “Uso del aprendizaje automático para combinar datos genéticos y ambientales para predicciones del rendimiento de grano de maíz en ensayos multiambientales”.
“Igor venía del mundo de la estadística y no tenía conocimientos de genética”, dijo Sam Fernandes. “Por eso, tenía una idea que no era para nada lo que usaríamos en genética, y fue sorprendente que funcionara bien”.
El modelo de Igor Fernandes, que se centró en datos ambientales, lo llevó a un segundo puesto en la competencia internacional Genome to Fields de este año. Entre los coautores del estudio que surgió de la propuesta del concurso se encuentran Caio Vieira, profesor adjunto de mejoramiento de soja de la estación experimental, y Kaio Dias, profesor adjunto del departamento de biología general de la Universidad Federal de Viçosa en Brasil.
Medio ambiente y genética
Si bien el proyecto presentado en el concurso demostró que los datos ambientales por sí solos funcionaron mejor de lo esperado para predecir el rendimiento de los cultivos, los investigadores vieron una oportunidad para desarrollar un estudio integral que comparara el nuevo enfoque con los modelos de predicción establecidos utilizados en el mejoramiento genómico.
El mejoramiento genómico, un proceso de selección de miles de candidatos para ensayos de campo basándose únicamente en el ADN, puede ahorrar el tiempo y los recursos necesarios para desarrollar una nueva variedad de planta, por ejemplo, para que crezca mejor en condiciones de sequía. Una parte importante del mejoramiento genómico implica la predicción genómica para estimar el rendimiento de una planta utilizando su ADN.
“Supongamos que tienes miles de candidatos y obtienes el ADN de todos ellos”, explica Sam Fernandes. “Basándote en el ADN y en la información de ensayos de campo anteriores, puedes determinar cuál será el que dé más rendimiento sin tener que plantarlo en el campo. De esa manera, estás ahorrando recursos. Esto es predicción genómica”.
Añadir información a un modelo sobre cómo interactuaría esa planta con las condiciones ambientales aumenta la precisión de la predicción genómica y se está volviendo más común a medida que se dispone de más datos ambientales de los centros de prueba. La práctica se llama “enviromics”. Aun así, no hay consenso sobre el mejor enfoque de aprendizaje automático para combinar datos ambientales y genéticos.
“Una ventaja de incluir la información ambiental en los modelos es que se puede abordar lo que llamamos interacción genotipo-ambiente”, dijo Sam Fernandes. “Como el ambiente no afecta a todos los individuos de la misma manera, tratamos de tenerlo todo en cuenta, de modo que podamos seleccionar al mejor individuo. Y el mejor individuo puede ser diferente según el lugar y la estación”.
El estudio utilizó los mismos datos sobre parcelas de maíz de la Iniciativa Genomes to Fields que se utilizaron en la competencia, pero los investigadores ajustaron los datos de entrada como genéticos, ambientales o una combinación de ambos de manera “aditiva” y “multiplicativa”. Al incluir datos ambientales y genéticos de una manera “aditiva” más directa, la precisión de la predicción fue mejor que con la manera “multiplicativa” más complicada.
El modelo más simple tardó menos tiempo en procesarse por computadora y la precisión de predicción media mejoró un 7 % con respecto al modelo establecido . El experimento se validó en tres escenarios que se encuentran normalmente en el mejoramiento de plantas.
“Una de las cosas únicas que hizo Igor fue la manera en que procesó los datos ambientales”, dijo Sam Fernandes. “Hay modelos más sofisticados en los que la gente puede introducir todo tipo de información. Pero lo que hizo Igor es una forma simple, pero eficiente, de combinar los datos genéticos y ambientales utilizando ingeniería de características para procesar la información y obtener un resumen de variables que sea más informativo”.
En conjunto, los investigadores afirman que los resultados son prometedores, especialmente teniendo en cuenta el creciente interés en combinar características ambientales y datos genéticos con fines de predicción. Su objetivo inmediato es aplicarlos para aumentar la capacidad de detección de genotipos para ensayos de campo .
Más información: Igor K. Fernandes et al, Uso del aprendizaje automático para combinar datos genéticos y ambientales para predicciones del rendimiento de grano de maíz en ensayos multiambientales, Genética teórica y aplicada (2024). DOI: 10.1007/s00122-024-04687-w