A medida que la investigación agrícola se integra cada vez más con la tecnología, la agricultura inteligente —un término que abarca herramientas informáticas de investigación que ayudan a los agricultores a abordar mejor problemas como las enfermedades de los cultivos, la sequía y la sostenibilidad— se ha convertido rápidamente en un término omnipresente en los laboratorios agrícolas de todo el país.
por la Universidad de Illinois en Urbana-Champaign
La disponibilidad de recursos de la NCSA como Delta para investigadores, tanto a nivel nacional como en el campus de la Universidad de Illinois en Urbana-Champaign (U. de I.), ha fomentado un semillero de proyectos de investigación de vanguardia en el ámbito agrícola.
Yi-Chia Chang, estudiante de doctorado de la Universidad de Illinois, centra su investigación en el aprendizaje automático (AA) y la teledetección. Su investigación más reciente, publicada en el servidor de preimpresiones arXiv y aceptada para su presentación en la conferencia IEEE IGARSS 2025 , se centra en el mapeo de cultivos.
Imagina que eres agricultor y estás planeando qué cultivar esta temporada. Quizás quieras saber qué cultivo sería más valioso. Si eres responsable de la formulación de políticas, quizá quieras saber si habrá escasez de un cultivo en particular e incentivar a los agricultores a cultivarlo mediante subsidios. Para ello, tendrías que saber qué se está cultivando actualmente para tomar esas decisiones. Ahí es donde entra en juego el mapeo de cultivos.
El mapeo de cultivos utiliza imágenes satelitales para crear un mapa de todos los tipos de cultivos en una región específica. Los mapas de cultivos son herramientas esenciales para monitorear los cultivos y el suministro regional de alimentos, y ayudan a los agricultores a planificar qué cultivos plantar en una temporada de cultivo. Los mapas también pueden contribuir a la agricultura inteligente: las aplicaciones de mapas de cultivos permiten monitorear el crecimiento, las condiciones de precipitación, las predicciones de rendimiento e incluso las enfermedades.
Todas estas herramientas son excelentes para los agricultores, pero también ayudan a mayor escala, ayudando a los legisladores y a las organizaciones a determinar la cantidad y el tipo de alimentos que se producen en una zona determinada. El aprendizaje automático es un componente esencial para mantener actualizados estos mapas de cultivos.
Solo en EE. UU., hay millones de acres de tierras agrícolas para analizar, etiquetar y mapear. No hay suficientes expertos para analizar y actualizar los datos para crear mapas de cultivos actualizados y precisos, por lo que entrenar máquinas para escanear imágenes satelitales y etiquetar cultivos es mucho más eficiente y útil.
Los investigadores han tenido mucho éxito entrenando máquinas para que reconozcan no solo cultivos, sino también muchos otros elementos de la agricultura a partir de imágenes satelitales. Han creado modelos precisos para el mapeo de cultivos en regiones bien estudiadas, como Estados Unidos. Sin embargo, se ha investigado poco sobre el funcionamiento de estos modelos en nuevas áreas geográficas, especialmente en regiones con escasez de datos. Esto genera preocupación por el «sesgo geoespacial», lo que significa que los modelos entrenados con datos de países desarrollados podrían no funcionar bien en regiones menos desarrolladas.
«Nuestra investigación permitirá que los responsables de las políticas y las partes interesadas cuenten con sistemas agrícolas mejor informados para apoyar la seguridad alimentaria mundial», afirma Yi-Chia Chang, de la Universidad de Illinois.
El estudio de Chang, que se inspiró en una investigación relacionada previa de su equipo publicada en las actas de NeurIPS 2023 , analiza cómo funcionan los modelos populares de observación de la Tierra cuando se aplican a nuevas regiones, particularmente en la agricultura, donde las diferencias en las prácticas agrícolas y la disponibilidad desigual de datos dificultan la transferencia de conocimiento entre áreas.
Para ello, Chang eligió cuatro cereales principales (maíz, soja, arroz y trigo) y luego probó tres modelos previamente entrenados ampliamente utilizados y comparó su desempeño con datos que habían visto antes (en distribución) frente a datos de nuevas regiones (fuera de distribución).
Los resultados mostraron que los modelos previamente entrenados con imágenes satelitales como Sentinel-2 (SSL4EO-S12) tuvieron un mejor desempeño que aquellos previamente entrenados con conjuntos de datos de imágenes generales como ImageNet.
«Al armonizar los conjuntos de datos de cultivos en los cinco continentes, descubrimos que los modelos base preentrenados en bandas espectrales completas de Sentinel-2 ofrecen un mejor rendimiento para el mapeo de cultivos», afirmó Chang. «Nuestra investigación también demuestra que el entrenamiento con datos fuera de distribución puede mejorar el rendimiento cuando los datos dentro de la distribución son escasos. A largo plazo, esperamos adquirir conjuntos de datos etiquetados más grandes y equilibrados, ya que estos pueden ayudar a obtener los mejores resultados en el mapeo de cultivos. Me entusiasma ver cómo los modelos base y la transferencia de aprendizaje pueden beneficiar la seguridad alimentaria».
El trabajo de Chang se ha integrado completamente con TorchGeo , una biblioteca de código abierto para aprendizaje automático geoespacial, lo que facilita el desarrollo de futuras investigaciones basadas en sus resultados. De cara al futuro, su equipo planea aprovechar los resultados de este estudio y aplicar su metodología a nuevos modelos de agricultura inteligente.
«Nuestro trabajo futuro se centrará en ampliar los conjuntos de datos sobre tipos de cultivos y desarrollar modelos preentrenados específicos para la agricultura», afirmó Chang. «También estableceremos puntos de referencia para las aplicaciones agrícolas de los modelos básicos, como el mapeo de tipos de cultivos y la predicción del rendimiento de los cultivos, acortando la distancia entre la GeoAI y las soluciones de seguridad alimentaria».
El trabajo de Chang requirió enormes cantidades de almacenamiento y potencia de procesamiento. Las GPU eran necesarias para que el aspecto de aprendizaje automático del proyecto se completara a tiempo, pero también se necesitaba mucho espacio para todas esas imágenes satelitales.
Los recursos de HPC aceleran significativamente los flujos de trabajo de aprendizaje automático mediante GPU, reduciendo el tiempo de entrenamiento de modelos de horas en CPU a minutos en GPU. Además, la gran asignación de almacenamiento de datos nos permite gestionar eficientemente los conjuntos de datos de entrenamiento, las ponderaciones preentrenadas y los resultados del modelo en el clúster, afirma Chang.
Chang tiene experiencia en el uso de la computación de investigación. Antes de este proyecto, utilizó el clúster del campus, alojado por un grupo de investigación dirigido por Arindam Banerjee, profesor de informática en la Universidad de Illinois. A pesar de su experiencia previa con la computación de alto rendimiento (HPC), Chang se complace en informar que migrar su proyecto a Delta fue relativamente sencillo.
Mi experiencia con Delta ha sido fluida y fácil de usar. El personal administrativo fue muy atento y aprobó el intercambio de tokens por horas de GPU y asignaciones de almacenamiento en cuestión de días. El personal técnico ayudó eficientemente con la resolución de problemas. Quiero agradecer especialmente a Brett Bode por ayudarme a asignar más de 50 TB de almacenamiento para imágenes satelitales .
Más información: Yi-Chia Chang et al., Sobre la generalización de los modelos de base para el mapeo de tipos de cultivos, arXiv (2024). DOI: 10.48550/arxiv.2409.09451
