Las plantas fósiles revelan la evolución de la vida verde en la Tierra, pero las muestras más abundantes que se encuentran, las hojas fósiles, también son las más difíciles de identificar.
por la Universidad Estatal de Pensilvania
Una gran biblioteca visual de hojas de acceso abierto desarrollada por un equipo dirigido por Penn State proporciona un nuevo recurso para ayudar a los científicos a reconocer y clasificar estas hojas.
“La complejidad de las hojas está fuera de serie, y la terminología que tenemos para describirlas es solo el principio más pequeño de lo que se necesita”, dijo Peter Wilf, profesor de geociencias en Penn State. “Los investigadores necesitan referencias visuales mucho más accesibles para estudiar cuáles son las diferencias entre los muchos grupos de plantas, para que podamos poner más de eso en palabras. Hay muchas familias de plantas que se ven superficialmente similares, y esta colección brinda la oportunidad de ver nuevos patrones”.
Estudiar hojas fósiles y modernas tradicionalmente requiere visitas de investigación a colecciones de museos , lo que requiere financiación, planificación y tiempo para viajar a varios lugares. Más museos están poniendo colecciones de hojas en línea, pero a menudo estas imágenes son de baja resolución, son difíciles de acceder en cantidad, tienen nombres de archivo poco informativos o las hojas están fotografiadas con otras partes de plantas y etiquetas que dificultan las comparaciones rápidas, dijeron los científicos.
Los científicos combinaron imágenes de hojas modernas y fósiles de varias colecciones destacadas, incluidas varias que no estaban previamente en línea en ningún formato, y dedicaron miles de horas a formatear los datos para crear un único conjunto de datos de acceso abierto combinado con nombres de archivo estandarizados y fáciles de buscar y alto -Resolución de imágenes . Informaron en PhytoKeys que el conjunto de datos está disponible en el repositorio de Figshare Plus.
El conjunto de datos contiene 30.252 imágenes, incluidas 26.176 imágenes de hojas limpias y radiografiadas y 4.076 hojas fósiles. Las hojas aclaradas son especímenes que han sido blanqueados químicamente, teñidos y montados en portaobjetos para revelar patrones de venas. Cada imagen representa un espécimen de museo con cupón.
“Lo que hemos hecho aquí es hacer que este recurso educativo masivo esté disponible para todos al examinar y estandarizar todas estas imágenes de diferentes fuentes heredadas”, dijo Wilf. “Nos tomó 15 años hacer eso y convertir todos los nombres de archivo, pero ahora puede tener el paquete completo en su escritorio con un solo clic en el navegador. Cada nombre de archivo tiene la información clave incrustada, en el mismo orden para alfa- clasificación: familia, género, especie y número de espécimen. Los nombres de archivo se pueden buscar rápidamente en segundos para el elemento que le interesa y las imágenes se pueden ver usando herramientas estándar, como la barra de búsqueda de Windows. Todas las imágenes tienen la resolución original; nada es muestreado”.
El conjunto de datos es un recurso potencial no solo para capacitar a los estudiantes sino también para los programas de aprendizaje automático. Alimentar datos de entrenamiento examinados a algoritmos de aprendizaje les permite identificar mejor las hojas y encontrar patrones visuales importantes que los humanos pueden haber pasado por alto o no haber podido ver.
“Para los científicos que estudian temas botánicos, en particular campos como la paleobotánica, estas herramientas pueden usarse de manera más confiable para facilitar y multiplicar el impacto de la experiencia humana”, dijo Jacob Rose, estudiante de doctorado en la Universidad de Brown, quien trabajó en estrecha colaboración con Wilf para crear el conjunto de datos Su asesor, Thomas Serre, profesor de informática en Brown, también contribuyó. “Usar estos modelos como punto de partida para que un experto acepte, rechace o analice más a fondo pronto podría convertirse en un ejemplo profundo del uso de la tecnología para expandir el valor que es posible que produzca un solo científico, así como lo que es posible para como sociedad aprender sobre el mundo natural, tanto en escala como en precisión”.
El aprendizaje automático puede ser especialmente importante para los paleobotánicos, que con mayor frecuencia encuentran hojas fósiles aisladas sin semillas, frutas o flores que podrían ayudar a identificar las plantas. Para complicar aún más el desafío, muchos de los fósiles individuales representan plantas que se han extinguido.
El nuevo conjunto de datos es una opción prometedora para entrenar el aprendizaje automático porque contiene ejemplos de hojas modernas y fósiles examinadas al menos a nivel de familia, una clasificación taxonómica más alta que es el primer objetivo estándar para la identificación de hojas fósiles. La familia Fagaceae, por ejemplo, incluye hayas, castaños y robles.
El conjunto de datos incluye imágenes de las contribuciones de Jack A. Wolfe y Leo J. Hickey a la National Cleared Leaf Collection y la colección Scott Wing X-Ray en el Smithsonian National Museum of National History, Washington, DC, y la Daniel I. Axelrod Cleared Colección de hojas en el Museo de Paleontología de la Universidad de California, Berkeley. También se incluyen imágenes de fósiles de varios sitios en América del Norte y del Sur. La mayor contribución proviene del Monumento Nacional Florissant Fossil Beds en Colorado.
“Esta base de datos pone la información de estas colecciones a disposición de personas de todo el mundo en una forma que es más fácil de buscar que la original y más adecuada para los análisis digitales”, dijo Scott Wing, geólogo investigador y curador de paleobotánica en el Smithsonian. “Creemos que la base de datos fomentará nuevas investigaciones y también abrirá las colecciones del museo a la gente”.