Uso de tierras de cultivo abandonadas para el secuestro de carbono: un enfoque basado en datos


Esta es una publicación colaborativa de Databricks y MIT. Agradecemos a Cesar Terrer, Profesor Asistente del Departamento de Ingeniería Civil y Ambiental (CEE) del MIT, por sus contribuciones.

El cambio climático tiene un problema de datos. Los proyectos de secuestro de carbono se han mostrado prometedores en la lucha contra patrones climáticos cada vez más extremos. Sin embargo, el uso más eficaz de esta nueva tecnología exige sólidas capacidades de modelado de datos ejecutadas contra datos ambientales complejos. Resolver el cambio climático exige la colaboración entre las partes interesadas académicas, sin fines de lucro, gubernamentales y del sector privado. Con un uso más efectivo de los datos, estos grupos pueden colaborar mejor para poner en práctica de manera más efectiva intervenciones cruciales como el secuestro de carbono.

Él Laboratorio Terrer en el MIT está abordando este problema de datos con la cronobase, un conjunto de datos seleccionados que sirve como fuente clave de información para posibles ubicaciones de secuestro de carbono. Esta publicación de weblog recorrerá la base de datos de cronobase y cómo el equipo de Terrer Lab la usa con el Lago de ladrillos de datos arquitectura para impulsar casos de uso críticos.

El conjunto de datos de la cronobase

El conjunto de datos de la cronobase es una fuente crítica de información sobre el potencial de las tierras de cultivo abandonadas para el secuestro de carbono. El secuestro de carbono es el proceso de capturar, asegurar y almacenar el exceso de dióxido de carbono de la atmósfera, con el objetivo de estabilizar el carbono en forma sólida y disuelta para que no provoque un mayor calentamiento atmosférico. Para el procesamiento pure como el secuestro de carbono del suelo, esto implica la absorción de carbono en el materials orgánico de base sólida.

La creación de una base de datos que reflejaba el potencial de los suelos de tierras de cultivo abandonadas para absorber dióxido de carbono, la cronobase, significaba gestionar datos que estaban dispersos entre cientos de fuentes, lo que requería muchas horas de laboriosa consolidación guide. Esta dispersión impidió el desarrollo de modelos basados ​​en datos que pudieran respaldar los esfuerzos de secuestro. Sin un modelo de datos integrado para la compleja tarea de analizar las iniciativas de secuestro de carbono, corren el riesgo de tener un impacto menor. Podría decirse que la variable más importante en el conjunto de datos de la cronobase es el contenido de carbono del suelo medido en dos puntos diferentes en el tiempo a profundidades específicas. Esto permite calcular cuánto carbono se ha extraído del suelo a partir de la actividad agrícola y la potencial capacidad de secuestro disponible.

El uso remaining del conjunto de datos de la cronobase y su modelo de aprendizaje automático (ML) es ayudar a las partes interesadas a colaborar en la gestión de tierras de cultivo abandonadas para maximizar el potencial de secuestro de carbono. Esto implica no solo tener datos y modelos, sino poder hacerlos accesibles a todas las organizaciones e individuos para desarrollar estrategias de uso de tierras de cultivo para combatir el cambio climático.

Llevando la cronobase a Lakehouse

Junto con Databricks, los investigadores del MIT Terrer Lab llevaron la cronobase a Lakehouse y construyeron un modelo ML para predecir el potencial de secuestro de las tierras de cultivo en América del Norte. Al aprovechar la conexión perfecta con la ingesta de datos, ETL y la creación de modelos, este proyecto sirvió como modelo de cómo se puede usar Lakehouse en la ciencia del clima con datos complejos. Con los problemas patológicos inherentes a los datos climáticos (aislamiento, falta de visibilidad, esquemas incompatibles, formatos de almacenamiento arcaicos y la necesidad de modelos complejos), la arquitectura Lakehouse simplifica y enriquece este flujo de trabajo.

En el camino hacia la construcción y la implementación del modelo, identificaremos varias características de Lakehouse utilizadas para ingerir, catalogar, analizar y compartir los datos.

Paso 1: Subir los datos de Chronobase a Databricks.
Los ladrillos de datos Catálogo de la unidad es una solución de gobernanza unificada para todos los datos y activos de IA, incluidos archivos, tablas, ML y paneles en Lakehouse, disponible en cualquier nube. Crearemos un nuevo esquema para los datos de la cronobase, que nos permitirá administrar el intercambio de datos entre diferentes grupos. Almacenar los datos en Unity Catalog brinda una variedad de beneficios, que van desde un gobierno de acceso declarativo fácil hasta un servicio de intercambio de datos y quizás también enlace Compartir delta.

Primer paso en la ingestión de datos de Chronobase

Paso 2: Rellenar esquema.
Hay algunas formas de ingerir el conjunto de datos de la cronobase. Para nuestros propósitos, simplemente usamos el nuevo Agregar interfaz de usuario de datos. También podríamos transmitir fácilmente datos actualizados según sea necesario, así como mantener nuestra base de datos completamente actualizada en Lakehouse y conectarnos a otras fuentes de datos para enriquecer el conjunto de datos, que es el objetivo de este proyecto en el futuro.

Rellenar esquema

Ingestión de datos de Chronobase

Paso 3: Análisis exploratorio.
Para construir un modelo ML, necesitamos entender los datos subyacentes. Esto se logra fácilmente dentro de la interacción y colaboración de Databricks. Cuadernos, donde podemos leer rápidamente desde nuestra base de datos y usar una API Spark optimizada para realizar un análisis de datos exploratorio inicial. También podríamos haber ejecutado consultas usando base de datos que es una API de almacenamiento de datos más pura.

Esquema de datos subyacentes

Etapa 4: Visualización de los datos de la cronobase.
En la plataforma Databricks, hay muchas formas de representar datos geoespaciales (p. Mosaico, geopandas, and so forth.). Para nuestros propósitos iniciales de prueba de concepto, usamos la biblioteca python de geopandas para visualizar algunos de los datos en América del Norte. Esto nos permitió asegurarnos de que nuestras coordenadas de latitud/longitud fueran las esperadas y tener una concept de la relativa escasez y densidad de las ubicaciones geográficas. En el futuro, estos datos geoespaciales se administrarán con la nueva biblioteca geoespacial, Mosaico, construido sobre Apache Spark. Al trazar los datos en el continente de América del Norte, podemos ver los grupos de donde se recopilaron estos datos. Con la amplia gama de diferentes condiciones ecológicas presentes incluso dentro de unas pocas millas cuadradas, los datos de todo el continente pueden informar varios tipos de entornos ecológicos. Estos datos generalmente provienen de ubicaciones que son regiones agrícolas bien conocidas, pero se pueden extender a cualquier tierra cultivable.

Gráfico inicial de datos en el continente norteamericano

Paso 5: Cree y entrene un modelo de referencia.
Dentro de Databricks, el AutoML La característica nos permite generar rápidamente modelos de referencia y cuadernos. Si es necesario, aquellos con más experiencia en ML pueden acelerar su flujo de trabajo avanzando rápidamente a través de la prueba y error recurring y centrándose en las personalizaciones utilizando su conocimiento del dominio. Para este enfoque inicial, aplicamos AutoML para predecir la tasa de secuestro de carbono con las variables en la cronobase. Esto tomó un camino más científico de datos ciudadanos y pudimos obtener resultados utilizables con un enfoque de código bajo. Nuestro modelo de referencia predijo el crecimiento relativo del carbono en función de la capacidad de carbono de los suelos circundantes, la temperatura y la precipitación media anual, la latitud y la longitud, así como el tiempo que le queda a la tierra para absorber el dióxido de carbono. El mejor modelo elegido por AutoML fue un XGBoost modelo con una validación R2 valor de 0.494. Para los modelos ecológicos, con una gama tan amplia de propiedades no medidas, menor R2 las puntuaciones son comunes.

Salida de AutoML para modelos iniciales

Mejor modelo elegido por AutoML

Paso 6: Creación de nuevos datos para probar.
Con el modelo creado, el siguiente paso fue aplicar el modelo en todo el continente norteamericano para tomar los datos de entrada (temperatura anual, lluvia, latitud, longitud y un tiempo específico) para generar nuevas predicciones. Para comenzar, primero generamos nuevos puntos para analizar a partir de nuestro modelo entrenado utilizando una distribución uniforme de datos sintéticos en América del Norte.

Mapa de América del Norte con distribución uniforme de datos sintéticos

Paso 7: Modelo de inferencia sobre nuevos datos.
Con estos nuevos puntos generados, se completaron los datos de temperatura y lluvia para crear predicciones con estos nuevos valores. Ofertas de ladrillos de datos Flujo de aprendizaje automático administrado para ayudar a administrar el ciclo de vida completo de ML para cualquier dato de báscula. Los resultados, que se muestran aquí, indican que las regiones más cálidas y húmedas alrededor del golfo parecen tener el aumento relativo más fuerte en el secuestro de carbono si se dejan absorber naturalmente y se detienen los procesos agrícolas. Este modelo precise se utiliza para predecir la absorción relativa de carbono. Esto se utiliza para comparar diferentes ubicaciones, donde un entorno rico o pobre en carbono del suelo se puede comparar de manera más equitativa. Vale la pena señalar que para calcular la cantidad de carbono que podría secuestrarse se requerirían mediciones del carbono del suelo en la ubicación de interés. Otro punto importante es tener en cuenta que las regiones que suelen ser ricas en carbono del suelo también suelen ser regiones donde se desarrolla una gran cantidad de agricultura. Con las fuerzas en competencia del crecimiento demográfico/económico y la eliminación de carbono de la atmósfera, se debe tener cuidado al seleccionar áreas para asignar para el secuestro de carbono a través de este método.

Mapa de secuestro de carbono para América del Norte

Incluso con este proceso easy, se puede construir un modelo rápida y fácilmente para tomar este complejo conjunto de datos y comenzar a proporcionar información útil sobre cómo sanar mejor nuestro planeta. Si bien los investigadores de Terrer Lab mejorarán aún más este modelo y los datos que lo respaldan, se ha demostrado que el flujo de trabajo que es posible en Lakehouse acelera el proceso científico para permitir la visualización y el desarrollo de modelos para comprender mejor el problema y las posibles soluciones. Los colaboradores se pueden agregar fácilmente a este entorno según sea necesario o los datos se pueden compartir entre entornos utilizando Delta Sharing.

Potencial de Lakehouse para mejorar las soluciones climáticas

The Lakehouse tiene el potencial de mejorar las soluciones climáticas y de sostenibilidad al sintetizar datos de varias fuentes y ponerlos a disposición de varios grupos de partes interesadas para que los utilicen en el desarrollo de nuevos modelos. Características como el Compartir delta El protocolo presenta una poderosa herramienta para ayudar y mejorar la colaboración de datos entre las partes interesadas. Esto permite la creación de modelos más precisos y completos que pueden proporcionar información valiosa e informar la toma de decisiones, contribuyendo directamente a la lucha contra el cambio climático.

Las personas y las organizaciones pueden participar en este importante trabajo aportando datos al conjunto de datos de la cronobase y utilizando las plataformas Lakehouse y Delta para crear e implementar modelos de aprendizaje automático. Al trabajar juntos, podemos usar datos e IA para ayudar a sanar el clima y abordar uno de los desafíos más apremiantes de nuestro tiempo.

Involucrarse y llamar a la acción

Los datos climáticos generalmente están fragmentados y son heterogéneos, lo que dificulta analizarlos con precisión y hacer predicciones.

Para mejorar las soluciones climáticas y de sostenibilidad, Lakehouse necesita más conjuntos de datos para construir un centro de datos climáticos, lo que permitiría compartir datos utilizando herramientas como Delta Sharing y accediendo con Unity Catalog. Esto permitiría la creación de modelos más precisos y completos.

Las personas y las organizaciones pueden agregar nuevos puntos de datos de fuentes como el Catálogo AWS, NOAAy El Copérnico de la UE. Para participar en este importante trabajo, contribuya con datos a Lakehouse para que todos podamos usar sus herramientas para mejorar nuestro conocimiento colectivo, construir e implementar modelos ML y resolver estos desafíos. Al trabajar juntos, podemos usar datos e inteligencia synthetic para combatir el cambio climático y abordar uno de los desafíos más apremiantes de nuestro tiempo.

Related Articles

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

spot_img

Stay in touch!

Follow our Instagram