PREV

Componentes predictivos

Origen de los datos utilizados

Para entender el origen de los datos, estos fueron solicitados a CONAF, donde nos facilitaron un Excel con los registros de los últimos 10 años de incendios forestales en Chile.

 La información disponible contiene el total de hectáreas quemadas por región, provincias y comunas, además de su latitud, longitud, humedad, temperatura, dirección del viento y velocidad, para así lograr identificar a través de las coordenadas el punto exacto donde ocurrió el incendio. Cabe mencionar que para este proyecto se focalizó a la región del Maule, por otra parte, podemos encontrar la clasificación del tipo de incendio, las cuales son:

 

     Pinos

     Eucaliptos

     Arbolados

     Matorrales

     Pastizales

     Agrícolas

     Desechos 

     Otras plantaciones 

 

Entrenamiento de la neurona artificial.

Conceptos preliminares

En primer lugar, para comprender el documento destacaremos distintos conceptos preliminares que se examinarán dentro de los resultados con relación a los aprendizajes de las redes neuronales:

Modelos Predictivos:

Los modelos predictivos o de regresión pueden ser representada o definida en variables de predicción independientes o dependientes de otras variables, en ellas se representa un modelo lógico- matemático para buscar fines de tomas de decisiones en base de lecturas predictivas de las variables entre sí.

Series temporales: A raíz de la variabilidad de los modelos predictivos podemos definir como ciertos fenómenos afectan la heterogeneidad de las observaciones que dicho sean, ocurren en intervalos fijos de tiempo. 

 

Esto nos lleva a realizar una cantidad de preguntas para la toma de decisiones que ocurren en el momento que se realiza el análisis de series de tiempo, como por ejemplo los pronósticos. ¿cómo hacer pronósticos adecuados estableciendo los parámetros correspondientes de las series de tiempo? Por otro lado, responder a las pruebas de hipótesis, intentando responder a cuáles son los factores que afectan a la evolución de determinados fenómenos, que en este caso es a la variabilidad de la magnitud de la evolución de los incendios forestales en la región del Maule.

 

Coeficiente de determinación

Cuando hablamos de coeficiente de determinación, hablamos también del modelado predictivo que implica la predicción que se debe realizar, en estos casos según la clasificación del modelo no se puede utilizar para evaluar las predicciones realizadas por un modelo de regresión lineal o no.

Este coeficiente de determinación también llamado R cuadrado, puede tener distintas formas de expresar la medida de determinación. La más comúnmente utilizada se expresa en la siguiente ecuación:

 

SSE es la suma de cuadrados de error.

SSR es la suma de cuadrados de regresión.

SST es la suma de cuadrados total.

Varianza de resultados R2.

En donde R se expresa como el cociente entre la varianza de los datos estimados por el modelo y la varianza de los datos observados. Es inconsciente ver que el R cuadrado representa proporción de varianza explicada por el modelo. 

Lo anterior se representa de la siguiente forma: 

R2 * 100 (%)

En cuanto más cerca estemos del 100%, más varianza de la variable dependiente se consigue explicar con el modelo utilizado. 

En el caso de la varianza de logaritmo natural de hectáreas de incendios forestales, funcionará de la siguiente manera.

 

 Por ejemplo, según el cálculo del R cuadrado, es de 0,379 en tipo de incendio de bosques, 0,023 en tipo de incendio plantaciones y por último con un 0,659 en tipo de incendios de pastizales y matorrales. Esto quiere decir que es un modelo cuyas estimaciones se ajustan bastante bien a la variable real. técnicamente estamos hablando de que el coeficiente de determinación explica en un 37,9%, 2,3% y  65,9%  la variable real del logaritmo natural de hectáreas por bosques afectados.

Según lo anteior, veremos que en el tipo de incendios de plantaciones dió un porcentaje muy bajo por promedio de lo normal, esto quiere decir que se deben utilizar otro tipo de métricas para evaluar el desempeño del coeficiente según su resultado de varianza. 

 

 

Corresponde al gráfico de número de semanas por hectáreas quemadas.

Corresponde al gráfico de número de semanas por el logaritmo de hectáreas quemadas.

Pruebas de modelo

 Para ocupar método predictivo se comenzó realizando set de pruebas donde se fueron definiendo distintas variables a utilizar en los modelos elegidos, una de ellas es semana, la cual estaba constituida por el “año – número de semana”, está contemplaba los registros de diez años (2011-2021), la otra variable ocupada fue hectáreas, esta nos muestra la cantidad de hectáreas quemadas.

Una de las pruebas fue sacar el mega incendio que ocurrió durante los periodos finales del 2017 e inicio del 2018, para así poder predecir los datos de mejor manera, ya que, al poseer estos picos tan altos, nos afecta en la predicción de nuestro modelo.

Esto nos llevó a concluir que para una mejor predicción tomaríamos todos los datos disponibles, ya que en el orden de magnitud de las hectáreas se nota una gran diferencia entre uno y otro dato, haciendo esto muy difícil de modelar, es por esto por lo que se aplica el logaritmo de las hectáreas, esto nos permite estabilizar las gran diferencias de magnitudes, como se puede apreciar en los siguientes gráficos:

 

Modelo LSTM

Otra etapa que se realizó fue probar el modelo LSTM con distintos lags(1,2,3,4,5,6) de pruebas, estos hacen referencia a las semanas que se consideran para el entrenamiento de la neurona artificial.

Una vez realizados los experimentos de datos y explicado los pasos para generar el análisis de los datos, se procede a realizar distintas hipótesis obtenidas por los resultados anticipados por cada tipo de incendio forestal.

Para comprender de mejor manera el análisis, generamos unos gráficos de predicción que corresponden a cada dato obtenido por variable de serie de tiempo generado en los datos de orígenes entregados. 

Además, para una mejor predicción de los datos, se tomó la decisión de poder establecer distintos esquemas de tipos de incendios, por ejemplo, la fusión de algunos incendios sumando sus valores de serie como por ejemplo:

       Pinos + Eucaliptus + Arbolado = Bosques.

       agrícolas + otras plantaciones = Plantaciones.

       Pastizales + Matorrales = Pastizales y matorrales. 

 En el eje vertical podemos encontrar la variable de hectáreas, en este caso podemos apreciar que por cada tipo de incendio afecta de manera transversal un promedio de hectáreas afectadas. Sobre la línea horizontal podemos apreciar la cantidad de semanas en los 3 últimos años hasta el primer trimestre del año 2021. 

Corresponde al tipo de incendio “Bosques” realizada por el modelo LSTM con lags de 8 con un horizonte predictivo promedio de 450 parámetros entrenados

Corresponde al tipo de incendio “Plantaciones” realizada por el modelo LSTM con lags de 8 con  un horizonte predictivo promedio de 450 parámetros entrenados. 

Corresponde al tipo de incendio “Pastizales y matorrales” realizada por el modelo LSTM con lags de 8 con  un horizonte predictivo promedio de 450 parámetros entrenados. 

Conclusiones

A partir de los resultados obtenidos podemos observar lo siguiente:

01.

Sumatorias

    En término de las sumatorias de valores proyectados por hectáreas, el modelo de aprendizaje es menos redundante y con valores con más proyecciones que desglosando cada tipo de incendio (valor R2 absoluto cercano a 0).

02.

Variación de proyección

   La variación de proyecciones de magnitud de incendio desciende a partir de las semanas 60 y 80 se mantiene una curvatura promedio de un 0.3% de predicción. Esto se debe a la baja de incendios por temporada. 

03.

Horizonte predictivo

     Si realizamos una comparativa por tipos de incendios desglosados cada uno, por la cantidad de hectáreas quemadas de segregación de superficie quemada, podemos deducir que, según el horizonte predictivo del modelo de aprendizaje automático, los primeros mantienen una curvatura de 3.5 logaritmo de hectáreas predichas por el modelo. Sin embargo, la sumatoria de bosques, pastizales, matorrales y plantaciones nos demuestra que se pueden obtener mejores resultados según el horizonte predictivo subdivididos por 162 semanas en 3 años.