El artículo original "Explainable automatic industrial carbon footprint estimation from bank transaction classification using natural language processing" fue publicado por el Institute of Electrical and Electronics Engineers, el 22 de diciembre de 2022.
Autores:
Jaime González González. IT Group, atlanTTic, TES Universidad de Vigo, España.
Silvia García Méndez. IT Group, atlanTTic, TES Universidad de Vigo, España.
Francisco De Arriba Pérez. IT Group, atlanTTic, TES Universidad de Vigo, España.
Francisco J. González Castaño. IT Group, atlanTTic, TES Universidad de Vigo, España.
Óscar Barba Seara. Coinscrap Finance S.L., Pontevedra, España
La preocupación por el efecto de los gases de efecto invernadero ha motivado el desarrollo de protocolos de certificación para cuantificar la huella de carbono industrial. Estos protocolos son manuales, requieren mucho trabajo y son caros. Todo lo anterior ha llevado a un cambio hacia enfoques automáticos basados en datos para estimar la huella de carbono, incluyendo soluciones de aprendizaje automático.
Introducción a la estimación de huella de carbono
La preocupación por el cambio climático, relacionado con el aumento de las emisiones de gases de efecto invernadero, llevó a 187 países a firmar el Acuerdo de París en 2015. Este acuerdo dejó clara la necesidad de políticas y regulaciones sobre las emisiones de gases de efecto invernadero como el dióxido de carbono (CO2). La llamada huella de carbono puede definirse como la cantidad de gases de efecto invernadero liberada a la atmósfera a lo largo del ciclo de vida de un producto o actividad humana.
Las motivaciones para el cálculo de la huella de carbono son diversas, siendo el cumplimiento de la legislación medioambiental y la certificación de la sostenibilidad industrial (ISO 14064) dos de las razones más relevantes. Otro aliciente relevante es el autocontrol para evitar impuestos medioambientales y atraer financiación de inversores con mentalidad ecológica.
Además, los particulares, especialmente los jóvenes, tienen una preocupación acuciante por los efectos del cambio climático. Por ello, diversas aplicaciones de seguimiento permiten a los usuarios finales estimar y reducir su huella de carbono.
Contribución
Las soluciones de estimación de huella de carbono pueden dividirse en enfoques manuales y automáticos. En este artículo, proponemos una solución automática para la estimación de la huella de carbono industrial basada en un modelo supervisado de clasificación de transacciones bancarias. El conjunto de entrenamiento se etiquetó como clases COICOP .
Partiendo de un modelo de categorización que combina Machine Learning con técnicas de Procesamiento del Lenguaje Natural, la principal contribución de este estudio radica en la propuesta de la explicabilidad automática de las decisiones de estimación de huella de carbono.
Metodología de la estimación de huella de carbono
Preprocesamiento
Las características utilizadas como datos de entrada para la tarea de clasificación se elaboraron a partir de datos textuales de transacciones bancarias. Para ello, el texto se procesó mediante las siguientes técnicas de Natural Language Processing:
· Eliminación de números.
· Reconstrucción de términos.
· Eliminación de símbolos y signos diacríticos.
· Eliminación de stop-words y códigos.
· Lematización del texto.
Módulo de clasificación
Una vez que las descripciones de las transacciones bancarias procesadas contienen en su mayoría términos semánticamente significativos, se realiza la tarea de clasificación . Una vez clasificadas las transacciones, el sistema propuesto obtiene automáticamente su huella de carbono estimada a partir de las fórmulas de los sectores a los que se prevé que pertenecen y del importe de la transacción bancaria.
Evaluación experimental y debate
Conjunto de datos experimentales
El conjunto de datos está compuesto por 25.853 transacciones bancarias emitidas por bancos españoles recopiladas por Coinscrap Finance S.L. Obsérvese que el tamaño de este conjunto de datos es comparable al de nuestro estudio anterior sobre clasificación de transacciones bancarias. Se redujo la muestra utilizando la biblioteca FuzzyWuzzy Python para mantener sólo aquellas entradas suficientemente representativas y distinguibles.
Se descartaron las muestras cuyas descripciones presentaban una similitud superior al 90%. El proceso de muestreo descendente dio como resultado 2.619 arquetipos de transacciones, con una longitud media de 10 palabras/73 caracteres. Las transacciones se dividen en tres categorías principales: automóvil y transporte, gastos de empresa y productos básicos, y varias subcategorías.
Conclusiones de la estimación de huella de carbono
En este estudio se propone una novedosa solución explicable para la estimación automática de la huella de carbono industrial a partir de transacciones bancarias, abordando la falta de metodologías transparentes de explicación de decisiones para este problema.
La explicación es especialmente importante para confiar en el resultado de los procesos automáticos, para que sustituyan a alternativas más costosas, como los análisis de consultoría. De hecho, aunque la explicabilidad automática no se ha abordado en este ámbito, el estudio del estado de la técnica también ha revelado que no existen trabajos previos ni soluciones comerciales para la estimación automática de la estimación de la huella de carbono industrial a partir de transacciones bancarias. La fuente de datos original incluye más de 25.000 transacciones bancarias. Se anotaron para su clasificación utilizando categorías COICOP.
En futuros trabajos, los autores planean ampliar esta investigación a otras lenguas, enriquecer las explicaciones con información empresarial complementaria y estudiar el efecto de las metodologías jerárquicas en la categorización aprovechando las relaciones entre las clases objetivo.
También está previsto avanzar hacia un enfoque semi-supervisado combinando la solución actual con un esquema de reglas, como los propuestos por otros autores. Otra posible línea de investigación es la comparación del enfoque agnóstico del modelo para la explicabilidad con metodologías específicas del modelo.