Im Rahmen der Tasks T2.2 und T2.4 im Projekt transpAIrent.energy wurde eine Open-Source-Datenpipeline zur Erfassung, Vorverarbeitung und Qualitätsprüfung von Energiesystemdaten entwickelt. Die Pipeline bezieht kontinuierlich Daten von öffentlichen APIs, überführt diese in eine standardisierte bitemporale Datenbank und wendet automatisierte Qualitätsvalidierung an. Alle Komponenten - Quellcode, Pipeline-Konfigurationen und Datenqualitätsergebnisse - sind unter einer permissiven Lizenz veröffentlicht.
Die Datenpipeline ist in drei unabhängig deploybare Komponenten aufgeteilt, die gemeinsam den gesamten Weg von rohen API-Antworten bis zu qualitätsgesicherten, analysefertigen Zeitreihen abdecken. Daten werden nach einem festen Zeitplan abgerufen, als unveränderliche Event-Logs gespeichert, gegen physikalische und kontextuelle Grenzen validiert und schließlich mithilfe von Dagster als Pipeline-Orchestrator in eine bitemporale Historie konsolidiert. Ein webbasiertes Dashboard stellt Qualitätsmetriken und Datenherkunft dar, um Transparenz und Reproduzierbarkeit zu gewährleisten.
Historian#
Verwaltet die kontinuierliche Abfrage von Eingangsdaten aus energierelevanten APIs (APG, ENTSO-E, electricitymaps, UBIMET). Geplante Jobs rufen Daten ab und speichern sie in einer PostgreSQL-Datenbank, die nachgelagerte ML/AI-Aufgaben und IESopt.jl-Optimierungen speist.
Online verfügbar unter: github.com/transpAIrent-energy/historian
Auditor#
Webbasiertes Frontend und Backend zur Visualisierung der Datenqualität auf Basis der bitemporalen Librarian-Datenbank. Bietet eine Oberfläche zur Überprüfung und Überwachung der Integrität erfasster Energiedaten.
Online verfügbar unter: github.com/transpAIrent-energy/auditor
Librarian#
Verwaltet die Datenqualität der vom Historian gesammelten Datensätze. Führt Qualitätsprüfungen auf abgerufenen Daten durch und pflegt eine bitemporale Datenbank-Pipeline (Fact → History) unter Verwendung von Dagster zur Orchestrierung.
Online verfügbar unter: github.com/transpAIrent-energy/librarian