Was ist ein Data Warehouse?

Data Warehouse – Definition

Ein Data Warehouse ist ein zentralisiertes System zur Speicherung großer Mengen strukturierter Daten aus mehreren Quellen in einem für Analysen und Berichte optimierten Format – nicht für den täglichen Betrieb. Es vereint historische Daten aus der gesamten Organisation, damit Analysten und Entscheidungsträger diese abfragen, Trends erkennen und Berichte erstellen können, ohne die Leistung der geschäftskritischen Systeme zu beeinträchtigen.

Wie unterscheidet sich ein Data Warehouse von einer regulären Datenbank?

Eine Operationaldatenbank (wie die hinter einem E-Commerce-Checkout oder einem ERP-System) ist für schnelle Lese- und Schreibzugriffe auf einzelne Datensätze optimiert: Bestellungen verarbeiten, Lagerbestände aktualisieren, Transaktionen erfassen. Ein Data Warehouse erfüllt eine andere Aufgabe: komplexe Abfragen über Millionen von Datensätzen ausführen, um Fragen wie „Wie hoch waren die Gesamtumsätze nach Region in den letzten drei Jahren?" zu beantworten.

Diese strukturelle Unterscheidung spiegelt diese verschiedenen Anforderungen wider. Operationaldatenbanken sind typischerweise normalisiert: Daten werden auf viele verknüpfte Tabellen verteilt, um Redundanz zu minimieren. Data Warehouses nutzen häufig eine flachere, denormalisierte Struktur (manchmal auch Star- oder Snowflake-Schema genannt), die analytische Abfragen schneller und einfacher macht.

Welche Daten gelangen in ein Data Warehouse?

Daten werden typischerweise aus Operationalsystemen geladen – Vertriebsplattformen, ERPs, CRM-Tools, Logistiksoftware – mithilfe von ETL- oder ELT-Prozessen. Einmal darin gespeichert, werden sie historisch aufbewahrt: Datensätze werden nicht überschrieben, wenn sich etwas ändert; stattdessen werden neue Versionen neben alten hinzugefügt. Dies ermöglicht die Analyse von Veränderungen im Zeitverlauf.

Wie verhält sich ein Data Warehouse zu einem Data Lake?

Ein Data Lake speichert unverarbeitete Rohdaten in ihrem ursprünglichen Format: strukturiert, semi-strukturiert und unstrukturiert (Logs, Bilder, Dokumente). Ein Data Warehouse speichert Daten, die bereits bereinigt, strukturiert und für Analysen modelliert worden sind. Beide werden häufig zusammen eingesetzt: Rohdaten landen im Lake, werden verarbeitet, und die raffinierte Ausgabe wird ins Warehouse für Berichte geladen. Einige moderne Plattformen verschwimmen diese Grenze unter dem Begriff Data Lakehouse.