ETL-Definition
ETL (Extract, Transform, Load) ist ein Datenintegrationsprozess, der Daten aus ein oder mehreren Quellsystemen abruft, sie in ein einheitliches und verwertbares Format konvertiert und in ein Zielsystem wie ein Data Warehouse, ein PIM oder eine MDM-Plattform lädt. Es ist eine der am häufigsten verwendeten Methoden zum Verschieben und Konsolidieren von Daten in einer Organisation.
Was passiert in jeder Phase?
- Extract — Daten werden aus Quellsystemen abgerufen, die ERP-Software, Tabellenkalkulation, Lieferantenfeeds, Datenbanken oder APIs von Drittanbietern sein können. Der Extract-Schritt ändert die Daten nicht; er kopiert sie lediglich.
- Transform — die extrahierten Daten werden bereinigt, reformatiert und standardisiert. Dies kann das Umrechnen von Maßeinheiten, das Korrigieren inkonsistenter Werte, das Zusammenführen von Feldern aus verschiedenen Quellen oder das Filtern von Datensätzen, die nicht den Qualitätsregeln entsprechen, beinhalten. Hier findet die meiste Logik statt.
- Load — die transformierten Daten werden in das Zielsystem geschrieben, entweder in großen Mengen (vollständiger Ersatz) oder schrittweise (nur neue oder geänderte Datensätze).
Wann wird ETL verwendet?
ETL wird verwendet, wenn Daten zwischen Systemen verschoben werden müssen, die kein gemeinsames Format oder keine direkte Verbindung haben. Typische Szenarien sind:
- Konsolidieren von Produktdaten mehrerer Lieferanten in einem zentralen PIM
- Verschieben von Transaktionsdaten in ein Data Warehouse für Berichte
- Migration von Datensätzen von einem Legacy-System auf eine neue Plattform
- Synchronisieren von Master Data zwischen einem ERP und einem MDM-System.
Was ist der Unterschied zwischen ETL und ELT?
Bei ETL werden die Daten vor dem Laden transformiert, d. h. die Verarbeitung erfolgt außerhalb des Zielsystems, oft in einem dedizierten Tool. Bei ELT werden die Rohdaten zuerst geladen und dann im Zielsystem mit dessen eigener Verarbeitungsleistung transformiert. Der praktische Unterschied liegt darin, wo die Transformationslogik ausgeführt wird und worauf das Zielsystem verarbeitet.