Definizione di ELT
ELT (Extract, Load, Transform) è un approccio di integrazione dati in cui i dati vengono prima estratti dai sistemi sorgente e caricati in un sistema di destinazione nella loro forma grezza, per poi essere trasformati all'interno di quel sistema di destinazione. Segue gli stessi tre step dell'ETL, ma in un ordine diverso. La trasformazione avviene dopo il caricamento, non prima.
Come differisce ELT da ETL nella pratica?
La distinzione principale riguarda il luogo in cui avviene la trasformazione. In ETL, uno strato di elaborazione separato pulisce e rimodella i dati prima che raggiungano mai la destinazione. In ELT, è il sistema di destinazione stesso, tipicamente un moderno data warehouse cloud, a gestire la trasformazione utilizzando le proprie risorse di calcolo.
Questo rende ELT particolarmente adatto a piattaforme come BigQuery, Snowflake o Redshift, progettate per elaborare rapidamente volumi di dati molto elevati. Analisti e ingegneri possono scrivere la logica di trasformazione direttamente in SQL, iterarvi sopra e rieseguirla sui dati grezzi già caricati senza re-estrarre dalla sorgente.
Quali sono i compromessi pratici?
ELT consente ai team di caricare i dati rapidamente e decidere successivamente come trasformarli, il che è utile quando i requisiti sono ancora in evoluzione. Preserva inoltre i dati grezzi originali, semplificando il reprocessing se la logica di trasformazione cambia. Il compromesso è che il sistema di destinazione deve essere in grado di gestire il carico di elaborazione, e i dati grezzi sensibili vengono memorizzati nel warehouse prima che vengano applicati filtri o mascheramenti.
ETL, al contrario, offre maggior controllo su quali dati entrano nel sistema di destinazione ed è spesso preferito quando le regole di trasformazione sono ben definite, quando il sistema di destinazione ha capacità di elaborazione limitata, o quando i dati devono essere puliti e validati prima dell'archiviazione per motivi di conformità.
Dove si colloca ELT in un'architettura dati?
ELT è comune nelle pipeline di analytics e reporting, in particolare nelle organizzazioni che utilizzano un Data Warehouse come store analitico centrale. È meno comunemente utilizzato in contesti operativi come le piattaforme MDM o PIM, dove le regole di qualità dei dati devono solitamente essere applicate al punto di ingresso piuttosto che applicate retroattivamente. Per un confronto su come gli ambienti MDM cloud e on-premise gestiscono diversamente l'integrazione dati, consulta Master Data Management Cloud e Soluzioni Master Data Management On-Premise.