Les entreprises collectent de plus en plus d’informations. L’un des enjeux majeurs en informatique décisionnelle est le décloisonnement du SI. Les systèmes en silo disparaissent petit à petit. La centralisation des ressources facilite l’accès aux fichiers. ETL et ELT répondent à cette problématique commune. C’est la manière d’y parvenir qui diffère.
Une transformation différente
La différence majeure entre l’ETL et l’ELT réside dans la transformation des données. Dans une méthode ETL, la transformation se fait dans une zone de transit. Le chargement ne se fait qu’après la structuration.
Dans le processus ELT, il n’y a pas de serveur intermédiaire. Les données brutes sont directement chargées dans l’entrepôt cible. La transformation se fait après le chargement.
Quel impact cette différence a-t-elle ?
Le traitement des données effectué au sein d’un data lake ou data warehouse comporte certains avantages. Le délai de livraison vers le nouveau système est réduit. Une fois chargés, seuls les fichiers sélectionnés par les équipes sont transformés. Les données brutes sont conservées. Cela représente un réel avantage pour l’analyse.
La structuration avant chargement permet de standardiser et qualifier les données. Elle comprend le nettoyage, l’enrichissement et la sécurisation des informations. Les équipes sont assurées de travailler avec des fichiers conformes aux règlementations en vigueur. Il n’est pas nécessaire de faire le tri. Les erreurs sont limitées.
Différences de stockage
L’ETL et l’ELT sont des méthodes permettant la centralisation des ressources dans un emplacement unique.
L’ETL stocke les données structurées dans un data warehouse. Le data warehouse permet de classer les ressources selon des critères et des formats définis au préalable.
Un référentiel a l’avantage de contenir des données directement exploitables. Il requiert très peu d’actions de maintenance. Cependant, le délai de livraison des informations est plus long. Le processus ETL n’assure pas le support des data lakes.
L’ELT permet de charger les informations vers un data warehouse. Il dispose également d’un pipeline data lake. Ce dernier est un “lac” où sont stockées l'ensemble les données brutes, structurées et en cours de traitement. Les data scientists peuvent sélectionner les données de leur choix pour les analyser.
Le data lake permet également de stocker une très grande quantité de données. Ce type d’emplacement est idéal pour le traitement du Big Data. L’inconvénient des data lakes est la nécessité de contrôles réguliers de la qualité.
Sécurité et conformité
Les données détenues par les entreprises doivent se soumettre à des règles de sécurité. Les informations sensibles doivent être masquées pendant leur traitement. La sécurisation est une étape cruciale de la gouvernance.
L’ETL assure la sécurisation des échanges tout au long de l’intégration. Les données sensibles sont anonymisées. La gouvernance est assurée dans un serveur transitoire. Les données chargées dans l’entrepôt cible sont fiables, conformes et sécurisées.
Dans un processus ELT, l'absence de gouvernance peut être à l’origine de lacunes de sécurité. Des données non-sécurisées ne sont pas en conformité avec la règlementation en vigueur. Cela peut entrainer de lourdes conséquences financières pour l’entreprise.