Les logiciels ETL : un monde de clones ?

Data & Co

Les bases de données décisionnelles (InfocentreDatawarehouseDatamart, …) sont le plus souvent alimentées grâce à un logiciel de la famille des ETL (Extraction, Transformation, Load). Ces outils proposent donc des fonctionnalités globalement équivalentes, mais se différencient sur certains points. Nous vous proposons un tour d’horizon de 3 d’entre eux : IBM DataStageInformatica PowerCenter et Talend Open Studio.

Architecture retenue

DataStage est intégré dans la suite IBM Infosphere Information Server, qui utilise une architecture centralisant les fonctionnalités telles que la gestion des comptes et des droits, la génération des documentations, … Il comprend un serveur dédié pour l’exécution des traitements et des postes de développement avec des logiciels de type client lourd, donc installés sur le poste.

PowerCenter est une solution propriétaire entièrement autonome, proposée par un éditeur spécialiste du traitement de la donnée. Il comporte également un serveur dédié et des postes client lourd.

Pour sa part, Talend Open Studio est ouvert, car conçu avec l’environnement Open Source Eclipse. Il peut fonctionner sans déploiement d’un serveur, le poste de développement de type client lourd pouvant prendre en charge l’exécution des traitements dès lors que ceux-ci ne nécessitent pas trop de ressources.

Un serveur devient nécessaire pour les volumes importants de données, les traitements complexes, ainsi que pour la gestion de plusieurs comptes de développeurs avec les droits de chacun.

Interface de développement

Le développeur PowerCenter parcourt 4 modules : Repository Manager pour gérer les métadonnées, Designer pour créer les sources, les cibles et les mappings, Workflow Manager pour créer et exécuter les flux, Workflow Supervisor pour superviser les flux.

Talend Open Studio ne comprend qu’un seul module qui donne accès à l’ensemble des phases de développement. De plus, les perspectives Eclipse permettent de disposer, au sein de ce module, de différents environnements de travail, selon que l’on souhaite mettre en œuvre des projets d’intégration de données (ETL), de Meta Data Management (MDM), Data Quality Management, Business Process Management (BPM), …

DataStage se compose de 2 modules : Designer permet de gérer les métadonnées et développer, Director d’exécuter et superviser les traitements.

Composants d’accès aux données

Ces 3 logiciels fournissent une interface graphique permettant de modéliser les traitements au moyen de composants.

Dans tous les cas, l’accès aux données est fonction de la technologie de stockage. Ainsi il y a un composant pour chaque moteur de base de données (Oracle, SQL Server, My Sql, …), ainsi que pour chaque type de fichier (séquentiel, Xml, …).

Informatica PowerCenter et Talend Open Studio différencient le composant qui permet de récupérer des données de celui qui les écrit. Par contre IBM DataStage met à disposition du développeur un seul composant qui joue les 2 rôles.

Composants de traitement des données

Dans ce domaine, ils proposent tous les 3 des fonctionnalités très proches. Ils permettent de transformer tous les types de données, de les dédoublonner, de les filtrer, de réaliser des rapprochements de données provenant de sources différentes, …

Langage de programmation

Malgré le nombre important de composants mis à la disposition des développeurs, chacun de ces logiciels permet de développer occasionnellement avec un langage de programmation.

En raison de son architecture ouverte, Talend Open Studio s’appuie sur le langage Java, tandis que DataStage et PowerCenter ont un langage propriétaire.

En conclusion

Voilà en quelques mots un aperçu des différences ou ressemblances entre ces 3 solutions ETL.

En ce qui concerne les performances, les quelques comparatifs dont j’ai pu avoir connaissance montrent des résultats disparates. Comme dans toutes les familles de logiciels, chacun a des points forts et d’autres points qui sont moins à son avantage.

Si vous participez prochainement à un projet mettant en œuvre l’une de ces technologies, les formations ci-dessous vous permettront d’entrer rapidement dans le vif du sujet :

  • DataStage Server – Développeur
  • DataStage PX – Développeur
  • Informatica PowerCenter – Développeur
  • Talend – Data Integration – Basics
  • Talend – Data Integration -Enterprise

Connect

Chaque semaine dans votre boite mail, un condensé de conseils et de nouvelles entreprises qui recrutent

Le Pont Learning