Data Lake : comment ne pas s’y noyer…

Business Intelligence

Les entreprises collectent de plus en plus de données dans le cadre de leurs initiatives Big Data. Elles transforment pour cela leurs infrastructures de type Business Intelligence intégrant un réservoir de données centralisées appelé DataWharehouse. Pour gérer ces volumes énormes de données, de nouvelles infrastructures sont apparues appelées des Data Lake.

Augmenter le volume de données gérées n’est pas la seule approche possible, il faut également s’intéresser à leur nature et provenance et à la gouvernance globale de ces données pour ne pas se noyer sous la masse. Nous avons consulté un de nos formateurs experts Big Data, David Fala pour nous aider à y voir plus clair.

Le Data Lake comme réponse au volume

Pour chaque entité, se mettre en capacité de tirer de la valeur de chacune de ses données, dit autrement les collecter, les stocker et les analyser. Son approche propre de son patrimoine data doit être reconsidérée. La tendance à l’œuvre consiste en principe à mettre en œuvre une plateforme Big Data afin d’y déployer un Data Lake. Ce que l’on traduit facilement comme un « lac de données » apporte une véritable agilité au système d’information de l’entreprise. En effet, il fournit un espace de stockage et d’analyse global de l’ensemble des données. Celles-ci pourront être brutes ou raffinées, issues de sources internes au SI de l’entreprise ou en provenance du monde extérieur.

Les limites de cette approche

Le principe consiste souvent à extraire la donnée d’une source puis la recopier au sein du Data Lake et la rendre ainsi disponible pour l’analyse ultérieure. Conserver cette vision classique de l’intégration des données est l’erreur souvent constatée sur le terrain. Cette stratégie consistant à ramener l’ensemble des données dans un point unique peut s’avérer contre-productive du fait de l’avènement des très gros volumes de données submergeant le système. Le coût en temps, en traitement, en stockage est tel que la valeur générée peut s’avérer faible. Il faut donc impérativement cadrer l’intégration des sources de données et challenger sa stratégie d’intégration entre applications.

David Fala met en avant l’approche Data Centric qui doit être mise en relation avec les notions d’entreprise étendue et d’Edge Computing.

L’entreprise étendue pour la redéfinition des frontières du S.I.

Les Directions Informatiques sont aujourd’hui dans l’impossibilité de capter et/ou d’intégrer facilement l’ensemble des données au système d’information qui se retrouvent alors « abandonnées ».

Par exemple, les données digitales manipulées dans le cloud et gérées directement par les Directions Marketing, ou encore dans l’industrie, certaines données de production conservées sur site car complexes à récupérer au sein du système d’information sont appelées données grises ou Dark Data.

Le silo de données n’est plus circonscrit dans le DataWarehouse mais déporté « quelque part » à l’intérieur ou à l’extérieur de l’entreprise, il doit cependant rester visible par le métier. Cette notion de silos de données est à ce moment là poussée à son paroxysme.

Une nouvelle notion est née du constat que les Directions Informatiques ne considèrent ou ne valorisent une donnée que si elles peuvent l’identifier, la gérer et la stocker si nécessaire, c’est l’entreprise étendue qui permet de visualiser et d’analyser toutes les données internes de l’entreprise, mais également celles qui sont hors des frontières classiques du système d’information.

Or, même dans le contexte Big Data, stocker l’ensemble des données provenant de toutes les sources n’a pas de sens. Il est alors nécessaire de privilégier une nouvelle approche dans laquelle le système d’information sera virtuellement étendu à l’ensemble des sources internes et externes de l’entreprise. C’est dans cette approche que s’inscrit la logique Data Centric.

Dans ce cas, comment croiser et analyser les données qui ne sont pas stockées localement dans le Data Lake pour en tirer de la valeur ?

Le deuxième étage de la fusée Data Centric : l’Edge Computing

L’idée générale du Edge Computing est simple : valoriser la donnée, là où elle se trouve, sans qu’il soit nécessaire d’en définir une traduction littérale. Avec l’objectif d’éviter des mouvements de données vers le Data Lake qui s’avèrent massifs et coûteux, l’Edge Computing privilégie un traitement de la donnée au plus proche de l’information. Seules les données jugées utiles seront ramenées dans le Data Lake, et par conséquent à moindre coût. Ajoutons que la stratégie Data de l’entreprise définira les critères retenus pour mettre en œuvre ce mécanisme.

Une excellente illustration de cette stratégie sont les nouveaux compteurs intelligents Linky  : ceux-ci ont la possibilité de renvoyer sur le réseau, soit au fil de l’eau la consommation électrique du consommateur, soit un cumul de sa consommation journalière. Cette donnée sera recopiée (y compris les pics de consommation d’énergie) dans le Data Lake de l’opérateur d’énergie.

Les bonnes pratiques…

Pour David Fala, cette approche Data Centric (couplée aux idées d’entreprise étendue ou d’Edge Computing) procure une souplesse sans égal pour l’entité mettant en œuvre une initiative Big Data.

Par son contre-pied aux réflexes confortés par une expérience de 20 ans de décisionnel, le Data Centric, évite bien des écueils grâce à son objectif de valorisation de la donnée. Ainsi, s’il aide à définir les frontières de l’information, on peut considérer qu’il simplifie finalement l’adoption du Big Data en pérennisant et en rationalisant l’usage de notre Data Lake.

Notons toutefois que cette démarche ne doit faire oublier en rien les aspects de bonne gouvernance des données et leur sécurité qui auront naturellement un impact important dans la mise en œuvre de ce type de projet.

Pour aller plus loin

  • Formation Big Data & Analytics – Etat de l’art
  • Formation Big Data – De l’expérimentation à la mise en production
  • Formation – Meilleures pratiques pour lancer une initiative Big Data
  • Formation Big Data – Architecture et technologies
  • Formation – Introduction à NoSQL
  • Formation – Base de données NoSQL avec MONGODB
Le Pont Learning