Accueil   >   Blog   >   Comment devenir green data analyst ?

Comment devenir green data analyst ?

Enjeux

Les data centers utilisent aujourd’hui près de 3 % de la consommation mondiale d’électricité. Ils seraient également responsables de 2 % des émissions totales de gaz à effet de serre, de 15 % de l’empreinte carbone du secteur informatique et de 18 % de la pollution numérique. 

La Data, est souvent brandie comme un des outils les plus efficaces pour protéger l’environnement et ralentir le réchauffement climatique. Mais en réalité, elle participe largement, en parallèle, au problème. Les ingénieurs qui conçoivent les data centers ont mis en place de nombreuses solutions pour en réduire l’empreinte carbone (en réutilisant la chaleur qu’ils produisent, par exemple). Mais qu’en est-il des pratiques quotidiennes des data scientists ?  

Dans cet article, on s’intéresse aux stratégies qui peuvent vous permettre d’adopter une casque de data analyst « green ». Quels sont les réflexes qui peuvent vous permettre de limiter l’impact de votre activité sur l’environnement ? Zoom sur une petite révolution verte dans le secteur de la donnée. 

Green data analyst : un code plus vert   

Utiliser les énergies renouvelables

De nombreuses initiatives de développement durable dans le secteur de la donnée se fondent sur l’utilisation d’énergies renouvelables. Ces dernières permettent notamment de refroidir ou d’optimiser les systèmes de refroidissement, réduisant ainsi la consommation énergétique des data centers 

Mais une pratique plus verte de l’analyse des données ne se limite pas à l’infrastructure des centres eux-mêmes. Les solutions logicielles qu’utilisent les data analystes ont aussi un rôle à jouer. Il est même significatif sur la quantité d’électricité consommée pour l’analyse de gros volume de données.  

Sur la base des recherches actuelles, un grand modèle d’apprentissage automatique (machine learning ou ML), tel que Meena, consomme la même quantité d’énergie qu’une voiture ayant parcouru 150,000 kilomètres !  

On voit donc bien l’intérêt de se concentrer sur le développement d’un code plus efficace et plus vert… La Green Software Foundation (GSF), dans laquelle on retrouve des entreprises telles que VMware, Microsoft, Accenture et GitHub, a par exemple pour mission de concevoir une architecture et un code logiciel consommant moins d’énergie.  

Vers un apprentissage automatique plus durable  

La gestion de vos ressources informatiques

De nombreuses ressources existent aujourd’hui pour aider les développeurs à concevoir des algorithmes plus écologiques. Néanmoins, on peut dégager quelques bonnes pratiques de base.   

Une première façon de réduire vos ressources informatiques (et donc votre empreinte) est de minimiser le nombre d’expériences d’apprentissage nécessaires pour analyser vos données. Il existe aujourd’hui des centaines de modèles de machine learning qui sont pré-entraînés.  

Les développeurs n’ont ainsi qu’à apporter leurs propres données pour infuser les capacités de l’intelligence artificielle dans leur application. Cela réduit considérablement le temps nécessaire pour développer des modèles pertinents. Et abaisse donc logiquement l’énergie consommée, donnant un côté plus green à la data ! 

Mesurer son empreinte carbone

Un autre réflexe important est de garder une bonne visibilité sur l’empreinte carbone de son algorithme de machine learning. Cette visibilité permet de prendre les bonnes décisions sur la meilleure façon d’optimiser ses performances. De nombreux chercheurs ont d’ailleurs développé des outils spécifiquement conçus à cette fin.  

On pense par exemple à Green Algorithm qui permet de mesurer l’empreinte carbone de son cloud computing. Mais vous pouvez aussi vous tourner vers CodeCarbon, un prologiciel compatible avec Python. Ce dernier permet d’estimer la quantité de CO2 produite par vos ressources informatiques et utilisée pour exécuter votre code d’analyse.  

L’automatisation pour devenir un green data analyst   

L’automatisation peut également être un très bon levier pour vous imposer comme un green data analyst. Elle est en effet utile pour réduire le temps d’exécution de la formation de modèles d’analyse des données. Vous pouvez ainsi minimiser le nombre d’expériences ou de volumes de données à analyser. Le tout, en maintenant un niveau de précision dans vos prédictions ultra élevées !   

Le logiciel utilisé pour effectuer les calculs peut également contribuer à réduire la quantité de ressources informatiques nécessaires pour analyser vos données. Certaines bases de données sont par exemple spécialement conçues pour traiter des quantités massives de données et optimiser l’utilisation de la mémoire et du stockage. Tous ces éléments permettront de réduire votre consommation d’énergie.  

Ces bases de données offrent également l’avantage de ne pas vous contraindre à limiter la quantité de data que vous analysez. Vous alliez ainsi une pratique green de la data analyse tout en garantissant la précision de vos modèles. Qualité, et quantité ! 

Virtualiser vos serveurs  

Des serveurs physiques aux machines virtuelles

Pour finir, virtualiser vos serveurs peut être un bon pas vers un statut de green data analyst. La virtualisation des serveurs implique toujours d’utiliser des serveurs physiques comme pools de capacité de calcul logique. Mais ils sont alors divisés en plusieurs machines virtuelles, facilitant les opérations de plusieurs systèmes et applications.  

C’est l’un des moyens les plus efficaces d’optimiser l’utilisation de vos serveurs de données, de consolider l’espace et l’équipement utilisés. Et donc, finalement, de réduire votre consommation d’énergie. Vous réduisez en effet le nombre de serveurs physiques nécessaires à votre activité ! Pour cela, votre consommation d’énergie diminue considérablement car vos besoins en électricité et en refroidissement des serveurs sont eux aussi réduits.

Les avantages de virtualisation des serveurs

La virtualisation est extrêmement utile, car les serveurs inactifs (également appelés serveurs fantômes) utilisent jusqu’à 85 % de leur puissance nominale. Étant donné que jusqu’à 30 % des serveurs d’un centre de données peuvent être inactifs, la possibilité d’accroître l’efficacité de votre analyse de données tout en réduisant votre empreinte carbone via la virtualisation est immense. 

Sans compter que cette solution vient également avec de nombreux avantages technologiques. La virtualisation offre un degré d’évolutivité et de flexibilité sans précédent. De plus, les administrateurs ont moins de ressources physiques  à acheter, installer, configurer et entretenir. Autant d’éléments qui leur permettent d’être disponible, efficace et opérationnel sur des activités à plus forte valeur ajoutée. 

Nous espérons que ces différentes pistes vous ont donné des idées et vous aideront à repenser votre pratique et votre usage de la data ! 

 

Formez-vous dès aujourd’hui aux métiers de la data : 

Ceci devrait vous intéresser

Connect

Pour recevoir nos derniers articles sur la Data et l'Intelligence Artificielle, abonnez vous à Connect, l’email qui fait du bien à vos données.

Le Pont Learning