Le data mining : les fondamentaux

Business Intelligence

Data & Co

Le data mining, ou encore exploration de données, mise à la mode par la « business Intelligence » n’est pas une idée nouvelle. Elle consiste à rassembler un grand nombre d’informations (mesures) et à rechercher un modèle descriptif ou prédictif.

Depuis que l’humanité cultive la terre, les agriculteurs ont appris à s’affranchir en partie des contingences climatiques. Et ce, en observant les températures, l’humidité ambiante, l’aspect de la couche nuageuse, par exemple, à des périodes particulières de l’année. Ils ont analysé les données à leur échelle afin de mener les actions adéquates pour leur exploitation. Le Data mining est donc présent depuis toujours, mais quel sont réellement ses fondamentaux ?

Plusieurs idées simples sont à la source des différentes techniques utilisées de nos jours.

  • Si des objets sont bien classés, alors deux d’entre eux placés dans des catégories différentes seront plus éloignés que deux faisant partie de la même catégorie.
  • La meilleure représentation possible d’un objet est celle qui le montrera dans la plus grande variabilité.
  • Lorsque deux phénomènes surviennent de façon consécutive, il est envisageable que l’un soit la conséquence de l’autre.

 

Ces idées se heurtent évidemment à différentes notions qu’il faudra préciser. A noter aussi, que ces notions font encore aujourd’hui l’objet de recherches pour certaines.

  • Quelle est le meilleur critère de mesure de la distance entre deux objets ?
  • Comment peut-on caractériser la quantité d’information contenue dans un système ?
  • Comment faire la part du hasard lorsqu’on étudie une série de mesures ?

 

À la suite des techniques telles que l’analyse de variance mise au point par Fisher au début du XXᵉ siècle, sont apparues plusieurs grandes familles, que l’outil informatique a permis de rendre disponible depuis les années 1970.

Avant l’utilisation des ordinateurs, un statisticien pouvait prendre plusieurs semaines voire plusieurs mois (sans compter le temps passé à vérifier les résultats) pour réaliser un calcul d’AFC « manuel ».

On citera dans le domaine descriptif, par exemple, les analyses factorielles (dont l’analyse factorielle des correspondances du français Jean-Paul Benzecri, permettant de traiter les données qualitatives), mais aussi des méthodes telles que les « nuées dynamiques », pour la classification.

Dans le domaine prédictif, nous trouverons les différentes méthodes de régression classique, ainsi que l’analyse discriminante.

Les progrès en intelligence artificielle ont également apporté leur lot de choix méthodologiques, avec les techniques d’apprentissage automatique et autre réseaux neuronaux.

Ces techniques, de plus en plus présentes dans les outils mis à disposition des décideurs (la suite logicielle Microsoft SQL server propose du data mining), trouvent leur pertinence dans l’ineffable volumétrie de données à laquelle ils sont aujourd’hui confrontés. Le « Big Data » ne peut servir si les informations sont présentées de façon brute. Notre esprit est ainsi fait qu’il n’appréhende que des aspects globaux, utiles pour notre raisonnement et notre action. Pour qu’il en soit ainsi, c’est au data mining et aux ordinateurs de nous fournir de bons modèles.

Attention toutefois aux écueils :

  • Injectez une donnée quelconque dans une technique d’analyse, il en sortira toujours quelque chose.
  • Le meilleur système de forage au monde ne trouvera pas de pétrole si le sous-sol n’en contient pas.
  • Pour conclure en paraphrasant Marc Twain, ce n’est pas parce que 99 % des gens meurent dans leur lit qu’il s’agit d’un endroit dangereux.

 

En analyse de données, les mathématiques et l’informatique sont nos alliés, mais notre pire ennemi pourrait être la confiance aveugle que nous aurions dans les seules méthodes. C’est dans ce contexte que de nouveaux métiers « Data »  tels que les Data analyst, le Data scientist se sont développés afin d’intervenir sur le processus de traitement de la donnée. C’est pourquoi LePont a décidé de vous former dès aujourd’hui aux métiers de demain ainsi qu’aux outils data.

Pour approfondir le sujet

Connect

Pour recevoir nos derniers articles sur la Data et l'Intelligence Artificielle, abonnez vous à Connect, l’email qui fait du bien à vos données.

Le Pont Learning