I.A : 4 Erreurs fréquentes à déjouer

Data & Co

Vous n’en aviez peut-être pas conscience mais l’IA est aujourd’hui omniprésente dans nos vies : d’une recherche d’images sur Google, à l’assistant vocal Alexa en passant par Netflix. Pour comprendre les mécanismes qui se cachent derrière l’Intelligence Artificielle et identifier les erreurs à éviter, nous avons interrogé Anca Dragran, experte mondiale en IA et relation humain – robot que nous avons eu le plaisir de recevoir pour l’une de nos web masterclass.

L’intelligence artificielle c’est quoi exactement ? 

Anca : L’intelligence artificielle c’est la science de la rationalité informatique. Elle consiste à faire en sorte que les machines agissent de manière rationnelle.

Grâce à des formules mathématiques on programme des algorithmes que l’on entraine à prendre des décisions rationnelles.

Quelles sont les erreurs fréquemment commises en matière d’IA ? 

Anca : Tout d’abord on a tendance à penser que le plus compliqué c’est de créer l’algorithme mais c’est complètement faux. Le plus souvent c’est ce qu’il y a de plus simple ! Vous pouvez d’ailleurs apprendre facilement en utilisant le langage Python.

Le défi consiste à définir des objectifs précis que devra atteindre l’Intelligence Artificielle et à contrôler le processus. Je constate 4 types d’erreurs :

Erreur n°1 : le surapprentissage

La machine s’entraine à faire ses prédictions à partir des données que vous lui soumettez à titre d’exemple. Elle en déduit un modèle (des généralités) qu’elle va appliquer aux nouvelles données que vous lui présenterez ensuite.

Si la machine se calque trop sur les particularités des premières données pour établir le modèle, ce dernier n’est plus assez généraliste et risque de faire de mauvaises prédictions ensuite !

L’erreur consiste donc à donner toutes les données d’un coup à la machine. Il vaut mieux séparer vos data en trois jeux distincts :

  1. Un jeu d’entraînement,
  2. Un autre de validation
  3. Un dernier de test.

Le premier jeu lui permet de s’adapter aux paramètres du modèle, le deuxième de les régler et le troisième vient vérifier les performances du modèle.

Erreur n° 2 : la surinterprétation

La machine a tendance à penser que deux variables corrélées ont un lien de causalité. Prenons l’exemple du chien et du loup : l’IA doit déterminer si les photos qu’on lui soumet sont celles d’un chien ou d’un loup.

Elle remarque que la plupart des photos de loup sont prises dehors et souvent dans la neige contrairement à celles des chiens… la machine associe donc extérieur, neige au loup. Quand on lui présente l’image d’un husky dans la neige elle identifie la variable neige en arrière-plan et l’associe au loup… sans reconnaitre donc qu’il s’agit d’un chien !

Le problème de base provient de la corrélation existant dans vos données. Les algorithmes ne peuvent pas s’empêcher d’utiliser les corrélations car globalement cela fonctionne ! Rappelez–vous que les algorithmes obtiennent des récompenses à chaque fois qu’ils obtiennent des bons résultats ! Le nombre de bonnes réponses prime sur la compréhension des erreurs.

Pour contrer ce phénomène, soyez attentif à la manière d’expliquer vos attentes aux ingénieurs chargés de programmer l’algorithme. Soyez précis ! Encore une fois, gardez des sets de data de côté pour vos tests et ne les donnez pas en avance à vos ingénieurs qui pourraient essayer de s’en servir pour corriger superficiellement le problème.

Veillez à ce que ces data soient un peu différentes de celles utilisées pour la phase d’entraînement. Vous pourrez ainsi vérifier les aspects de corrélation et identifier les éventuelles erreurs.

Erreur n° 3 : se tromper sur le critère d’optimisation

Toutes les prédictions n’ont pas la même importance. Encore une fois si on prend l’exemple de la reconnaissance d’image. Identifier une pomme comme une orange ce n’est pas bien grave…. Mais confondre un homme avec un gorille c’est bien plus problématique.

Bien souvent cela vient du manque de variété des données que vous soumettez à la machine. Si vous n’avez que des photos d’hommes blancs pour apprendre à la machine ce qu’est un être humain, le jour ou une photo de femme de couleur lui est soumise … la machine peut ne saura pas l’associer à l’humain.

Pour cela il est important d’avoir des data les plus éclectiques possibles pour entrainer votre I.A et donc d’avoir bien défini votre sujet en tenant compte des minorités qui peuvent exister. Vous l’avez compris, les algorithmes font simplement ce qu’on leur a demandé. Faites attention à ce pourquoi vous les optimisez car c’est exactement ce que vous obtiendrez !

Erreur n° 4 : les humains s’adaptent

Quand on établit des critères, par exemple pour décider si les gens peuvent ou non obtenir un crédit, on a tendance à oublier que les êtres humains sont intelligents. Ils vont finir par comprendre quels sont ces critères (superficiellement) pour les remplir et plaire à votre algorithme et obtenir la classification qu’ils cherchent.

Au lieu de s’enrichir réellement pour obtenir ce prêt ils vont analyser les critères que vous avez défini. Si vous avez décidé par exemple que le nombre de cartes de crédit / de comptes ouverts doit être situé entre 2 et 4 ils vont ouvrir ou fermer le bon nombre de comptes pour répondre aux exigences fixées par l’algorithme sans vraiment s’enrichir.

Pour aller plus loin 

Vous êtes fasciné par l’Intelligence Artificielle et le Machine Learning ? Découvrez notre formation d’un jour

Vous souhaitez convaincre vos collègues/ supérieurs de l’intérêt de transformer votre entreprise en Data Driven Company pour obtenir des données de qualité pour votre I.A ?  Découvrez pourquoi Devenir une Data Driven Company

 

Le Pont Learning