De nos jours, le machine learning et l'intelligence artificielle sont omniprésents dans notre quotidien. Pour permettre aux machines d'apprendre, différentes méthodes sont envisageables et notamment la plus populaire d'entre elles : l'apprentissage supervisé.

 

Téléchargement  >> Le guide pour accélérer la création de contenu grâce à l'IA

Cet apprentissage est appelé « supervisé » puisque les données utilisées pour éduquer la machine sont préalablement annotées, étiquetées et catégorisées par l'homme. Les machines et leurs algorithmes vont se servir de ces datas spécifiées pour prédire des solutions ou résultats. Au fur et à mesure de la supervision, le modèle gagnera en précision et en pertinence. Par la suite, les machines utiliseront ces schémas de pensée pour définir des réponses à partir de données non étiquetées.

Quelles sont les fonctions de l'apprentissage supervisé ?

 

L'apprentissage supervisé permet à une IA d'apprendre certaines fonctions à partir de données étiquetées ou d'exemples annotés. Deux types de tâches peuvent être effectués à l'aide de cette forme d'apprentissage.

Les tâches de classification consistent à classer des objets en catégories et sont notamment utiles pour détecter des actions frauduleuses. Avant de demander à l'algorithme de procéder à la classification, on associe une règle à chaque objet. L'algorithme va ensuite apprendre à reconnaître les objets en identifiant les règles qui les caractérisent.

Les tâches de régression, quant à elles, permettent d'attribuer une valeur mathématique à un objet. Elles établissent alors une relation entre des variables dépendantes et indépendantes.

Différents algorithmes de classification et de régression sont disponibles pour permettre à la machine d'apprendre de façon supervisée :

  • L'arbre de décision permet de classer les données sous forme de branches successives. Il part d'une racine et fait prendre une direction spécifique à chaque donnée en fonction de son comportement. Il se compose de nœuds définissant les règles de séparation entre les catégories de données et de feuilles indiquant les informations contenues dans la data.
  • Le réseau neuronal permet un apprentissage en profondeur, au plus proche du raisonnement humain. Il se compose de différentes couches de nœuds, chacun composé d'entrées, de pondérations, d'un seuil et de sorties. Si la donnée dépasse le seuil du nœud, elle est transmise à la couche suivante. La classification s'affine alors par strates successives.
  • La classification naïve bayésienne est une méthode d'apprentissage basée sur l'identification de données indépendantes qui, regroupées, influencent la classification de l'objet. Cette méthode est particulièrement utilisée dans les systèmes de recommandation, lesquels comparent les caractéristiques de chaque contenu pour identifier celui susceptible de plaire à sa cible.
  • L'algorithme des plus proches voisins, ou k-NN, analyse les similitudes entre les données étiquetées. En utilisant un modèle graphique, il évalue la distance entre chaque donnée et classe les plus proches dans la même catégorie.
  • La machine à vecteurs de support (SVM) est un outil de classification linéaire ou de régression. Il sépare les jeux de données grâce à des lignes, dites hyperplans. L'hyperplan optimal est celui qui sépare distinctement deux catégories de données. Il constitue alors le paramètre décisionnel de classification de la donnée.
  • La régression linéaire permet de prédire la valeur d'une donnée en analysant la relation entre des variables indépendantes et une variable dépendante connue. De façon simplifiée, si les recettes d'une entreprise représentent 30 % de ses ventes, l'algorithme sera en mesure de prédire la valeur exacte de ses bénéfices pour l'année suivante.
  • La régression logistique procède comme la régression linéaire, mais avec des variables dépendantes catégoriques. Elle est utilisée pour des prédictions binaires telles que « oui ou non », « vrai ou faux ». Cet algorithme recherche les relations existant entre des données déjà étiquetées.

 

Comment appliquer l'apprentissage supervisé dans le marketing ?

 

Pour les services après-vente

Les entreprises peuvent utiliser les algorithmes pour aider les clients à trouver des réponses à leurs questions, notamment par l'utilisation de chatbots. Ils permettent de répondre à une multitude d'interrogations basiques concernant les procédures employées par la marque dans les cas de retour de marchandise, de défaillance des produits ou de demande d'intervention d'un technicien. De cette façon, les files d'attente des services après-vente seront raccourcies et les conseillers pourront se concentrer sur des tâches à plus forte valeur ajoutée.

De même, l'IA pourra se mettre au service des collaborateurs en détectant des signaux faibles comme le ton de la voix pour les aider à construire leurs argumentaires. Si la machine détecte de l'agacement ou du désintérêt dans la voix du client, le conseiller pourra ainsi essayer de l'apaiser.

 

Guide : l'IA pour la création de contenu

Découvrez comment utiliser l'intelligence artificielle générative pour accélérer la création de contenu.

 

Pour la vente de produits

Grâce à l'apprentissage supervisé, les intelligences artificielles pourront prédire le comportement d'un client en fonction de son historique. L'entreprise éduquera la machine selon les caractéristiques de ses clients, ou buyer personas. La machine pourra ensuite prédire le comportement du prospect en fonction de son score par rapport aux propriétés prédéfinies par le service marketing. Il sera alors possible non seulement de pronostiquer les probabilités d'achat, mais également de savoir sur quel produit l'achat peut être réalisé.

De plus, cette méthode permet de proposer des produits complémentaires en up et cross-selling en se basant sur l'historique de l'entreprise et celui des clients. Le but étant l'optimisation de l'expérience client, le machine learning sera orienté vers la personnalisation des propositions faites aux clients.

 

Apprendre des fraudes et des techniques d'antispam

Dans le domaine bancaire, les algorithmes permettent d'identifier les mouvements de fonds anormaux sur les comptes bancaires pour, par exemple, détecter les fraudes à la carte bleue. Pour une entreprise, identifier les comportements dangereux pour son activité permet de mettre en place des plans d'action pour les contrer. En définissant des alertes précises, l'entreprise ne va plus être submergée d'informations, mais prioriser les données utiles pour agir.

Cette technologie peut être utilisée en mouvement inverse. En effet, en sachant comment fonctionne un logiciel antispam, une entreprise peut identifier les qualités que doivent cumuler ses e-mails pour ne pas être considérés comme indésirables et ainsi affiner sa communication marketing.

 

Limites de l'apprentissage supervisé

 

La nécessité d'une masse de données conséquente

Pour permettre à la machine d'apprendre il est nécessaire de lui fournir de la data en très grande quantité. Certes, le big data rend disponible une telle masse de données, mais il sera nécessaire de la collecter, de la préparer, d'en faire le tri pour pouvoir l'exploiter. De plus, l'augmentation du volume de données implique la mise à disposition de moyens matériels et humains conséquents rattachés au traitement de celles-ci.

 

La possible introduction de biais

Les données utilisées dans l'apprentissage supervisé doivent être étiquetées et annotées. Deux types de biais peuvent intervenir dans cet étiquetage de la data. Tout d'abord, cette opération nécessite une intervention humaine qui, par essence, peut induire des erreurs. En effet, le traitement d'un très grand volume de données par des collaborateurs peut provoquer des inexactitudes que la machine va apprendre puis reproduire. Le machine learning est également dépendant des caractéristiques des données fournies. Si elles sont biaisées, incomplètes ou inappropriées, elles engendreront des erreurs dans l'apprentissage, puis dans l'exécution de la tâche attendue. Si les données indiquent une caractéristique dominante non conforme, soit un biais, elles vont générer des inexactitudes dans les résultats.

Si, par exemple, les données servant à identifier des images de chats ne représentent que des chats roux, alors la machine va en déduire que tous les chats sont roux et va écarter toutes les autres couleurs.

 

Des résultats limités

Les algorithmes d'apprentissage supervisé sont limités par essence. En effet, ils n'apprennent pas à la machine à penser, mais à exécuter une ou plusieurs tâches prédéfinies. Même les modèles les plus performants tels que le réseau neuronal ne font que répéter sur de nouvelles variables des actions apprises à partir de données étiquetées. Pour cette raison, la machine ne pourra pas transposer ses connaissances d'un domaine vers un autre. Une IA ayant appris à prédire le prix d'un appartement en fonction de critères prédéfinis ne pourra pas faire l'évaluation d'une voiture.

 

Quelle est la différence entre apprentissage supervisé et non supervisé ?

Dans l'apprentissage supervisé, les réponses que l'on cherche à prédire sont connues. Pour l'apprentissage non supervisé, il s'agit de faire l'opération inverse. Les solutions ne sont pas disponibles dans le jeu de données. La data n'est pas étiquetée et donc il est demandé à l'intelligence artificielle de définir ses propres réponses. Elle définit des solutions à partir de l'analyse détaillée des données mise à sa disposition.

La machine peut, par exemple, remplir des tâches de clustering où elle regroupe des objets dans des catégories homogènes qu'elle doit définir elle-même. La différence avec la classification dépend donc du fait que les classes ne sont pas connues à l'avance.

 

Pour aller plus loin, découvrez l’outil d’intelligence artificielle de Hubspot et utilisez le directement dans votre CMS pour générer du texte et des articles de blog pour votre site web.

générateur de contenu avec l'IA

Publication originale le 18 avril 2023, mise à jour le 07 décembre 2023

Sujet(s):

Intelligence artificielle