Machines à vecteurs de support : définition et utilisation

Modèles pour réaliser une étude de marché approfondie
Bénédicte Brossault
Bénédicte Brossault

Mis à jour :

Publié :

Les machines à vecteurs de support, de l'anglais Support Vector Machines, sont aussi appelées Séparateur à Vaste Marge (SVM). Ce sont des algorithmes d'apprentissage qui servent à prévoir une variable quantitative. Elles permettent de classer ou séparer les données en étant le plus éloigné possible des observations. Un brevet américain a été déposé en 1997 pour protéger ce nouvel outil.

algorithme SVM

Les SVM se sont imposées grâce à leur simplicité d'usage, leur capacité élevée à travailler avec de grandes dimensions et la fiabilité de leurs résultats.

Téléchargez ce kit gratuit et réalisez une étude de marché approfondie.

Comment fonctionne une SVM ?

Les SVM font partie des algorithmes appelés machine learning. En effet, les machines à vecteurs de support sont un modèle de machine learning supervisé, mis au point par Vladimir Vapnik dans les années 90. Elles ont donc la capacité d'apprendre en s'entraînant elles-mêmes, dès lors qu'elles ont accès à des données d'entraînement pour comprendre la logique et la transférer sur des situations comportant une inconnue.

Concrètement, les SVM permettent de trouver la frontière qui sépare deux catégories de données, afin de pouvoir identifier toute nouvelle donnée, en ayant uniquement connaissance de son emplacement. Si l'étude porte par exemple sur une dimension, appelée espace vectoriel, qui rassemble des points verts et des triangles jaunes, la SVM peut identifier une nouvelle donnée comme appartenant à l'une ou l'autre des catégories en ayant préalablement déterminé la frontière. Cette séparation, appelée séparateur linéaire, est obligatoirement une ligne droite, puisque la SVM est un classificateur linéaire.

Pour donner la possibilité aux SVM d'apprendre et de comprendre l'environnement, le technicien doit lui fournir des données de base, c'est-à-dire des valeurs numériques connues, pour identifier la frontière entre les deux catégories de données. En reprenant l'exemple précédent, il doit lui révéler si les données fournies sont des triangles jaunes ou des points verts. Les machines à vecteurs de support ont l'avantage d'apprendre en ayant accès à très peu de données d'entraînement, contrairement à d'autres modèles de machine learning. Par ailleurs, si un trop grand nombre de données d'entraînement est renseigné, l'apprentissage peut être davantage complexe et la fiabilité des résultats altérée.

En ayant identifié la zone où se situe le séparateur linéaire, la SVM a une multitude de possibilités. Pour obtenir un résultat plus précis, l'algorithme de la SVM calcule la situation la plus éloignée des deux catégories de données, donc celle étant le plus au milieu. Cette situation a donc la meilleure capacité de généralisation. Dans la majorité des cas, les deux catégories de données ne sont pas classifiées de manière à permettre la définition d'une frontière linéaire, notamment si l'une d'elles entoure la seconde. Les données sont alors transposées dans un nouvel espace vectoriel permettant de définir une frontière linéaire. Les résultats n'ont pas une fiabilité de 100 %, mais les SVM sont tout de même les algorithmes obtenant les meilleurs résultats.

Comment faire une étude de marché ?

Téléchargez ce kit d'étude de marché gratuit et découvrez comment faire votre propre étude de marché facilement.

 

Quand utiliser une SVM ? Exemples de cas d'usage

Les SVM sont utilisées dans divers domaines : bio-informatique, finance, recherche d'informations. L'objectif est de pouvoir identifier quelque chose en fonction de son profil, et de le classer dans l'une des deux catégories identifiées en amont. Par exemple, une SVM est capable de savoir si un individu est un enfant ou un adulte en fonction de sa taille. Dans le domaine du marketing, on peut définir si un produit se situe dans la catégorie « vache à lait », qui occupe une part de marché importante, ou dans la catégorie « poids mort », caractérisée par une faible part de marché.

Elle est également couramment utilisée par les outils informatiques, notamment pour identifier les e-mails désirés et les spams, en fonction des adresses e-mail de l'expéditeur. La SVM identifie les adresses e-mail associées au contenu ouvert et les analyse pour comprendre leur structure. Lorsqu'un e-mail ne correspondant pas à cette structure type est réceptionné, il est considéré comme intrus et classé dans la catégorie « spam ».

Dans le domaine de la biologie, la SVM sert à établir des diagnostics grâce à la mesure de la présence de certains marqueurs biologiques. Ainsi, en connaissant la quantité minimum de marqueurs tumoraux présents dans le sang permettant de détecter un cancer, une SVM peut aider à diagnostiquer une telle maladie à partir des résultats de prise de sang d'un patient.

Les SVM sont aussi utilisées très régulièrement par le grand public, notamment au travers de leur smartphone. En effet, la fonctionnalité de détection des visages l'utilise pour reconnaître sur une même captation les parties qui sont reconnues comme appartenant à un visage ou non. Lorsque la reconnaissance est faite, un carré vient mettre en valeur la partie identifiée.

 

Pour aller plus loin, téléchargez ce kit d'étude de marché gratuit et faites votre propre étude de cas. 
Bottom-CTA : Kit d'étude de marché

 

Articles recommandés

HubSpot respecte votre vie privée. HubSpot utilise les informations que vous fournissez afin de vous faire parvenir des informations au sujet de contenu, de produits et de services pertinents. Vous pouvez vous désinscrire de ces communications à tout moment. Pour plus d'informations, veuillez consulter la politique de confidentialité de HubSpot.

5 modèles d'analyse et de planification.

Marketing software that helps you drive revenue, save time and resources, and measure and optimize your investments — all on one easy-to-use platform

START FREE OR GET A DEMO