Le data mining, pour exploration de données en français, est également connu sous les appellations de fouille de données et de forage de données. La technique consiste à utiliser des procédés d'automatisation pour extraire des informations exploitables à partir d'un grand volume de données non organisées. Le data mining permet ainsi de comprendre un comportement, d'en tirer un modèle et de mettre en œuvre sur cette base des actions stratégiques.

>> Téléchargez ce kit gratuit et réalisez une étude de marché approfondie. 

En entreprise, la fouille de données permet par exemple d'agir sur la réduction des coûts, sur la résolution d'une problématique, sur l'augmentation du chiffre d'affaires ou encore sur l'optimisation d'un service. Les origines de la technique remontent loin : dès 1662, un démographe anglais analyse les données de mortalité à Londres en vue d'anticiper les apparitions de la peste bubonique.

Aujourd'hui, le data mining s'adapte au contexte de Big Data. Le système traditionnel des statistiques et des probabilités est appliqué à grande échelle à l'aide des nouvelles technologies du numérique : des outils plus puissants pour un volume de données exponentiel.

 

Qu'est-ce que le data mining ?

Le data mining utilise des ressources humaines et technologiques pour traiter un volume considérable de données, afin de faire émerger des modèles, des tendances et des corrélations qui n'apparaissent pas de manière évidente eu égard à la masse d'informations complexes à disposition. L'exploration de données, supervisée par le data scientist dans le cadre de la stratégie de data management, implique 5 étapes.

  1. Définir un objectif : cette première étape relève du rôle des décisionnaires stratégiques. Exemple : le manager du service marketing envisage la fouille de données dans un objectif d'augmentation du taux de fidélisation des clients du site de e-commerce.
  2. Collecter les données : c'est le point de départ du data mining. Dans le cadre d'une stratégie digitale, les données sont collectées via de nombreux points de contact : lors du parcours utilisateur sur le site web ou encore à l'occasion des interactions des abonnés sur les réseaux sociaux. Dans l'exemple précédent : le service marketing collecte les données utiles à segmenter la clientèle par profils, ainsi que les données du comportement d'achat sur le site. La base de données des ventes enregistre ainsi pour chaque profil les dates des achats, le montant du panier ainsi que les références des articles commandés.
  3. Préparer les données : les données sont organisées et stockées grâce à un outil de type datawarehouse. À cette étape en outre, les correctifs nécessaires sont apportés de manière à s'assurer de la qualité de la data. Il s'agit notamment d'identifier les doublons, et d'éliminer les données non représentatives. Dans l'exemple précédent : si la quantité de données collectées pour le profil « homme de moins de 20 ans » est insuffisante, le profil est exclu de l'analyse.
  4. Modéliser grâce à un outil d'intelligence artificielle : la machine analyse automatiquement les données à disposition. Le croisement des informations permet de mettre en évidence des « patterns ». Dans l'exemple précédent : la modélisation permet de constater que le profil « femme trentenaire » réalise des achats de vêtements pour femme le mercredi matin, pour un panier moyen d'un montant de 80 €.
  5. Déployer les actions stratégiques : les décisionnaires identifient les actions stratégiques, qui sont alors mises en œuvre par les équipes opérationnelles. Dans l'exemple : le mercredi matin, l'équipe marketing envoie aux clientes trentenaires une newsletter avec une offre promotionnelle valable à partir de 80 € de dépenses sur le site, afin de les fidéliser. Pour générer des ventes additionnelles, le service marketing peut décider que la promotion s'applique exclusivement sur les articles pour hommes.

Besoin d'aide pour planifier votre prochaine étude de marché ?

Téléchargez ce kit gratuit pour vous aider à étudier vos concurrents et cerner le profil de vos clients potentiels.

 

Pourquoi faire du data mining ?

Le data mining est applicable dans de très nombreux domaines. Exemples :

  • Le data mining est majoritairement utilisé dans les domaines de l'analyse de la consommation et de la relation client. La fouille de données liées aux comportements des consommateurs permet d'optimiser l'offre commerciale et l'expérience client, de gagner en efficacité dans la stratégie marketing et d'améliorer l'image de marque de l'entreprise.

Exemple : Disney World fournit aux visiteurs un bracelet MagicBand qui trace leur parcours dans le parc ; les données massives ainsi collectées permettent d'améliorer l'expérience client : si le bracelet enregistre une faible fréquentation pour la parade, le parc communique davantage sur l'évènement ; le data mining peut aussi permettre ici de mettre en place des actions stratégiques pour diriger plus favorablement le visiteur vers les boutiques de souvenirs, afin de générer des ventes additionnelles.

Autre exemple du succès du data mining : le système avancé d'exploration de données de Netflix permet à l'entreprise de proposer des suggestions personnalisées afin d'améliorer l'expérience utilisateur ainsi que l'image de marque innovante de l'entreprise.

  • En criminologie, le data mining consiste à recenser et exploiter les données liées aux crimes. L'objectif : modéliser les profils et les comportements des criminels pour, in fine, faciliter l'identification des auteurs de crimes d'une part, prévenir les risques d'autre part.
  • En banque, le data mining est utilisé pour scorer les clients et les classer en fonction de leur niveau de risque. De cette manière, l'établissement de crédit est en mesure d'adapter sa politique commerciale de manière sécurisée. La banque par exemple exige des garanties supplémentaires pour accorder un prêt à un client risqué. La fouille de données en matière bancaire est également utile pour la détection des fraudes.
  • En vente par correspondance : les sociétés de vente par correspondance ont recours à l'exploration de données pour identifier le profil de ce type de consommateurs, de manière à axer leurs actions marketing et commerciales sur cette cible de clientèle, pour in fine optimiser leurs coûts.

 

Quelles sont les principales méthodes de data mining ?

Les méthodes descriptives

Les méthodes descriptives permettent d'organiser, de simplifier et de comprendre l'information à partir de sources de données. Ces données en effet sont disponibles, mais elles sont noyées dans le volume : le data mining optimise la data pour offrir une vision claire. Parmi les méthodes descriptives, également appelées techniques non supervisées :

  • La classification, aussi connue sous les noms de clusturing et segmentation : il s'agit de créer des sous-ensembles, chacun regroupant un paquet de données similaires entre elles, et différentes des données des autres sous-ensembles. Exemple : l'entreprise veut pousser un produit de puériculture à la vente auprès des jeunes mamans ; la classification permet de segmenter la clientèle de l'entreprise en fonction des attributs de sexe, d'âge et de situation familiale, pour cibler efficacement sa stratégie marketing.
  • L'association, aussi connue sous le nom d'analyse d'affinités ou de séquences : il s'agit de mettre en évidence la manière dont un évènement en entraîne un autre, afin d'en déduire des tendances de comportements. Exemple : l'analyse du panier d'achat permet de constater que l'homme qui achète une chemise achète la même chemise dans un autre coloris ; dès lors, suggérer les autres coloris sur la page produit de la chemise améliore l'expérience client ainsi que le montant du panier moyen.

 

Les méthodes prédictives

Les méthodes prédictives visent à extrapoler des données mesurées, pour anticiper des variables cibles. Illustration : la banque a collecté les données de ses clients à risque ; lorsqu'un nouveau client entre dans la base de données, il est considéré comme client à risque s'il partage les mêmes données. Les méthodes prédictives, également appelées techniques supervisées, incluent en data mining les méthodes de régression, les arbres de décision et les réseaux de neurones.

Exemple d'arbre de décision prédictif dans le cadre d'une stratégie de développement de produit :

  1. L'entreprise veut améliorer son offre : c'est le point de départ de l'arbre à partir duquel partent 2 branches principales distinctes.
  2. La première branche principale représente l'hypothèse du développement d'un nouveau produit. Le coût de développement est de 10 000 €. De là, 2 branches secondaires représentent les estimations de gain sur la base de données existantes : la première branche affiche une estimation haute à 100 000 €, la seconde fait une estimation basse à 50 000 €.
  3. La deuxième branche principale représente l'hypothèse alternative d'une mise à jour du produit existant. Le coût est de 5 000 €. Les 2 branches secondaires d'estimations de gain affichent respectivement des recettes de 70 000 € et 60 000 €.

À partir de cette méthode de data mining, l'entreprise calcule sa rentabilité : développer un nouveau produit lui permet d'engendrer 65 000 € de recettes, contre 60 000 € pour la mise à jour du produit existant. L'entreprise prend la décision de développer un nouveau produit, pour optimiser ses coûts et ses gains.

Communauté HubSpot

Pour aller plus loin, téléchargez ce kit d'étude de marché gratuit pour étudier vos concurrents et cerner le profil de vos clients potentiels.Bottom-CTA : Kit d'étude de marché

Publication originale le 13 janvier 2022, mise à jour le 13 janvier 2022

Sujet(s):

Data management