Support central en analyse des données, le dataset – ou jeu de données – est l'outil n°1 du data scientist. Sa popularité est croissante avec les besoins en apprentissage automatique (machine learning) : des plateformes fournissent des jeux de données pour entraîner les modèles d'IA. En ce qui concerne les besoins des entreprises, les datasets servent des intérêts marketing et commerciaux. C'est grâce à un jeu de données qu'il est possible d'affiner la personnalisation de ses campagnes marketing, par exemple. Des logiciels permettent de créer des datasets avec ses données de CRM.
Qu'est-ce qu'un dataset ?
Un dataset est un ensemble organisé de données, structuré sous forme de tableau. Le dataset, ou jeu de données, est le support de base pour analyser et exploiter des données. Les entreprises l'utilisent à des fins marketing et commerciales, et les ingénieurs s'en servent pour le machine learning.
Voici à quoi peut ressembler un dataset :
Cet extrait provient du dataset public DVF (Demande de valeurs foncières) produit par la Direction générale des finances publiques. Dans cet exemple, une analyse du jeu de données peut porter sur les prix de l'immobilier au mètre carré dans le quartier. Pour une agence immobilière, cette analyse peut aider à affiner ses estimations de prix de vente.
Quels sont les types de données qui figurent le plus dans un dataset ?
Les chiffres et le texte sont les types de données les plus répandus dans les datasets utilisés par les entreprises à des fins marketing et commerciales. Une entreprise qui utilise un jeu de données B2C à des fins marketing, par exemple, dispose d'une liste de noms de clients avec leurs coordonnées, leur historique d'achats, le chiffre d'affaires (CA) généré, leurs préférences de consommation et leur engagement sur les réseaux sociaux.
Pour faciliter l'analyse et l'exploitation, le format des données se prête à appliquer des filtres conditionnels. Les données booléennes, notamment, sont très adaptées. Dans l'exemple, il est intéressant de créer une colonne qui indique « Oui » ou « Non », selon que le client a ou non acheté un produit de la marque. Un filtre sur cette colonne permet de cibler les campagnes marketing : seuls les clients qui ont acheté ledit produit reçoivent des recommandations de produits complémentaires.
On trouve fréquemment des chiffres et du texte dans les datasets, mais tous autres types de données peuvent y figurer : images, vidéos et audio. Ces types de données servent notamment, dans le cadre du machine learning, à entraîner les modèles. Exemple : dans cet extrait de dataset issu de Hugging Face, les données audio peuvent entraîner un modèle à reconnaître différents accents ou à parler avec des accents différents.
Dans quels cas un dataset est-il utilisé ?
Les datasets sont utilisés par l'État pour produire des statistiques. Dans d'autres domaines divers, un jeu de données est utilisé pour mettre en évidence des liens probables (analyse) et pour en déduire des prévisions (exploitation).
Un jeu de données météorologiques, par exemple, met en évidence un lien entre la température et la période de l'année, et une tendance à perdre X degrés Celsius par an : il est possible de prédire la température, à une période déterminée, sur plusieurs années à venir.
Le dataset, dans cet exemple, est utile aux agriculteurs. On pourrait aussi imaginer un cheministe utiliser ce dataset pour programmer ses relances client en vue du ramonage annuel des cheminées.
Voici trois cas d'utilisation fréquents de jeux de données.
Utiliser un dataset pour cibler ses actions marketing
En marketing, un dataset est en quelque sorte une version brute de données extraites du fichier client. Avec un logiciel de dataset, cette extraction de données peut être rendue dans un format très lisible et actionnable.
Les jeux de données sont très utiles pour cibler ses actions marketing. L'analyse des données permet de segmenter son audience, pour ensuite communiquer de manière personnalisée auprès de chaque segment.
Utiliser un dataset pour prospecter en B2B
Les données des entreprises ne sont pas considérées comme des données personnelles, elles ne bénéficient pas de la protection par le RGPD : certaines sont accessibles publiquement. Des sites web proposent des datasets à des fins de prospection. Ces datasets présentent des données démographiques, des moyens de contact, des données financières et des données concurrentielles à propos d'un listing d'entreprises. Sur cette base, une entreprise peut prospecter son cœur de cible.
L'exploitation des données, dans ce cas, consiste à utiliser le moyen de contact des entreprises dont les données financières correspondent aux critères de prospection.
Utiliser un dataset pour faire du machine learning
Un dataset est indispensable pour entraîner un modèle prédictif. Le mécanisme relève de la logique : le modèle lit un volume colossal de données, et en déduit que si « ceci », alors « cela ». Cet apprentissage lui permet ensuite d'exécuter des commandes : à chaque occurrence de « ceci », « cela » se produit.

Stratégie marketing : le guide complet
Pilotez votre stratégie et vos performances marketing avec ce guide et son modèle de KPI.
- Défis liés à la performance
- Clés pour utiliser ses données
- Tendances les plus marquantes
- Tableau de bord pour ses KPI
Télécharger
Tous les champs sont obligatoires.

Merci d'avoir soumis le formulaire
Cliquez sur le lien pour accéder au contenu en tout temps
Où trouver des datasets ?
Il est possible de créer un dataset avec ses propres données, extraites de sondages, de formulaires, des bases de données et du CRM. Il existe par ailleurs des datasets publics, qui fournissent des données publiques. Avant d'utiliser un jeu de données trouvé en ligne, il faut vérifier sa fiabilité à deux égards :
- Est-ce que les données ont été obtenues et diffusées de manière légale et éthique, condition sine qua non pour avoir le droit de les exploiter ? Trouver en ligne un trombinoscope d'une grande école de commerce n'autorise pas à s'en servir, par exemple, dans la mesure où il contient des données personnelles.
- Est-ce que les données sont justes ? Analyser et exploiter un jeu de données erronées, partiales ou encore incomplètes faussent les résultats, ce qui rend l'exercice inutile.
Les jeux de données diffusés par des organismes publics, a priori, sont dignes de confiance. Des startups, par ailleurs, se spécialisent dans les datasets pour le machine learning : leur réputation en ligne constitue un indice de confiance.
Voici des sources fiables où trouver des datasets publics, à télécharger aux formats CSV, JSON ou SQL :
- La plateforme data.gouv.fr qui centralise et structure les données ouvertes en France
- Le catalogue de données de l'Insee
- L'outil Dataset Search de Google
- Le fichier DVF des transactions immobilières
- Les datasets de Kaggle et de Hugging Face, entre autres, pour le machine learning
Comment créer un dataset ?
Un dataset peut être très simplement créé dans un tableur Excel, de manière manuelle. Des logiciels de datasets permettent d'automatiser la création des datasets, quand le volume de données est important. Pour une utilisation optimale, le logiciel doit pouvoir accéder aux données de CRM, ou y être intégré.
1 - Identifier les données nécessaires et pertinentes
Un dataset remplit un objectif : générer des statistiques, comprendre une tendance ou encore faire des prévisions. Il faut préciser son objectif, pour identifier les données nécessaires et pertinentes.
Prenons un exemple très concret. Une entreprise B2B veut savoir si son blog favorise la conclusion des transactions, afin de décider de poursuivre ou non ses efforts marketing de création de contenus. Pour répondre à cette question, elle a besoin de lier différentes données :
- La liste des transactions conclues
- La liste des contacts associée aux transactions
- Pour chaque contact, les données d'activité sur le blog
2 - Trouver ou collecter les données
Les sources de données varient selon l'objectif. Si l'analyse porte sur des données publiques, il faut aller les chercher dans la presse spécialisée, dans la documentation universitaire ou encore dans des datasets publics. Créer un jeu de données à des fins d'analyse de son portefeuille clients nécessite de collecter soi-même des données, à l'aide de formulaires, de données de vente, d'un outil de web analytics et d'un CRM qui centralise toutes les informations.
3 - Entrer les données dans un tableau structuré
Une fois les données du dataset identifiées et collectées, il faut les organiser de manière à pouvoir lire facilement les informations recherchées. À cette étape, il est judicieux d'affiner les données à l'aide de propriétés, de conditions et de filtres.
Dans l'exemple du jeu de données pour analyser l'efficacité marketing d'un blog, l'entreprise peut considérer que le blog joue un rôle dans la prise de décision en fonction du nombre d'articles consultés. Il faut donc ajouter une propriété pour chaque contact : nombre de pages du blog consultées. Il est également possible d'ajouter une propriété relative au CA généré par chaque contact.
Ajouter des conditions permet ensuite de mettre en évidence l'information recherchée :
- Si le nombre de pages de blog consultées est supérieur à X, et si le client génère un CA supérieur à Y, alors le blog est efficace.
- Si le nombre de pages est supérieur à X, et que le CA est inférieur à Y, alors le blog est indifférent.
- Si le nombre de pages est inférieur à X, et que le CA est supérieur à Y, alors le blog est inutile.
Avec un système de filtres, il est possible d'obtenir la proportion de clients pour lesquels le blog a joué un rôle dans la prise de décision d'achat. Avec un logiciel de dataset, les résultats d'analyse peuvent être rendus sous forme de graphiques très lisibles, de ce type.
Pour aller plus loin, découvrez comment élaborer une stratégie marketing efficace en consultant le guide ultime du marketing, ou découvrez le logiciel marketing gratuit de HubSpot