Web scraping : tout ce qu'il faut savoir

Télécharger le calculateur de taux de rebond
Bénédicte Brossault
Bénédicte Brossault

Mis à jour :

Publié :

Le web scraping consiste à extraire automatiquement le contenu de sites web, pour obtenir des données structurées et facilement exploitables. Concrètement : un logiciel récupère les informations requises à partir du code source des pages web pertinentes, puis les restitue dans une base de données organisée de type tableur.

pratique du web scraping

L'utilisateur du web scraper dispose ainsi d'une vision d'ensemble sur l'ensemble des informations dont il a besoin. Le web scraping est une technique qui peut être utilisée par les particuliers, pour comparer les prix de vente d'un même produit sur différents sites de e-commerce, par exemple. Les professionnels peuvent aussi utiliser le web scraping, dans un objectif de veille concurrentielle par exemple. La technique, en tout état de cause, doit être mise en œuvre dans le respect du RGPD et des droits de propriété intellectuelle.

Téléchargement  >> Le guide et la check-list pour rester pertinent dans le web 3.0

 

Est-ce que le web scraping est légal ?

 

Le web scraping est légal dans la mesure où les données extraites sont des données publiques. Un internaute, particulier ou professionnel, est autorisé à récolter des informations et à les consigner dans un document, peu importe qu'il le fasse manuellement ou automatiquement, tant qu'il en fait un usage personnel et non commercial. C'est comme si une personne notait dans un carnet des citations extraites de ses livres préférés.

C'est l'utilisation du contenu qui est encadrée par la loi, à deux égards : le règlement général sur la protection des données personnelles et le droit de la propriété intellectuelle limitent les cas d'utilisation du contenu obtenu par web scraping. Les pratiques suivantes sont illégales :

  • Recopier du contenu de sites web sur un support accessible au public. Le droit d'auteur en effet protège les créations originales : les images, les infographies, les vidéos ou encore les textes d'un site web, et même son code source, bénéficient de cette protection. Il est donc interdit de reproduire publiquement ce type de contenu sans l'autorisation de l'auteur. Exemple : dupliquer sur son propre site web le contenu de sites concurrents bien référencés par Google, pour espérer capter du trafic, est illégal ; la personne à l'initiative de la manœuvre peut être sanctionnée pénalement sur le terrain de la contrefaçon, et risque en outre d'être lourdement pénalisée par le moteur de recherche.
  • Collecter et exploiter des données personnelles. Le RGPD protège les données à caractère personnel, et particulièrement les coordonnées de contact d'une personne : le consentement de la personne conditionne strictement la collecte et l'exploitation de ses données. Ainsi, le web scraping ne peut en aucun cas être utilisé à des fins de prospection commerciale : peu importe que la personne laisse ses coordonnées en ligne, sur un annuaire ou sur un réseau social par exemple, il est interdit de les réutiliser à son insu. Dans une publication de 2020, la CNIL rappelle cette interdiction en visant spécifiquement la technique de web scraping. E-mail, numéro de téléphone ou adresse postale : les entreprises ne sont pas autorisées à collecter ces données dans le but de constituer un fichier à partir duquel faire du démarchage commercial.

Le web scraping en outre est prohibé lorsque le procédé utilisé pour extraire les données est illégal. L'usurpation d'identité, par exemple, est un moyen frauduleux de consulter une interface web dont l'accès est protégé par des identifiants : cette pratique est interdite.

En résumé, le web scraping est légal lorsque : les informations extraites ne constituent pas des données personnelles, le contenu n'est pas reproduit à l'identique sur un support public, et le procédé d'extraction n'est pas frauduleux. Dans ce cadre, le web scraping est majoritairement utilisé à des fins d'analyse des données et de veille concurrentielle.

 

Comment faire un web scraping ?

 

L'intérêt du web scraping est d'automatiser l'extraction de données. Différentes technologies permettent de faire du web scraping : certains éditeurs de logiciels proposent des solutions clé en main, une autre manière consiste à coder soi-même un programme de web scraping.

  • Sans connaissance en programmation, une personne peut utiliser une plateforme en mode SaaS ou une extension de navigateur pour extraire le contenu de son choix à partir des sites web qu'il sélectionne.
  • Il est possible de coder l'extraction en écrivant un script dans un langage de programmation tel que Python. Il faut lister les pages web pertinentes, isoler dans le code source les informations intéressantes, et coder une instruction d'extraction systématique.

À noter que certains sites sont protégés contre le web scraping : l'accès au code source est bloqué en cas d'identification d'un robot. Dans ce cas, l'extraction ne peut être effectuée que manuellement, par copier-coller.

Pour procéder méthodiquement au web scraping :

  1. Déterminer l'objectif de l'extraction de contenu.
  2. Utiliser un web crawler pour indexer les URL des pages pertinentes eu égard à l'objectif.
  3. Utiliser un web scraper pour y collecter le contenu et structurer les données.

 

Pourquoi faire du web scraping ?

 

En tant qu'alternative au copier-coller manuel, le web scraping offre l'avantage d'automatiser l'extraction structurée de contenu. Faire du web scraping permet ainsi de gagner du temps, d'obtenir une base de données lisible et facilement exploitable, et de réduire le risque d'erreur humaine. Lorsque l'extraction porte sur un gros volume de données qui sont régulièrement actualisées, le web scraping est particulièrement utile pour accéder à des données à jour en temps réel, et pour étudier leur évolution.

Il existe de nombreux usages légaux du web scraping par les entreprises. C'est une forme de veille concurrentielle qui aide à la prise de décisions stratégiques.

  • Surveiller les prix : une entreprise peut souhaiter connaître les prix pratiqués sur son marché et leurs variations, et être notifiée en cas d'offre promotionnelle, afin d'affiner sa stratégie tarifaire. Cette utilisation du web scraping est notamment opportune en e-commerce ainsi que dans les secteurs d'activité qui mettent en œuvre une stratégie de revenue management.
  • Analyser les avis clients : une entreprise peut faire du web scraping sur des sites d'avis en ligne et sur les réseaux sociaux afin de surveiller sa e-réputation, ou celle de ses concurrents.
  • Comprendre les tendances de consommation : le web scraping effectué sur les sites web de la concurrence permet de collecter des données sur les tendances du moment. Une entreprise peut paramétrer une extraction de contenu sur un site de e-commerce, par exemple, pour visualiser l'offre commerciale du concurrent. Extraire des informations issues des pages de mentions légales, CGU et CGV notamment, permet en outre de comprendre le modèle commercial des entreprises concurrentes.
  • Faire une revue d'actualités : le web scraping permet d'extraire du contenu texte issu de sites institutionnels. Un cabinet d'avocats, par exemple, peut collecter la jurisprudence récemment publiée et l'analyser, pour proposer ensuite une newsletter à ses clients sur ce sujet.

À noter que le web scraping utilisé pour faire du marketing par e-mail est prohibé.

Outre les professionnels, les particuliers peuvent également faire du web scraping, l'exemple le plus fréquent étant la veille sur les annonces immobilières. Partant de ce constat, certaines entreprises font du web scraping leur modèle commercial : elles proposent sur leur propre site web une extraction structurée de données dans un domaine particulier. Le site Castorus, par exemple, propose de connaître la date de mise en vente et les baisses de prix sur des annonces immobilières parues en ligne sur des sites tiers ; le site Doctrine utilise le web scraping pour proposer aux internautes une veille juridique structurée ; le moteur de recherche Google indexe les pages web, et fait du web scraping pour en extraire les « snippets » ; les sites de comparateurs de prix extraient leurs informations à partir des sites de e-commerce. Mais alimenter son propre site web grâce au web scraping présente des risques : il faut veiller à ne pas restituer l'information telle quelle, au risque d'être poursuivi sur le fondement de la contrefaçon. Dans un arrêt du 05 octobre 2022, la Cour de cassation sanctionne à cet égard le société éditrice du site Entreparticuliers.com au motif qu'elle a « procédé à l'extraction et la réutilisation d'une partie qualitativement substantielle du contenu » du site Leboncoin sans autorisation ; la société a été condamnée à une amende de 50 000 €.

Les entreprises qui font du web scraping doivent être attentives aux dérives. La technique peut être utilisée à des fins de veille et d'analyse, et les données extraites peuvent servir d'outil décisionnel.

 

Comment rester pertinent dans le web 3.0 ?

Téléchargez le guide et la checklist du web 3.0 pour adapter votre stratégie à ces tendances.

 

Quels logiciels pour faire du web scraping ?

 

Captain Data

Captain Data est une plateforme en mode SaaS pour automatiser la récupération, l'agrégation et la consolidation de données web. L'utilisateur choisit les sites à explorer et la nature du contenu à extraire, avis clients par exemple, puis programme la fréquence d'extraction. Le logiciel automatise le process.

Captain Data propose un essai gratuit de 14 jours. Pour s'abonner, il faut payer un forfait mensuel à partir de 399 $.

 

Octoparse

Octoparse est un outil de web scraping facile à utiliser, dont l'interface est disponible en français. L'extraction se fait en 3 étapes simples : l'utilisateur saisit une URL, clique sur les données cibles et exécute le programme. Il récupère alors du contenu organisé.

Les fonctionnalités de base du logiciel Octoparse sont accessibles gratuitement. Pour utiliser des fonctionnalités avancées, telles que la planification des tâches, il faut payer un abonnement à partir de 89 $ par mois.

 

ParseHub

ParseHub est un logiciel de web scraping à télécharger, qui s'adresse notamment aux analystes, aux journalistes et aux e-commerçants. Cet outil permet d'extraire automatiquement un grand volume de données web et de les obtenir dans un fichier Excel.

ParseHub est disponible en version gratuite. Avec un abonnement sans engagement à partir de 189 $ par mois, l'utilisateur accède à des fonctionnalités avancées et peut notamment bénéficier d'une extraction accélérée.

 

Web Scraper

Web Scraper est une extension de navigateur web, disponible pour Chrome et pour Firefox, qui permet d'automatiser l'extraction de contenu, et de planifier le process pour accéder à des informations toujours à jour. Cet outil fonctionne sur tous types de sites web et restitue les données aux formats CSV, XLSX ou JSON.

En version gratuite, Web Scraper propose une utilisation restreinte du service. Des abonnements sont disponibles à partir de 50 $ par mois.

 

Mozenda

Mozenda est une plateforme de web scrapping qui permet d'extraire tous types de contenus web à des fins de veille et d'analyse. Les données sont exportées dans de multiples formats au choix de l'utilisateur, et peuvent être automatiquement intégrées dans diverses plateformes partenaires, Asana ou HubSpot par exemple.

Mozenda offre un essai gratuit de sa technologie pendant 30 jours. Au-delà, il faut contacter le service client pour configurer un forfait adapté à l'utilisation projetée du web scraper.

 

Pour aller plus loin, découvrez les opportunités d'affaires liées aux évolutions du web en téléchargeant le guide et la checklist ultime du web 3.0 ; ou découvrez le logiciel marketing de HubSpot.

New call-to-action

Articles recommandés

HubSpot respecte votre vie privée. HubSpot utilise les informations que vous fournissez afin de vous faire parvenir des informations au sujet de contenu, de produits et de services pertinents. Vous pouvez vous désinscrire de ces communications à tout moment. Pour plus d'informations, veuillez consulter la politique de confidentialité de HubSpot.

Modèle de calcul du taux de rebond et checklist pour l’améliorer.

CMS Hub is flexible for marketers, powerful for developers, and gives customers a personalized, secure experience

START FREE OR GET A DEMO