Si vous êtes sur le point de créer un site web, vous avez probablement connaissance des fichiers à intégrer à la racine du serveur pour assurer son bon fonctionnement. Parmi ces fichiers, le robots.txt a pour rôle d'interdire le référencement de certaines pages web ou, au contraire, optimiser le référencement d'autres pages en invitant les robots des moteurs de recherche à les visiter.
Le fichier robots.txt ne respecte pas un langage client ou encore serveur, mais est uniquement composé d'un cumul de commandes dans un fichier texte placé à la racine du site, notamment avec « User-agent : », « Allow: » et « Disallow: », pour indiquer à chaque robot les pages de votre site à indexer ou non. On peut accéder au fichier via l'URL suivante : https://mon-site-web.fr/robots.txt
Comment créer un fichier robots.txt ?
- Ouvrir un bloc-notes pour rédiger votre robots.txt.
- Indiquer à quel robot vous vous adressez avec la fonction User-agent.
- Désigner les pages à ne pas indexer avec la fonction « Disallow ».
- Guider le robot vers le fichier sitemap du site web.
- Tester votre fichier robots.txt.
1 - Ouvrir un bloc-notes pour rédiger votre robots.txt
La plupart des CMS (Systèmes de gestion de contenus) disposent d'une fonctionnalité qui vous permet de créer directement votre fichier robots.txt. Mais il est également très facile de commencer à rédiger votre fichier directement à partir d'un fichier texte ou d'un bloc-notes.
Que vous souhaitiez accéder à un fichier robots.txt existant ou en créer un nouveau, vous aurez besoin d'un accès FTP pour vous rendre à la racine du site. Si vous ne possédez pas les accès, vous devrez prendre contact avec votre hébergeur ou avec le prestataire en charge de la gestion de votre site internet.
Pour commencer à organiser votre fichier, nommez-le « robots.txt » et veillez à respecter une structure stricte, c'est-à-dire à formuler une instruction par ligne de code. Aucune ligne de votre fichier ne doit être laissée vide.
2 - Indiquer à quel robot vous vous adressez avec la fonction User-agent
Le terme « user-agents » désigne les robots des moteurs de recherche, comme Google Bot par exemple. Ce sont des algorithmes chargés de scruter les pages des sites web pour évaluer leur pertinence vis-à-vis des critères de référencement naturel. Pour être bien positionné, un site web doit donc être crawlé régulièrement par ces robots.
La commande User-agent sert à indiquer en début de fichier à quel robot vous vous adressez. Dans la majorité des cas, il est conseillé de vous adresser à tous les robots, chaque moteur de recherche disposant de son propre algorithme. Pour cela, l'instruction est : « User-agent: * ».
3 - Désigner les pages à ne pas indexer avec la fonction « Disallow »
L'instruction « Disallow » est la plus courante. Elle permet d'indiquer aux robots des moteurs de recherche les pages que vous ne voulez pas voir indexées. Il est aussi possible de bloquer l'indexation d'un fichier ou d'un dossier.
C'est une fonction utile pour le SEO, mais aussi dans le cadre de votre stratégie de communication. En effet, il existe probablement des pages, des images ou des documents que vous souhaitez mettre à la disposition de vos utilisateurs, sans qu'ils n'apparaissent dans les listes de résultats des moteurs de recherche.
Pour bloquer l'indexation d'une page, utilisez la commande suivante : « Disallow: /url-relative-de-la-page ». Derrière les deux points, ajoutez uniquement l'extension de votre URL en commençant par « / ». Si vous bloquez un dossier, indiquez le nom du dossier en l'intégrant entre deux « / ». Par exemple, pour interdire l'accès à votre dossier intranet, rédigez la commande suivante : « Disallow: /intranet/ ».
4 - Guider le robot vers le fichier sitemap du site web
Intégrer une commande « sitemap » dans votre fichier robots.txt est préférable. Cela permet de guider les robots des moteurs de recherche vers le fichier XML sitemap, lui-même chargé de guider les robots vers les pages que vous souhaitez voir indexées en priorité. La commande est la suivante : « Sitemap: https://www.monsite.fr/sitemap ». Assurez-vous toutefois avant cela que votre plan de site est à jour (sans page 404 notamment).
5 - Tester votre fichier robots.txt
Pour vérifier que votre fichier robots.txt bloque correctement l'indexation des URL et des fichiers, vous pouvez vous aider des outils webmasters de Google. Il vous suffit d'authentifier votre site dans l'outil, puis de vous rendre sur « Outil de test du fichier robots.txt ». Celui-ci vous indique les erreurs éventuelles contenues dans votre fichier.
Google Search Console vous indique si vous avez bloqué des URL qu'il juge importantes pour le référencement naturel de votre site. Vous pouvez également modifier votre fichier directement depuis l'outil.
Pour aller plus loin, découvrez comment créer des contenus parfaitement optimisés pour les moteurs de recherche en téléchargeant la checklist de rédaction SEO, ou découvrez l'outil SEO de HubSpot.
Qu'est-ce que le fichier robots.txt et comment s'en servir ?
CHECKLIST COMPLÈTE ET GRATUITE : RÉDACTION SEO
Rédigez du contenu optimisé pour les moteurs de recherche et attirez plus de trafic qualifié sur votre site.
Télécharger gratuitementMis à jour :
Publié :
Si vous êtes sur le point de créer un site web, vous avez probablement connaissance des fichiers à intégrer à la racine du serveur pour assurer son bon fonctionnement. Parmi ces fichiers, le robots.txt a pour rôle d'interdire le référencement de certaines pages web ou, au contraire, optimiser le référencement d'autres pages en invitant les robots des moteurs de recherche à les visiter.
Le fichier robots.txt ne respecte pas un langage client ou encore serveur, mais est uniquement composé d'un cumul de commandes dans un fichier texte placé à la racine du site, notamment avec « User-agent : », « Allow: » et « Disallow: », pour indiquer à chaque robot les pages de votre site à indexer ou non. On peut accéder au fichier via l'URL suivante : https://mon-site-web.fr/robots.txt
Comment créer un fichier robots.txt ?
Rédaction SEO : la checklist ultime
Téléchargez ce modèle gratuit et découvrez les 44 critères SEO pour optimiser sa rédaction.
Télécharger
Tous les champs sont obligatoires.
Merci d'avoir soumis le formulaire
Cliquez sur le lien pour accéder au contenu en tout temps
1 - Ouvrir un bloc-notes pour rédiger votre robots.txt
La plupart des CMS (Systèmes de gestion de contenus) disposent d'une fonctionnalité qui vous permet de créer directement votre fichier robots.txt. Mais il est également très facile de commencer à rédiger votre fichier directement à partir d'un fichier texte ou d'un bloc-notes.
Que vous souhaitiez accéder à un fichier robots.txt existant ou en créer un nouveau, vous aurez besoin d'un accès FTP pour vous rendre à la racine du site. Si vous ne possédez pas les accès, vous devrez prendre contact avec votre hébergeur ou avec le prestataire en charge de la gestion de votre site internet.
Pour commencer à organiser votre fichier, nommez-le « robots.txt » et veillez à respecter une structure stricte, c'est-à-dire à formuler une instruction par ligne de code. Aucune ligne de votre fichier ne doit être laissée vide.
2 - Indiquer à quel robot vous vous adressez avec la fonction User-agent
Le terme « user-agents » désigne les robots des moteurs de recherche, comme Google Bot par exemple. Ce sont des algorithmes chargés de scruter les pages des sites web pour évaluer leur pertinence vis-à-vis des critères de référencement naturel. Pour être bien positionné, un site web doit donc être crawlé régulièrement par ces robots.
La commande User-agent sert à indiquer en début de fichier à quel robot vous vous adressez. Dans la majorité des cas, il est conseillé de vous adresser à tous les robots, chaque moteur de recherche disposant de son propre algorithme. Pour cela, l'instruction est : « User-agent: * ».
3 - Désigner les pages à ne pas indexer avec la fonction « Disallow »
L'instruction « Disallow » est la plus courante. Elle permet d'indiquer aux robots des moteurs de recherche les pages que vous ne voulez pas voir indexées. Il est aussi possible de bloquer l'indexation d'un fichier ou d'un dossier.
C'est une fonction utile pour le SEO, mais aussi dans le cadre de votre stratégie de communication. En effet, il existe probablement des pages, des images ou des documents que vous souhaitez mettre à la disposition de vos utilisateurs, sans qu'ils n'apparaissent dans les listes de résultats des moteurs de recherche.
Pour bloquer l'indexation d'une page, utilisez la commande suivante : « Disallow: /url-relative-de-la-page ». Derrière les deux points, ajoutez uniquement l'extension de votre URL en commençant par « / ». Si vous bloquez un dossier, indiquez le nom du dossier en l'intégrant entre deux « / ». Par exemple, pour interdire l'accès à votre dossier intranet, rédigez la commande suivante : « Disallow: /intranet/ ».
4 - Guider le robot vers le fichier sitemap du site web
Intégrer une commande « sitemap » dans votre fichier robots.txt est préférable. Cela permet de guider les robots des moteurs de recherche vers le fichier XML sitemap, lui-même chargé de guider les robots vers les pages que vous souhaitez voir indexées en priorité. La commande est la suivante : « Sitemap: https://www.monsite.fr/sitemap ». Assurez-vous toutefois avant cela que votre plan de site est à jour (sans page 404 notamment).
5 - Tester votre fichier robots.txt
Pour vérifier que votre fichier robots.txt bloque correctement l'indexation des URL et des fichiers, vous pouvez vous aider des outils webmasters de Google. Il vous suffit d'authentifier votre site dans l'outil, puis de vous rendre sur « Outil de test du fichier robots.txt ». Celui-ci vous indique les erreurs éventuelles contenues dans votre fichier.
Google Search Console vous indique si vous avez bloqué des URL qu'il juge importantes pour le référencement naturel de votre site. Vous pouvez également modifier votre fichier directement depuis l'outil.
Pour aller plus loin, découvrez comment créer des contenus parfaitement optimisés pour les moteurs de recherche en téléchargeant la checklist de rédaction SEO, ou découvrez l'outil SEO de HubSpot.
Partager cet article sur les réseaux sociaux
Articles recommandés
Comprendre le hotlinking : risques et conseils pour l'éviter
Sitemap HTML : avantages, différence avec le sitemap XML et création
Plan de migration SEO : 7 étapes à suivre
Balisage schema.org : comment l'utiliser pour votre site web ?
Google PageSpeed Insights : Qu'est-ce que c'est et comment l'utiliser ?
Sitelinks Google : 6 conseils pour en obtenir
8 astuces SEO pour augmenter son trafic naturel
Qu'est-ce qu'un crawler web (robot d'indexation) et à quoi sert-il ?
Qu'est-ce qu'un permalien ? Définition et utilisation
Qu'est-ce qu'un fichier log en informatique et à quoi sert-il ?