Si vous êtes sur le point de créer un site web, vous avez probablement connaissance des fichiers à intégrer à la racine du serveur pour assurer son bon fonctionnement. Parmi ces fichiers, le robots.txt a pour rôle d'interdire le référencement de certaines pages web ou, au contraire, optimiser le référencement d'autres pages en invitant les robots des moteurs de recherche à les visiter.
Qu'est-ce que le fichier robots.txt ?
Le fichier robots.txt est un fichier texte dont le rôle est de guider l'exploration et l'indexation de votre site web par les robots des moteurs de recherche, en mettant en avant certaines pages ou en en bloquant d'autres selon les consignes paramétrées.
Le fichier robots.txt ne respecte pas un langage client ou encore serveur, mais est uniquement composé d'un cumul de commandes dans un fichier texte placé à la racine du site, notamment avec « User-agent : », « Allow: » et « Disallow: », pour indiquer à chaque robot les pages de votre site à indexer ou non. On peut accéder au fichier via l'URL suivante : https://mon-site-web.fr/robots.txt
Comment créer un fichier robots.txt ?
- Ouvrir un bloc-notes pour rédiger votre robots.txt.
- Indiquer à quel robot vous vous adressez avec la fonction User-agent.
- Désigner les pages à ne pas indexer avec la fonction « Disallow ».
- Guider le robot vers le fichier sitemap du site web.
- Tester votre fichier robots.txt.
1 - Ouvrir un bloc-notes pour rédiger votre robots.txt
La plupart des CMS (Systèmes de gestion de contenus) disposent d'une fonctionnalité qui vous permet de créer directement votre fichier robots.txt. Mais il est également très facile de commencer à rédiger votre fichier directement à partir d'un fichier texte ou d'un bloc-notes.
Que vous souhaitiez accéder à un fichier robots.txt existant ou en créer un nouveau, vous aurez besoin d'un accès FTP pour vous rendre à la racine du site. Si vous ne possédez pas les accès, vous devrez prendre contact avec votre hébergeur ou avec le prestataire en charge de la gestion de votre site internet.
Pour commencer à organiser votre fichier, nommez-le « robots.txt » et veillez à respecter une structure stricte, c'est-à-dire à formuler une instruction par ligne de code. Aucune ligne de votre fichier ne doit être laissée vide.
2 - Indiquer à quel robot vous vous adressez avec la fonction User-agent
Le terme « user-agents » désigne les robots des moteurs de recherche, comme Google Bot par exemple. Ce sont des algorithmes chargés de scruter les pages des sites web pour évaluer leur pertinence vis-à-vis des critères de référencement naturel. Pour être bien positionné, un site web doit donc être crawlé régulièrement par ces robots.
La commande User-agent sert à indiquer en début de fichier à quel robot vous vous adressez. Dans la majorité des cas, il est conseillé de vous adresser à tous les robots, chaque moteur de recherche disposant de son propre algorithme. Pour cela, l'instruction est : « User-agent: * ».
3 - Désigner les pages à ne pas indexer avec la fonction « Disallow »
L'instruction « Disallow » est la plus courante. Elle permet d'indiquer aux robots des moteurs de recherche les pages que vous ne voulez pas voir indexées. Il est aussi possible de bloquer l'indexation d'un fichier ou d'un dossier.
C'est une fonction utile pour le SEO, mais aussi dans le cadre de votre stratégie de communication. En effet, il existe probablement des pages, des images ou des documents que vous souhaitez mettre à la disposition de vos utilisateurs, sans qu'ils n'apparaissent dans les listes de résultats des moteurs de recherche.
Pour bloquer l'indexation d'une page, utilisez la commande suivante : « Disallow: /url-relative-de-la-page ». Derrière les deux points, ajoutez uniquement l'extension de votre URL en commençant par « / ». Si vous bloquez un dossier, indiquez le nom du dossier en l'intégrant entre deux « / ». Par exemple, pour interdire l'accès à votre dossier intranet, rédigez la commande suivante : « Disallow: /intranet/ ».
4 - Guider le robot vers le fichier sitemap du site web
Intégrer une commande « sitemap » dans votre fichier robots.txt est préférable. Cela permet de guider les robots des moteurs de recherche vers le fichier XML sitemap, lui-même chargé de guider les robots vers les pages que vous souhaitez voir indexées en priorité. La commande est la suivante : « Sitemap: https://www.monsite.fr/sitemap ». Assurez-vous toutefois avant cela que votre plan de site est à jour (sans page 404 notamment).
5 - Tester votre fichier robots.txt
Pour vérifier que votre fichier robots.txt bloque correctement l'indexation des URL et des fichiers, vous pouvez vous aider des outils webmasters de Google. Il vous suffit d'authentifier votre site dans l'outil, puis de vous rendre sur « Outil de test du fichier robots.txt ». Celui-ci vous indique les erreurs éventuelles contenues dans votre fichier.
Google Search Console vous indique si vous avez bloqué des URL qu'il juge importantes pour le référencement naturel de votre site. Vous pouvez également modifier votre fichier directement depuis l'outil.
Pour aller plus loin, téléchargez ce guide gratuit et découvrez comment définir une stratégie de SEO technique efficace pour optimiser les performances de votre site.