Qu'est-ce que le fichier robots.txt et comment s'en servir ?

Télécharger la checklist ultime pour la rédaction SEO
Justine Gavriloff
Justine Gavriloff

Mis à jour :

Publié :

Si vous êtes sur le point de créer un site web, vous avez probablement connaissance des fichiers à intégrer à la racine du serveur pour assurer son bon fonctionnement. Parmi ces fichiers, le robots.txt a pour rôle d'interdire le référencement de certaines pages web ou, au contraire, optimiser le référencement d'autres pages en invitant les robots des moteurs de recherche à les visiter.

Jeune spécialiste SEO réfléchissant à l'usage de son fichier robots.txt
Téléchargement  >> La checklist ultime de la rédaction SEO

Le fichier robots.txt ne respecte pas un langage client ou encore serveur, mais est uniquement composé d'un cumul de commandes dans un fichier texte placé à la racine du site, notamment avec « User-agent : », « Allow: » et « Disallow: », pour indiquer à chaque robot les pages de votre site à indexer ou non. On peut accéder au fichier via l'URL suivante : https://mon-site-web.fr/robots.txt

 

Rédaction SEO : la checklist ultime

Téléchargez ce modèle gratuit et découvrez les 44 critères SEO pour optimiser sa rédaction.

 

1 - Ouvrir un bloc-notes pour rédiger votre robots.txt

La plupart des CMS (Systèmes de gestion de contenus) disposent d'une fonctionnalité qui vous permet de créer directement votre fichier robots.txt. Mais il est également très facile de commencer à rédiger votre fichier directement à partir d'un fichier texte ou d'un bloc-notes.

Que vous souhaitiez accéder à un fichier robots.txt existant ou en créer un nouveau, vous aurez besoin d'un accès FTP pour vous rendre à la racine du site. Si vous ne possédez pas les accès, vous devrez prendre contact avec votre hébergeur ou avec le prestataire en charge de la gestion de votre site internet.

Pour commencer à organiser votre fichier, nommez-le « robots.txt » et veillez à respecter une structure stricte, c'est-à-dire à formuler une instruction par ligne de code. Aucune ligne de votre fichier ne doit être laissée vide.

 

2 - Indiquer à quel robot vous vous adressez avec la fonction User-agent

Le terme « user-agents » désigne les robots des moteurs de recherche, comme Google Bot par exemple. Ce sont des algorithmes chargés de scruter les pages des sites web pour évaluer leur pertinence vis-à-vis des critères de référencement naturel. Pour être bien positionné, un site web doit donc être crawlé régulièrement par ces robots.

La commande User-agent sert à indiquer en début de fichier à quel robot vous vous adressez. Dans la majorité des cas, il est conseillé de vous adresser à tous les robots, chaque moteur de recherche disposant de son propre algorithme. Pour cela, l'instruction est : « User-agent: * ».

 

3 - Désigner les pages à ne pas indexer avec la fonction « Disallow »

L'instruction « Disallow » est la plus courante. Elle permet d'indiquer aux robots des moteurs de recherche les pages que vous ne voulez pas voir indexées. Il est aussi possible de bloquer l'indexation d'un fichier ou d'un dossier.

C'est une fonction utile pour le SEO, mais aussi dans le cadre de votre stratégie de communication. En effet, il existe probablement des pages, des images ou des documents que vous souhaitez mettre à la disposition de vos utilisateurs, sans qu'ils n'apparaissent dans les listes de résultats des moteurs de recherche.

Pour bloquer l'indexation d'une page, utilisez la commande suivante : « Disallow: /url-relative-de-la-page ». Derrière les deux points, ajoutez uniquement l'extension de votre URL en commençant par « / ». Si vous bloquez un dossier, indiquez le nom du dossier en l'intégrant entre deux « / ». Par exemple, pour interdire l'accès à votre dossier intranet, rédigez la commande suivante : « Disallow: /intranet/ ».

 

4 - Guider le robot vers le fichier sitemap du site web

Intégrer une commande « sitemap » dans votre fichier robots.txt est préférable. Cela permet de guider les robots des moteurs de recherche vers le fichier XML sitemap, lui-même chargé de guider les robots vers les pages que vous souhaitez voir indexées en priorité. La commande est la suivante : « Sitemap: https://www.monsite.fr/sitemap ». Assurez-vous toutefois avant cela que votre plan de site est à jour (sans page 404 notamment).

 

5 - Tester votre fichier robots.txt

Pour vérifier que votre fichier robots.txt bloque correctement l'indexation des URL et des fichiers, vous pouvez vous aider des outils webmasters de Google. Il vous suffit d'authentifier votre site dans l'outil, puis de vous rendre sur « Outil de test du fichier robots.txt ». Celui-ci vous indique les erreurs éventuelles contenues dans votre fichier.

Google Search Console vous indique si vous avez bloqué des URL qu'il juge importantes pour le référencement naturel de votre site. Vous pouvez également modifier votre fichier directement depuis l'outil.

 

Pour aller plus loin, découvrez comment créer des contenus parfaitement optimisés pour les moteurs de recherche en téléchargeant la checklist de rédaction SEO, ou découvrez l'outil SEO de HubSpot. Rédaction SEO : la checklist ultime

Sujets : SEO technique

Articles recommandés

HubSpot respecte votre vie privée. HubSpot utilise les informations que vous fournissez afin de vous faire parvenir des informations au sujet de contenu, de produits et de services pertinents. Vous pouvez vous désinscrire de ces communications à tout moment. Pour plus d'informations, veuillez consulter la politique de confidentialité de HubSpot.

44 critères qui synthétisent les grands principes de la rédaction web.

CMS Hub is flexible for marketers, powerful for developers, and gives customers a personalized, secure experience

START FREE OR GET A DEMO