C'est quoi un fichier robots.txt ?
Un fichier robots.txt est un fichier texte qui se trouve à la racine de votre site internet. Ce fichier donne les directives aux différents robots visitant votre site autorisant à accéder à certaines pages.
Ces autorisations sont principalement à destination des robots des moteurs de recherche, notamment le Google Bot, robot du moteur de recherche Google, mais aussi pour les milliers d'autres robots visitant votre site internet.
Vous pouvez grâce à ce fichier, refuser l'accès à certaines URL de votre site, il faut toutefois pour cela que les différents robots acceptent vos instructions. Certains robots ne prennent pas en compte des instructions émises dans le robots.txt et accèdent tout de même aux pages ci-mentionnées.
Où se trouve le fichier robots.txt ?
Le fichier robots.txt se trouve à la racine (Root) de votre dossier web où est installé votre site internet.
Pour vérifier sa présence, vous pouvez vous connecter à son URL, par exemple : https://www.domaine.com/robots.txt ou vous connecter directement à votre dossier FTP.
Où se trouve le fichier robots.txt sur Wordpress ?
Si votre site web est un Wordpress, la présence du fichier robots.txt ne différe pas des autres solutions web. Le fichier robots.txt se trouve toujours à la racine de votre site internet. Selon votre hébergement, vous pouvez y accéder via un gestionnaire de fichiers ou directement par FTP avec un logiciel de type Filezilla.
Comment créer un fichier robots.txt ?
Si votre site internet ne contient pas de fichier robots.txt à la racine de celui-ci, dans votre FTP, vous pouvez en créer.
Pour cela, c'est très simple, il vous suffit de :
- Faites un clic droit sur le bureau de votre ordinateur.
- Cliquez sur Nouveau puis Document texte.
- Renommer le Nouveau document texte en robots.txt
- Uploader ce fichier via FTP à la racine de votre site internet.
Comment modifier le robots.txt ?
Pour modifier votre fichier robots.txt c'est très simple, il vous suffit de vous connecter à votre site web via votre logiciel FTP (Ex: Filezilla) et une fois connecté à votre dossier racine :
- Faire un clic droit à l'aide de votre souris sur le fichier robots.txt
- Cliquer sur Afficher / Editer sur Filezilla
- Modifier les paramètres à l'aide d'un éditeur de texte
- Enregistrer les modifications
Comment tester votre fichier robots.txt ?
Lorsque vous avez modifier votre robots.txt, nous vous conseillons de le tester afin de se rendre compte si les nouvelles règles mises en place ne bloquent pas le crawl de certains URL importantes de votre site.
Pour cela, vous devez créer un compte Google Search Console, si c'est déjà fais, il suffit de vous y connecter puis de rechercher dans Google "Outil de test du fichier robots.txt". Cet outil vous permettra de visualiser les régles effectives de votre robots.txt et de tester si une URL est bloquée par ces nouvelles règles établies.
Un exemple d'un robot.txt optimisé pour Wordpress
Découvrez ci-dessous, un exemple type d'un robots.txt bien optimisé pour Wordpress :
# Robots.txt optimisé pour Wordpress par Occeo.com
User-agent: *
# Bloquer l'indexation des dossiers sensibles
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*.pdf$
# Bloquer l'indexation des URL avec des paramètres
Disallow: /*?*
Disallow: /*?
# Bloquer l'indexation de la page de connexion
Disallow: /wp-login.php
# Indication de l'URL du sitemap
Sitemap: https://www.domaine.com/sitemap.xml
Les explications des règles du Htaccess
- User-Agent: * : Autorise l'accès à votre site web à tous les robots
- Disallow: /wp-admin : Indique aux robots de ne pas explorer le répertoire wp-admin, ce répertoir étant lié à l'administration du site.
- Disallow: /feed : Indique aux robots de ne pas accéder aux flux RSS de votre site web.
- Disallow: */trackback : Indique aux robots de ne pas accéder aux URL se terminant par /trackback. Les trackback sont une fonctionnalité permettant d'informer un autre site web lorsqu'un lien est créé vers un de ses articles.
- Disallow: /*.pdf$ : Indique aux robots de ne pas accéder aux fichiers PDF présents sur votre site web. Cela s'applique uniquement aux URL se terminant par .pdf
Si vous êtes à la recherche d'autres optimisations pour votre Wordpress, vous pouvez faire appel à notre agence SEO d'expérience, pour vous proposer un accompagnement SEO Mensuel ou la réalisation d'un audit SEO.