John Mueller déconseille vivement de modifier le fichier robots.txt plusieurs fois par jour. Cette instruction est liée au fonctionnement-même de Google vis-à-vis du fichier robots.txt.
L’utilité du fichier robots.txt
Habituellement, le fichier robots.txt sert à ordonner des actions spécifiques à un site internet. Il constitue un recours efficace pour empêcher l’accès au contenu sensible, bloquer l’indexation de sections délicates ou empêcher l’apparition des fichiers multimédias dans les SERP.
Une manœuvre avec robots.txt qui ne rime à rien selon Google
Certains administrateurs de sites internet ont envisagé de télécharger consécutivement plusieurs fichiers robots.txt contradictoires en une journée pour limiter la surcharge du serveur.
L’un de nos techniciens nous a demandé s’il était possible de télécharger un fichier robots.txt le matin pour bloquer Googlebot et un autre l’après-midi pour lui permettre d’explorer, car le site Web est très volumineux et ils pensaient que cela pourrait surcharger le serveur. Pensez-vous que ce serait une bonne pratique ? (Évidemment, la vitesse d’exploration de Googlebot s’adapte à la façon dont le serveur répond, mais j’ai trouvé que c’était une question intéressante à vous poser) Merci !
Un utilisateur sur Bluesky
Pour John Mueller, la manœuvre est inefficace :
C’est une mauvaise idée, car le fichier robots.txt peut être mis en cache jusqu’à 24 heures (developers.google.com/search/docs/… ). Nous vous déconseillons de modifier dynamiquement votre fichier robots.txt de cette manière au cours d’une journée. Utilisez plutôt les codes 503/429 lorsque l’exploration est trop importante.
Autrement dit, chaque 24 heures, Google peut mettre en cache les fichiers robots.txt. En conséquence, les mises à jour rapprochées ne seront ni lues, ni exécutées.
Un vieil avertissement qui reste d’actualité
Depuis 2010, Google a émis les instructions d’utilisation de robots.txt pour un site web fonctionnel. Il suffit d’avoir la patience de lire. Idem pour la recommandation de John Mueller En octobre 2015 :
Rendre le fichier robots.txt dynamique (pour le même hôte ! Faire cela pour des hôtes distincts revient essentiellement à créer un fichier robots.txt normal pour chacun d’eux.) entraînerait probablement des problèmes : il n’est pas exploré à chaque fois qu’une URL est explorée à partir du site, il peut donc arriver que la « mauvaise » version soit mise en cache. Par exemple, si vous faites en sorte que votre fichier robots.txt bloque l’exploration pendant les heures ouvrables, il est possible qu’il soit mis en cache à ce moment-là et suivi pendant une journée, ce qui signifie que rien n’est exploré (ou, au contraire, mis en cache lorsque l’exploration est autorisée). Google explore le fichier robots.txt environ une fois par jour pour la plupart des sites, par exemple.
Barry Schwartz de Search Engine Land a même proposé une mise à jour manuelle dans un fichier statique.
En bref, optimisez l’architecture du site pour une exploration optimale, mais laissez le fichier robots.txt en paix.
En cas d’urgence, les codes d’état HTTP 503, 429 ou d’autres manœuvres sont plus efficaces pour supporter temporairement la charge du serveur.
Économisez votre temps et votre énergie avec le fichier robots.txt
La gestion du fichier robots.txt fait partie des fondamentaux du SEO et de la gestion web avec Google.
Vous pouvez optimiser les ressources de votre site internet sans pianoter dessus pendant toute la journée.
Pour nous, la mise à jour manuelle d’un fichier statique dans des délais raisonnables constitue votre meilleure option. Stratégiquement, accordez-vous du temps et effectuez des modifications durables pour montrer votre site web sous son meilleur jour à Google.