Le fichier robots.txt qui permet de contrôler le crawl des moteurs de recherche nous réserve parfois des surprises (comme je l’avais évoqué dans un article précédent sur le comportement des crawlers par rapport aux directive User-agent)… On va voir ensemble une autre subtilité liée à l’ordre de priorité des règles.
Le fichier robots.txt utile dans bien des cas, pour éviter des fuites de crawl (et contrôler au mieux la façon dont le fougueux Googlebot visites vos URL) a des subtilités. Après avoir corrigé plusieurs erreurs sur le fichier d’un client, je me suis dit qu’un petit article sur le sujet serait pertinent. On va faire […]
Hier, j’ai vu passer un post de Gary Illyes (Webmaster Trends Analyst chez Google) qui m’a interpellé : https://plus.google.com/+GaryIllyes/posts/ZPPrxASiXf3 En effet, il annonce que la balise <meta name= »robots »> est lu et comprise par Google à l’extérieure d’une section HEAD d’une page Web, ce qui signifie concrètement qu’une balise <meta name= »robots » content »noindex »> placée dans la partie <body> […]
Bien que le robots.txt ne soit pas toujours respecté, c’est malgré tout un élément indispensable pour éviter que Google crawl des URL sans intérêt pertinentes, et provoque des dommages collatéraux. J’ai récemment eu un problème bien particulier pour un client, des URL bloquées par le fichier robots.txt et qui malgré tout se sont retrouvées crawlées, et […]
Comme vous le savez (ou pas), on peut donner des instructions aux robots/crawlers via l’élément <meta name= »robots » content= »… » />, mais aussi via l’en-tête HTTP X-Robots-Tag. L’élément meta robot est bien souvent géré directement via les CMS, et paramétrable pour les différents types de pages de vos sites. Mais pour gérer plus rapidement certaines URL avec […]
Il est parfois nécessaire de mettre son site en pause quand des maintenances doivent être effectuées (upgrade d’un CMS, maintenance base de données, mise en ligne d’un site de préprod, etc.). Une page « Site en maintenance » sera donc affichée sur le site Web, invitant les internautes à patienter quelques minutes heures et à revenir plus […]