Crawl et indexation

robots.txt et ordre de priorité des règles

écrit par le 4 octobre 2021 à 9:03

Le fichier robots.txt qui permet de contrôler le crawl des moteurs de recherche nous réserve parfois des surprises (comme je l’avais évoqué dans un article précédent sur le comportement des crawlers par rapport aux directive User-agent)… On va voir ensemble une autre subtilité liée à l’ordre de priorité des règles.

Les petites subtilités du fichier robots.txt qui peuvent faire mal

écrit par le 24 novembre 2016 à 9:38

Le fichier robots.txt utile dans bien des cas, pour éviter des fuites de crawl (et contrôler au mieux la façon dont le fougueux Googlebot visites vos URL) a des subtilités. Après avoir corrigé plusieurs erreurs sur le fichier d’un client, je me suis dit qu’un petit article sur le sujet serait pertinent. On va faire […]

La balise meta noindex et NSEO, attention!

écrit par le 19 juin 2015 à 10:14

Hier, j’ai vu passer un post de Gary Illyes (Webmaster Trends Analyst chez Google) qui m’a interpellé : https://plus.google.com/+GaryIllyes/posts/ZPPrxASiXf3 En effet, il annonce que la balise <meta name= »robots »> est lu et comprise par Google à l’extérieure d’une section HEAD d’une page Web, ce qui signifie concrètement qu’une balise <meta name= »robots » content »noindex »> placée dans la partie <body> […]

Robots.txt et URL avec des caractères spéciaux: le test

écrit par le 25 mars 2015 à 7:55

Bien que le robots.txt ne soit pas toujours respecté, c’est malgré tout un élément indispensable pour éviter que Google crawl des URL sans intérêt pertinentes, et provoque des dommages collatéraux. J’ai récemment eu un problème bien particulier pour un client, des URL bloquées par le fichier robots.txt et qui malgré tout se sont retrouvées crawlées, et […]

Duel SEO: meta robots et en-tête X-Robots-Tag

écrit par le 15 janvier 2014 à 7:09

Comme vous le savez (ou pas), on peut donner des instructions aux robots/crawlers via l’élément <meta name= »robots » content= »… » />, mais aussi via l’en-tête HTTP X-Robots-Tag. L’élément meta robot est bien souvent géré directement via les CMS, et paramétrable pour les différents types de pages de vos sites. Mais pour gérer plus rapidement certaines URL avec […]

SEO et site en maintenance, on raconte quoi à Googlebot?

écrit par le 13 janvier 2014 à 9:00

Il est parfois nécessaire de mettre son site en pause quand des maintenances doivent être effectuées (upgrade d’un CMS, maintenance base de données, mise en ligne d’un site de préprod, etc.). Une page « Site en maintenance » sera donc affichée sur le site Web, invitant les internautes à patienter quelques minutes heures et à revenir plus […]