Crawl et indexation Archives

5

robots.txt et ordre de priorité des règles

Posted on 4 octobre 2021 by Aymeric

Le fichier robots.txt qui permet de contrôler le crawl des moteurs de recherche nous réserve parfois des surprises (comme je l’avais évoqué dans un article précédent sur le comportement des crawlers par rapport aux directive User-agent)… On va voir ensemble… Continuer la lecture →

8

Les petites subtilités du fichier robots.txt qui peuvent faire mal

Posted on 24 novembre 2016 by Aymeric

Le fichier robots.txt utile dans bien des cas, pour éviter des fuites de crawl (et contrôler au mieux la façon dont le fougueux Googlebot visites vos URL) a des subtilités. Après avoir corrigé plusieurs erreurs sur le fichier d’un client,… Continuer la lecture →

26

La balise meta noindex et NSEO, attention!

Posted on 19 juin 2015 by Aymeric

Hier, j’ai vu passer un post de Gary Illyes (Webmaster Trends Analyst chez Google) qui m’a interpellé : https://plus.google.com/+GaryIllyes/posts/ZPPrxASiXf3 En effet, il annonce que la balise <meta name= »robots »> est lu et comprise par Google à l’extérieure d’une section HEAD d’une page… Continuer la lecture →

12

Robots.txt et URL avec des caractères spéciaux: le test

Posted on 25 mars 2015 by Aymeric

Bien que le robots.txt ne soit pas toujours respecté, c’est malgré tout un élément indispensable pour éviter que Google crawl des URL sans intérêt pertinentes, et provoque des dommages collatéraux. J’ai récemment eu un problème bien particulier pour un client, des… Continuer la lecture →

6

Duel SEO: meta robots et en-tête X-Robots-Tag

Posted on 15 janvier 2014 by Aymeric

Comme vous le savez (ou pas), on peut donner des instructions aux robots/crawlers via l’élément <meta name= »robots » content= »… » />, mais aussi via l’en-tête HTTP X-Robots-Tag. L’élément meta robot est bien souvent géré directement via les CMS, et paramétrable pour les… Continuer la lecture →

7

SEO et site en maintenance, on raconte quoi à Googlebot?

Posted on 13 janvier 2014 by Aymeric

Il est parfois nécessaire de mettre son site en pause quand des maintenances doivent être effectuées (upgrade d’un CMS, maintenance base de données, mise en ligne d’un site de préprod, etc.). Une page « Site en maintenance » sera donc affichée sur… Continuer la lecture →

10

Duplicate content et paramètres de tracking, la solution ultime

Posted on 4 juillet 2013 by Aymeric

Google Analytics permet grâce à ses paramètres de tracking utm_ d’effectuer un suivi de ses campagnes e-marketing, que ce soit pour des newsletters, partenariats, flux RSS, ou encore le suivi sur réseaux sociaux… Parmi ces paramètres qui sont à placer… Continuer la lecture →

34

Stop au Duplicate Content avec l’indexation des sites de préprod

Posted on 27 février 2013 by Aymeric

Cela arrive trop rarement: des sites de pré-production ou en cours de développement qui sont indexés par GoogleBot, c’est bien souvent la porte ouverte à des tonnes de contenu dupliqué. Il suffit de faire une requête comme celle ci par… Continuer la lecture →