12

Tiens Googlebot, des fichiers logs rien que pour toi

log fileJe préfère vous prévenir, cet article sera très bref. Pas trop de temps mais vous allez vite comprendre, j'en suis persuadé. Je suis en mode "Googlebot est mon ami". J'aime rentrer en contact avec ce fou de liens et ingurgiteur de contenus, lui faire voir certaines choses et le guider au mieux sur les sites que je gère. Pour ça, j'ai besoin de logs!

Apache et les logs

Ce qui m'intéresse dans les logs pour le coup, ça sera Googlebot le dégénéré (parfois, il crawle n'importe quoi, genre la page 34 de la catégorie truc, sous-optimisée anti-pinguoin au possible). Plutôt que de faire des exports réguliers avec des commandes Shell du type :

# cat/var/log/apache2/yapasdequoi.log | grep Googlebot > /home/gasymagnifik/googlebot.log

avec des fichiers .gz dans tous les sens,
Je me suis dit que j'allais configurer Apache pour générer des logs, rien que pour Googlebot. Le fichier log plus léger pourra être exploité directement par la suite. Voilà le contenu à rajouter dans le fichier de configuration de mon hôte virtuelle:

SetEnvIf User-Agent ".*Googlebot/2.1.*" copainggbot
LogFormat "%a %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-agent}i\" \"%{Accept-encoding}i\"" variables
CustomLog /var/log/apache2/googlebot.log variables env=copainggbot

Et après?

Il ne vous reste plus qu'à exploiter toute ces données avec un analyseur de logs... Vous pourrez remonter rapidement les erreurs 404, 500 mais également voir les segments du site les plus crawlés et les pages profondes qui ne le sont pas (http://www.watussi.fr/analyse-de-logs-identifiez-les-pages-non-crawles-par-googlebot).

La suite au prochaine épisode!

12 commentaires

  1. Une astuce très utile, mais sur un mutualisé est ce possible de trouver une parade également?
    L’article va servir pour les chanceux qui possède un tel hébergement

  2. Le fait de traquer les pages qui ne sont pas crawler par google est une excellente idée. Cela doit permettre de modifier cette page, sans oublié d’améliorer son référencement.
    La technique indiquée semble parfaite, sauf q’uil doit falloir un serveur dédié pour l’appliquée…

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *