Tiens Googlebot, des fichiers logs rien que pour toi

écrit par Aymeric

log fileJe préfère vous prévenir, cet article sera très bref. Pas trop de temps mais vous allez vite comprendre, j'en suis persuadé. Je suis en mode "Googlebot est mon ami". J'aime rentrer en contact avec ce fou de liens et ingurgiteur de contenus, lui faire voir certaines choses et le guider au mieux sur les sites que je gère. Pour ça, j'ai besoin de logs!

Apache et les logs

Ce qui m'intéresse dans les logs pour le coup, ça sera Googlebot le dégénéré (parfois, il crawle n'importe quoi, genre la page 34 de la catégorie truc, sous-optimisée anti-pinguoin au possible). Plutôt que de faire des exports réguliers avec des commandes Shell du type :

# cat/var/log/apache2/yapasdequoi.log | grep Googlebot > /home/gasymagnifik/googlebot.log

avec des fichiers .gz dans tous les sens,
Je me suis dit que j'allais configurer Apache pour générer des logs, rien que pour Googlebot. Le fichier log plus léger pourra être exploité directement par la suite. Voilà le contenu à rajouter dans le fichier de configuration de mon hôte virtuelle:

SetEnvIf User-Agent ".*Googlebot/2.1.*" copainggbot
LogFormat "%a %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-agent}i\" \"%{Accept-encoding}i\"" variables
CustomLog /var/log/apache2/googlebot.log variables env=copainggbot

Et après?

Il ne vous reste plus qu'à exploiter toute ces données avec un analyseur de logs... Vous pourrez remonter rapidement les erreurs 404, 500 mais également voir les segments du site les plus crawlés et les pages profondes qui ne le sont pas (http://www.watussi.fr/analyse-de-logs-identifiez-les-pages-non-crawles-par-googlebot).

La suite au prochaine épisode!

écrit dans Apache par Aymeric | 12 commentaires

12 commentaires "Tiens Googlebot, des fichiers logs rien que pour toi"