Analyse du crawl de Googlebot avec la Watussi Box

écrit par Aymeric

Watussi BoxJe tenais à vous présenter une application open-source développé par Jean-Benoît Moingt aka Mr Watussi (très bon blog SEO orienté technique/PHP/logs/Apache) qui va vous permettre de suivre le crawl de GoogleBot sur vos sites, via une interface Web et sans avoir à aller trifouiller les logs en ligne de commande.

J'ai eu la chance de pouvoir tester ce script PHP Open-source en avant-première il y a quelques semaines avec quelques bêta-testeurs, je me devais bien de vous présenter cet outil!

Pourquoi analyser le comportement de GoogleBot?

Cet outil va vous permettre se savoir précisément où Google est passé sur votre site et vous permettra de répondre à un certain nombre de questions qu'un consultant SEO peut se poser:

- Les pages que je souhaite indexer sur Google sont elles crawlées?
- Les pages que je ne souhaite pas indexer sur Google sont elles également crawlées?
- Quel status HTTP est retourné à Googlebot pour les URL qu'il visite?
- Mes liens en Javascript sont ils suivis par Googlebot?
- Des URL dont je ne soupçonne même pas l’existence sont elles crawlées inutilement?
etc.

GoogleBotGooglebot consacre un certain temps CPU/jour pour chaque site Web qu'il visite. Si il visite des URL dupliquées ou des URL inutiles (générées par erreur à cause d'un CMS ou Plugin particulier), c'est autant de pages pertinentes qu'il ne visite pas pendant ce temps là.

La WatussiBox va donc vous aider à dompter GoogleBot pour qu'il visite votre site dans de conditions optimales.

Présentation de la Watussi Box

Cet outil va insérer chaque ligne de log Apache pour lesquelles le User-Agent est GoogleBot dans une base de données SQL. Cela va vous permettre d'avoir un historique des visites et de détecter d'éventuelles baisse du taux de crawl, ou problèmes d'accessibilité pour GoogleBot (les données de Google Webmasters Tools n'étant pas à jour et forcément précises).

Les principales fonctionnalités:
Suivi de crawl / Pages actives / Volume de pages / Analyse en temps réel / Évolutivité

Plutôt que de longs discours, voici une présentation complète de l'outil Watussi Box en vidéo par son créateur:

Mon avis: Ce script est une version simplifié de l'analyseur de logs qu'utilise Jean-Benoît. Il permet de déceler rapidement des incohérences dans vos liens et des fuites de crawl. L'interface n'étant pas très compliquée permet une prise en main rapide de l'outil. C'est une bonne base pour se familiariser avec l'analyse de crawl.

Le tableau de bord principal permet entre autre de voir d'un coup d'oeil le nombre de pages crawlées, le nombre de pages crawlées/jour, le nombre de pages total ayant été crawlées.
Vous pourrez rapidement détecter les pages les plus crawlées pour éventuellement y placer des liens vers des pages récentes, mais aussi trouver des junkpages pour lesquelles il faudra bloquer l'accès. Ce qui me parait le plus pratique, c'est le traitement des code HTTP renvoyés, ça a provoqué en moi l'envie de corriger rapidement de nombreuses 404 ou 301 plus d'actualités.

Installation de la Watussi Box

Vous devez disposer des éléments suivants:
- 1 base de données MysqL
- 1 serveur Web interpretant le PHP

Pour télécharger la Watussi Box, à savoir le 1er analyseur de logs SEO gratuit, c'est par ici: Watussi Box - Analyseur de logs

Merci encore à Jean-Benoît de partager ce script à la communauté des référenceurs!

écrit dans Scripts SEO par Aymeric | 25 commentaires

25 commentaires "Analyse du crawl de Googlebot avec la Watussi Box"

  • François-Olivier dit:
    • Aymeric dit:
  • Christian dit:
    • Aymeric dit:
  • Eric dit:
  • Yann dit:
  • Nicolas Augé dit:
  • Julien dit:
    • Aymeric dit:
  • Arthur dit:
  • Jeromeweb dit:
  • Guillaume dit:
  • François-Olivier dit:
  • Nicolas Augé dit:
  • Watussi dit:
  • Watussi dit:
  • Watussi dit:
  • Nic'O dit:
  • Philippe dit:
  • Nicolas Augé dit:
  • flexman dit:
  • Bcyberien dit:
  • Seb dit: