6

Whatweb, un détective de sites Web SEO Friendly

whatwebVoici un petit article rapide pour vous faire part d'une découverte concernant un outil très pratique pour extraire de nombreuses infos concernant les sites Web: WhatWeb.

A la manière de Chrome Sniffer, ce programme va vous permettre de connaitre plusieurs infos sur un site web: CMS utilisé, Framework, librairies JS... mais il va surtout vous permettre d'aller beaucoup plus loin!

WhatWeb? pourquoi faire?

En tant que SEO, vous scrapez probablement les pages de résultats de {Google|Yahoo|Bing} sur une thématique précise afin de trouvez des sites sur lesquelles vous allez {ecrire des commentaire|créer des profils|poster des messages|exploiter une vulnérabilité} afin de poser des liens. Et vous le faites avec des footprints.

Le problème, est qu'il est parfois assez aisé de supprimer certains footprints pour passer sous le radar des vilains spammeurs que vous êtes. Des sites se retrouvent donc plus clean, avec moins de liens mais ils sont plus difficiles à trouver.
Certaines empreintes ne se trouvent parfois que dans le code sources des sites, donc plus difficilement repérables avec un simple footprint. Ils sont idéals car parfois peu squattés et c'est là que Whatweb va vous aider à trouver ces sites!

Comment?

Parce que WhatWeb va plus loin qu'une simple analyse du code source HTML d'un site Web afin de trouver des empreintes du type "Généré par PluXML" ou "Powered by WordPress", il va également:

- fouiller dans les dossiers afin d'y trouver des répertoires spécifiques (ex:/wp-content/)
- regarder dans des fichiers d'installation de type Readme.txt
- regarder du côté des cookies (phpbb2mysql_data,phpbb2mysql_sid)
- fouiller dans les en-têtes HTTP (serveur utilisé et CMS parfois)
- regarder les types d'URL
etc...

Il est également capable de crawler le site de manière récursive afin de trouver d'autres éléments dans les pages profondes qui ne seraient pas sur la homepage. Voilà le type d'infos qu'il peut vous sortir:

Il possède 4 modes de fonctionnement:

1 : Passive Une seule requête HTTP par cible, excepté en cas de redirection
2 : Polite Réservé pour un usage futur
3 : Aggressive Déclenche les fonctions "agressives" des plugins uniquement si un plugin correspond en passif
4 : Heavy Déclenche les fonctions "agressives" de tous les plugins. Ce mode va tester de nombreuses URL comme Nikto.

Vous l'aurez compris, WhatWeb fonctionne autour d'un système de plugins. Vous pouvez donc créer vos propres plugins en plus, pour "matcher" des {CMS|forums} et autres empreintes supplémentaires en tout genre.

Installation

Pour utiliser WhatWeb, il vous faut Un serveur Linux ou Unix avec des composants Ruby. Voici la procédure d'installation que j'ai utilisé sous Debian:

#apt-get install ruby ruby-dev libopenssl-ruby
#wget http://www.morningstarsecurity.com/downloads/whatweb-0.4.7.tar.gz
#tar -zxvf whatweb-0.4.7.tar.gz
# cd whatweb-0.4.7
#./whatweb

Vous pourrez ainsi voir que WhatWeb permet d'enregistrer les résultats d'un scan dans un fichier XML, de passer par des proxys pour être plus discret, ou de parcourir tous les liens d'un site de manière récursive.
Vous pourrez également paramétrer le mode "bavard":

Exemple d'utilisation pour scanner un site en particulier en mode 3 (agressif):

#./whatweb www.yapasdequoi.com --aggression 3

Pour finir

On peut donc imaginer un scrap très large avec des footprints génériques comme "laisser un commentaire" ou "votre commentaire" ainsi que vos mots clés, pour effectuer un classement en fonction des CMS+typologies de sites dans un deuxième temps afin de regrouper les sites potentiellement spammables en dofollow sur lesquelles votre contribution pourrait être une réel valeur ajoutée! A méditer...

Ce que je n'ai pas dit: Cet article est uniquement à but pédagogique. Je décline toute responsabilité en cas d'utilisation frauduleuse. Faites en bon usage;-)

Site officiel: WhatWeb

6 commentaires

  1. Ouh là !!! J’en connais qui vont passer outre ton conseil de ne pas utiliser cela sans modération !! Surtout s’ils collent cela sur un serveur dédié…
    Quand il « surfe » ce truc laisse quel type de « user-agent » ou autre ?

  2. Bonjour,

    Effectivement c’est risqué de mettre ce logiciel entre les mains de probables filous qui visitent ce site. Mais bon tu décline toutes responsabilités donc tu n’as aucuns remords.
    Cela dit, après le passage de animaux noirs et blancs de Google, il est de plus en plus difficile de trouver des sites de qualités sur la thématique sur laquelle on travaille. Je pense donc que c’est un très bon outils pour fouiller le web sans pour autant spammer à mort.
    Merci et bonne continuation.

  3. Ou pinaise… C’est que ça m’a l’air très sympa. Je crois déjà savoir comment je vais occuper mon week end pluvieux. Merci Aymeric 🙂 Happy Friday !

  4. Effectivement, super outil qui demande un certain temps pour le paramétrer mais après c’est que du bonheur 🙂

  5. Le but pédagogique, mdr 🙂 Enfin, ce genre d’outil servira probablement pour le prochain concours SEO 😉

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *