Whatweb, un détective de sites Web SEO Friendly

écrit par Aymeric

whatwebVoici un petit article rapide pour vous faire part d'une découverte concernant un outil très pratique pour extraire de nombreuses infos concernant les sites Web: WhatWeb.

A la manière de Chrome Sniffer, ce programme va vous permettre de connaitre plusieurs infos sur un site web: CMS utilisé, Framework, librairies JS... mais il va surtout vous permettre d'aller beaucoup plus loin!

WhatWeb? pourquoi faire?

En tant que SEO, vous scrapez probablement les pages de résultats de {Google|Yahoo|Bing} sur une thématique précise afin de trouvez des sites sur lesquelles vous allez {ecrire des commentaire|créer des profils|poster des messages|exploiter une vulnérabilité} afin de poser des liens. Et vous le faites avec des footprints.

Le problème, est qu'il est parfois assez aisé de supprimer certains footprints pour passer sous le radar des vilains spammeurs que vous êtes. Des sites se retrouvent donc plus clean, avec moins de liens mais ils sont plus difficiles à trouver.
Certaines empreintes ne se trouvent parfois que dans le code sources des sites, donc plus difficilement repérables avec un simple footprint. Ils sont idéals car parfois peu squattés et c'est là que Whatweb va vous aider à trouver ces sites!

Comment?

Parce que WhatWeb va plus loin qu'une simple analyse du code source HTML d'un site Web afin de trouver des empreintes du type "Généré par PluXML" ou "Powered by WordPress", il va également:

- fouiller dans les dossiers afin d'y trouver des répertoires spécifiques (ex:/wp-content/)
- regarder dans des fichiers d'installation de type Readme.txt
- regarder du côté des cookies (phpbb2mysql_data,phpbb2mysql_sid)
- fouiller dans les en-têtes HTTP (serveur utilisé et CMS parfois)
- regarder les types d'URL
etc...

Il est également capable de crawler le site de manière récursive afin de trouver d'autres éléments dans les pages profondes qui ne seraient pas sur la homepage. Voilà le type d'infos qu'il peut vous sortir:

Il possède 4 modes de fonctionnement:

1 : Passive Une seule requête HTTP par cible, excepté en cas de redirection
2 : Polite Réservé pour un usage futur
3 : Aggressive Déclenche les fonctions "agressives" des plugins uniquement si un plugin correspond en passif
4 : Heavy Déclenche les fonctions "agressives" de tous les plugins. Ce mode va tester de nombreuses URL comme Nikto.

Vous l'aurez compris, WhatWeb fonctionne autour d'un système de plugins. Vous pouvez donc créer vos propres plugins en plus, pour "matcher" des {CMS|forums} et autres empreintes supplémentaires en tout genre.

Installation

Pour utiliser WhatWeb, il vous faut Un serveur Linux ou Unix avec des composants Ruby. Voici la procédure d'installation que j'ai utilisé sous Debian:

#apt-get install ruby ruby-dev libopenssl-ruby
#wget http://www.morningstarsecurity.com/downloads/whatweb-0.4.7.tar.gz
#tar -zxvf whatweb-0.4.7.tar.gz
# cd whatweb-0.4.7
#./whatweb

Vous pourrez ainsi voir que WhatWeb permet d'enregistrer les résultats d'un scan dans un fichier XML, de passer par des proxys pour être plus discret, ou de parcourir tous les liens d'un site de manière récursive.
Vous pourrez également paramétrer le mode "bavard":

Exemple d'utilisation pour scanner un site en particulier en mode 3 (agressif):

#./whatweb www.yapasdequoi.com --aggression 3

Pour finir

On peut donc imaginer un scrap très large avec des footprints génériques comme "laisser un commentaire" ou "votre commentaire" ainsi que vos mots clés, pour effectuer un classement en fonction des CMS+typologies de sites dans un deuxième temps afin de regrouper les sites potentiellement spammables en dofollow sur lesquelles votre contribution pourrait être une réel valeur ajoutée! A méditer...

Ce que je n'ai pas dit: Cet article est uniquement à but pédagogique. Je décline toute responsabilité en cas d'utilisation frauduleuse. Faites en bon usage;-)

Site officiel: WhatWeb

écrit dans Astuces par Aymeric | 6 commentaires

6 commentaires "Whatweb, un détective de sites Web SEO Friendly"

  • Christian dit:
  • Tristan dit:
  • kml dit:
  • drumzz seo dit:
  • TiPi Com and Web dit: