2

La commande filetype de Google, amie ou ennemie ?

Les commandes Google ne sont pas assez exploitées à mon goût… Au-delà de l’utilisation de celles-ci pour le SEO, je m’en sers pour affiner des recherches ou pour tenter d’arriver plus directement aux informations désirées, ce qui fonctionne bien dans la majeure partie des cas. Une de ces commandes que j’utilise déjà a retenu mon attention dernièrement: « filetype ».
J’ai lu sur un blog les explications suivantes sur cette commande filetype à savoir que c’est une commande « qui est capable de limiter la recherche à certains types de fichiers connus » (ex: .pdf, .txt, .ppt, .doc…). Sur Webrankinfo.com, on parle de valeurs possibles pour cette commande filetype limitée à quelques formats uniquement. Mais ça va plus loin que ça en réalité!

C’est très pratique pour chercher des documents en PDF par exemple. Au delà de la possibilité des crawlers de Google à lire ces types de fichiers et le texte qu’ils contiennent, je nuancerais toutefois les capacités de cette fonction après plusieurs tests:

– Certains types de fichiers ne sont pas reconnus: avi, mpg, jpg (et oui Google ne sait pas encore lire le texte dans les images et les vidéos, enfin à ma connaissance)
– Ceux qui sont reconnus contiennent du texte (Google, c’est pour le texte)

Et alors? Vous n’êtes pas bien avancés avec ça… Bon, voilà surtout ce que j’ ai remarqué:

filetype, c’est une forme d’expression régulière sur les URL pour extraire les derniers caractères alphanumériques (et pas que) qui suivent le dernier point. Et là ça devient très méchant car vous allez voir qu’en combinant filetype avec intext, intitle par exemple, vous pourrez récupérer des sauvegardes de bases de données SQL avec des milliers d’adresses mail (cas où l’indexation des fichiers de répertoires est activée sur le serveur) générées par des webmasters peu vigilants. Et dire que certaines personnes utilisent le même mot de passe partout. No comment.

Et ça se gâte si vous ajouter des signes typographiques comme le tiret – ou l’underscore _. Qui n’a pas encore fait l’erreur de modifier une extension de fichier .php en renommant l’original index.php_ pour en faire un backup ? Vous avez sans doute oublié que sans l’extension .php vos fichiers de scripts ne seront pas interprétés par le serveur et servis en intégralité aux navigateurs FULL TEXT .

Le but de cet article n’est pas de réveiller des pulsions de « hackeur du dimanche » mais plutôt de vous sensibiliser aux renommages de fichiers via les extensions.

Je ne vous parle même pas des php_old, php2 et autres dérivés… Google a crawlé beaucoup trop de choses qu’il n’aurait pas du crawler! Soyez prudents… Protégez bien vos répertoires web comme indiqué dans cet article désactiver le listage du contenu des répertoires et arrêtez de renommer vos fichiers n’importe comment 🙂

A bon entendeur…

2 commentaires

  1. N’hésitez pas à bloquez l’accés au « index of » via htaccess.
    Il existe de nombreuse commande google: tapez « google dorks » pour vous en rendre compte.
    une que j’affectionne: « inurl:table OR base filetype:sql  »
    Les choses que peut y trouver sont assez hallucinante, surtout lorsqu’il sagit de boite de « webmaster »

  2. Excellent cette commande, j’étais passé à côté! Peut être utile pour trouver des jeux flash sans avoir à chercher dans le code des pages 😉

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *