Script anti duplicate content avec les sous-domaines

Les sous-domaines peuvent dans certains cas être des générateurs de contenu dupliqué. Si votre homepage a des prédispositions pour ressortir sur une requête, avoir la même homepage présente dans l’index de Google avec une autre URL ne va pas aider l’ami Algo à trier correctement ces pages dans les SERP, vous n’allez pas ranker comme il faut.
Je ne vais pas vous refaire un laïus sur le Duplicate content mais plutôt vous présenter un script qui va vous permettre de lister tous les sous-domaines indexés sur Google pour un nom de domaine donné, afin de détecter d’éventuelles erreurs et/ou sous-domaines inattendus.

Pourquoi?

L’idée m’est venu entre autre quand j’ai constaté que j’avais un sous-domaine dupliqué à cause d’un site en version beta/dev qui avait été indexé (oui, Google la fouine lit les liens texte hors href, utilise les données de la Toolbar Google, et crawl le tout). Si vous êtes consultant/Chef de projet SEO (ce n’est pas encore mon cas, mais j’y aspire fortement, alors pensez à moi 😉 ), ce script pourrait être un passage obligatoire lors d’un audit si vous n’avez pas accès au zonefile de votre client.
Avec ce script SEO, j’ai ainsi pu trouver par exemple un sous-domaine étrange de webrankinfo.com http://forum.webrankinfo.comforum.webrankinfo.com/ qui générait 4 pages dupliquées (dont la homepage) de Webrankinfo: Olivier Duffez, si tu passes par là;)

Comment?

Le script va parcourir 1000 résultats (ce qui semble suffisant pour la plupart des sites) pour ensuite extraire les sous-domaine présents grâce à une petite expression régulière. Je ne peux pas finir cet article sans remercier @percub qui m’a bien aidé puisque j’étais parti dans une boucle un peu étrange et complexe dans laquelle je bouclais sur la requête modifiée au fur et à mesure (genre site:domaine.com -site:sd1.domain.com -site:sd2.domain.com -site:sd3.domain.com etc…) jusqu’à arriver au message « error 414, request is too long » (et oui, j’avais testé sur yahoo.com avec plus de 230 sous-domaines…). Il a su me remettre dans le droit chemin et me conseiller après pas mal d’échanges mails. Merci à lui. Du coup ce script est un doux mélange de différents bouts de code.

Script anti-duplicate avec des sous-domaines

Enjoy!

&lt;?php
function scrapounet ($domaine)
{
$schema = '`&lt;cite&gt;(.*?)\.'.$domaine.'\/(.*?)&lt;\/cite&gt;`i';
$requete = '';$subs = '';$subdomaines = '';$output = '';$i=0;$j=0;
$useragent='Opera/9.63 (Windows NT 5.1; U; fr) Presto/2.1.1';
for ($i=0; $i&lt;901; $i+=100) {
$ch = curl_init();
curl_setopt($ch, CURLOPT_USERAGENT, $useragent);
curl_setopt($ch, CURLOPT_URL,'http://www.google.fr/search?q=site:*.'.$domaine.'&amp;hl=fr&amp;ie=utf-8&amp;oe=utf-8&amp;aq=t&amp;num=100&amp;start='.$i);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
$result .= curl_exec ($ch);
curl_close ($ch);
sleep(5);
}
preg_match_all($schema, $result, $matches);
$matches = array_unique($matches[1]);
sort($matches);
foreach (($matches) as $key =&gt; $subs) {
$j++;
$subs = str_replace('https://','',$subs);
$requete .= '-site:'.$subs.'.'.$domaine;
$subdomaines .= '&lt;tr&gt;&lt;td&gt;'.$subs.'&lt;/td&gt;&lt;td&gt;'.gethostbyname($subs.'.'.$domaine).'&lt;/td&gt;&lt;/tr&gt;';
$export .= $subs."\n";
}
file_put_contents($domaine.'.txt',$export);
$output = 'T&amp;eacute;l&amp;eacutecharger l\'export (clic droit): &lt;a href="'.$domaine.'.txt"&gt;'.$domaine.'.txt&lt;/a&gt;&lt;br /&gt;&lt;hr&gt;';
$output .= 'Liste des '.$j.' sous-domaines index&amp;eacutees:&lt;br /&gt;&lt;br /&gt;&lt;table border="1"&gt;&lt;tr&gt;&lt;td&gt;&lt;b&gt;Sous-domaine&lt;/b&gt;&lt;/td&gt;&lt;td&gt;&lt;b&gt;Adresse IP&lt;/b&gt;&lt;/td&gt;&lt;/tr&gt;'.$subdomaines.'&lt;/table&gt;&lt;hr&gt;';
$output .= '&lt;u&gt;Equivalent de la requ&amp;ecirc;te Google effectu&amp;eacute;e avec la version pr&amp;eacute;c&amp;eacute;dente du script:&lt;/u&gt; site:'.$domaine.$requete.'&lt;br /&gt;&lt;hr&gt;';
return $output;
}

if (isset($_GET["domaine"]) &amp;&amp; $_GET["domaine"]!='')
{
$dom = $_GET["domaine"];
print $output =  scrapounet ($_GET["domaine"]);
}
?&gt;

Appelez ensuite le script de cette manière: http://www.votresite.com/sousdomaines.php?domaine=abondance.com

Voici un screenshot d’une sortie:

Edité le 04/11:

Je vous mets malgré tout l’ancien script car dans certains cas et après de nombreux tests, les 1000 premiers résultats ne suffisent pas forcément pour faire apparaître tous les sous-domaines. Tant que la requête n’est pas trop longue (et que l’erreur 414 n’arrive pas), ce script extrait plus de sous-domaines. Essayez les deux!

&lt;?php

function scrapounet ($domaine)
{
$schema = '`&lt;cite&gt;(.*?)\.'.$domaine.'\/(.*?)&lt;\/cite&gt;`i';
$requete = '';$subs = '';$i=0;$j=0;
$useragent='Opera/9.63 (Windows NT 5.1; U; fr) Presto/2.1.1';
do {
$ch = curl_init();
curl_setopt($ch, CURLOPT_USERAGENT, $useragent);
curl_setopt($ch, CURLOPT_URL,'http://www.google.fr/search?q=site:'.$domaine.$requete.'&amp;hl=fr&amp;ie=utf-8&amp;oe=utf-8&amp;aq=t&amp;num=100');
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
$result = curl_exec ($ch);
preg_match_all($schema, $result, $matches);
$matches = array_unique($matches[1]);
foreach (($matches) as $key =&gt; $subs) {
$subs = str_replace('https://','',$subs);
if (!eregi('\+\-site:'.$subs.'.'.$domaine,$requete)) {
$j++;
$requete .= '+-site:'.$subs.'.'.$domaine;
$subdomaines .= '&lt;tr&gt;&lt;td&gt;'.$subs.'&lt;/td&gt;&lt;td&gt;'.gethostbyname($subs.'.'.$domaine).'&lt;/td&gt;&lt;/tr&gt;';
$export .= $subs."\n";}
}
sleep(5);
$i++;
}
while ($i&lt;10) ;
file_put_contents($domaine.'.txt',$export);
$output = 'T&amp;eacute;l&amp;eacutecharger l\'export (clic droit): &lt;a href="'.$domaine.'.txt"&gt;'.$domaine.'.txt&lt;/a&gt;&lt;br /&gt;&lt;hr&gt;';
$output .= 'Liste des '.$j.' sous-domaines index&amp;eacutees:&lt;br /&gt;&lt;br /&gt;&lt;table border="1"&gt;&lt;tr&gt;&lt;td&gt;&lt;b&gt;Sous-domaine&lt;/b&gt;&lt;/td&gt;&lt;td&gt;&lt;b&gt;Adresse IP&lt;/b&gt;&lt;/td&gt;&lt;/tr&gt;'.$subdomaines.'&lt;/table&gt;&lt;hr&gt;';
$output .= '&lt;u&gt;R&amp;ecirc;quete Google effectu&amp;eacute;e:&lt;/u&gt; site:'.$domaine.$requete.'&lt;br /&gt;&lt;hr&gt;';
return $output;
}

if (isset($_GET["domaine"]) &amp;&amp; $_GET["domaine"]!='')
{
$dom = $_GET["domaine"];
print $output =  scrapounet ($_GET["domaine"]);
}
?&gt;

Crédit photo : Girafes dupliquées lors de mon voyage en Tanzanie.

Répondre

4 novembre 2011
Percub

Merci pour la citation 😉

Dernière modif: Google arrête d’afficher les résultats à 1000 donc tu peux modifier la condition de ta boucle for –> $i<901
Répondre

4 novembre 2011
Aymeric

Effectivement, j’avais pas vu l’erreur en faisant un print de $result. C’est corrigé. Merci encore à toi 😉
Répondre

4 novembre 2011
Olivier Duffez (WRI)

Oui c’est étrange ces sous-domaines sur WRI. Je ne me rappelle pas les avoir vus avant pourtant mon outil (en place depuis 2008) les détecte également
http://www.webrankinfo.com/actualites/200807-outil-liste-sous-domaines.htm
Répondre

5 novembre 2011
Vincent

Pas mal ça ! Même si faut être sacrément nouille pour pas mettre de restriction d’ip ou de htpassword sur un site de dev et se le faire indexer après :p
- Répondre
  
  6 novembre 2011
  Aymeric
  
  😀 je pensais pas qu’il allait le trouver surtout… Nouille de la part d’ un jambon, je suis flatté !
- Répondre
  
  8 novembre 2011
  Le juge
  
  Les développeurs qui bossent dans ma boite sont des nouilles … je ne compte plus le nombre de fois ou j’ai du me cogner des campagnes de redirections 301 pour virer un de nos sous domaine qui concurrencait un des sites qu’on avait fait … Depuis il me semble quand meme qu’un bon Noindex nofollow + quelques trucs dans le HTaccess sont suffisant pour ce probleme.
  
  Apres c’est un bon petit script mettre en place – ce serait possible d’avoir le mem en ASP??? qqn?
  - Répondre
    
    8 novembre 2011
    Aymeric
    
    En ASP, je ne sais pas… mais j’ai trouvé un script en Python qui s’appelle gxfr : http://code.google.com/p/gxfr/ et il gère les proxys 😉
Répondre

5 novembre 2011
Seo Black Inside

Très bonne idée et script.

Petite question en passant : Pourquoi des girafes ?
- Répondre
  
  6 novembre 2011
  Aymeric
  
  Bonne question 🙂 Je cherchais une image pour illustrer mon article sur le « duplicate content » dans Google Images, et j’ai vu deux zèbres http://besterz.com/wp-content/uploads/2010/09/article-submission-duplicate-content.jpg
  Comme j’avais fait à peu près la même photo dans un voyage en Tanzanie, je suis allé fouiller dans mes dossiers pour mettre la mienne mais comme je ne l’ai pas trouvé et que je suis tombé sur deux girafes même position, même tête, j’ai eu le coup de foudre 🙂
Répondre

5 novembre 2011
David

Heu oui pour commencer, pourquoi des girafes ?

Sinon, (j’ai peut être mal compris mais) c’est pas courant d’avoir plus de mille sous domaine… 🙂

C’est fou tout de même, qu’est-ce qu’il ne faut pas faire, comme truc pour que google nous laisse tranquile…

J’avais aussi sur un site un sous domaine dev. afin que je fasse des test avant mise en mise definitive, j’ai du desactiver et 301 car DC, …, remarque j’ai eu un petit coup de boost peu apres, une sorte de reponse sinusoïdale à un échelon …

J’imagine la tête du moteur, quand il a reçu d’un coup une centaine de redirection …
- Répondre
  
  6 novembre 2011
  Aymeric
  
  Des anciens sous-domaines, un mauvais paramétrage DNS (wildcard par exemple), un CMS mal configuré peuvent générer beaucoup de domaines dupliqués. Mais ce script peu avoir d’autres utilités, être adapté, libre recours à votre imagination!
Répondre

8 novembre 2011
Spitz

Salut,

avec un sleep de 5 secondes à chaque requête tu n’as pas de soucis de blacklistage à la longue ?

Merci en tout cas. ce script pourra servir de bonne base 😉
- Répondre
  
  8 novembre 2011
  Aymeric
  
  Avec 10 passages non, ça passait nickel quand je faisais mes tests avec des print de $result.
Répondre

8 novembre 2011
Nicolas Chevallier

Je pensais naïvement que la requête :
site:*.example.com -inurl:www.example.com
sur Google pouvait être suffisante
Répondre

15 novembre 2011
fredo

merci , super script qui m’a permis de retrouver une erreur 😉 sur un wpmu
Répondre

22 novembre 2011
Pronostic foot

Je ne me suis pas rendu compte de l’erreur en faisant un print de $result. Le tir est rectifié. Une fois encore, recevez mes remerciements.
Répondre

21 décembre 2011
Ecommerce Boy

Salut,

Moi j’ai un problème dans ma boite. On a plusieurs ecommerces sur des serveurs virtuels en JSP et les fiches produits des ecommerces sont accessibles à partir de tous nos NDD. Genre le mega duplicate content de la mort…

http://www.jouet.com/poney-bois.html
Et accessible aussi via :
http://www.sextoy.com/poney-bois.html

Quelqu’un a déjà rencontré ce problème ? Y a un moyen de gérer ça via le HTTPD.conf ?
Merci d’avance.
Répondre

5 janvier 2013
François-Olivier

Salut,

Je tombe sur ton article aujourd’hui. Pour ma part je fais beaucoup plus simple à mon sens http://www.nicemedia.fr/blog/articles-referencement/trouvez-desindexez-facilement-les-domaines-100-dupliques-de-votre-site via Google ou Analytics.

Script anti duplicate content avec les sous-domaines

Pourquoi?

Comment?

Script anti-duplicate avec des sous-domaines

Aymeric

18 commentaires

Laisser un commentaire Annuler la réponse