Script PHP: chasse aux voleurs de contenus et au duplicate content

22 Nov 2011 3 min de lecture Scripts SEO par Aymeric

Il y a quelques jours, Sylvain alias @axenetwit nous faisait remarquer dans un tweet qu’une partie de son contenu avait été volée par une agence aux pratiques douteuses. Oui, le contenu dupliqué est une plaie. Qui n’a jamais eu peur de voir ses pages toutes belles et bien optimisées passer à la trappe dans l’index secondaire de Google? Autant on a les moyens de lutter contre le duplicate content interne, autant les sites qui copient/collent vos contenu sont plus difficiles à gérer. Petite recommandation tout de même, éviter de proposer les flux RSS complets de vos blogs par exemple (extrait/excerpt seulement), vous compliquerez la tâche des copieurs…

Halte au vol de contenu

Ayant déjà eu à faire à des addicts du plagiat et à cours d’idée pour un prochain script codé avec mes pieds, je me suis dit que le concept de mon prochain article était tout trouvé! Alors je me suis lancé dans un script qui récupère les URL des pages contenant une phrase spécifique (d’un de vos articles par exemple) dans les pages de résultats de Google.
Ensuite, il va lister d’une manière plus claire que les SERP toutes ces pages avec l’adresse IP de chaque domaine contenant le texte plagié pour déceler un éventuel plagiaire multi-domaines et un lien vers le Whois en espérant que le propriétaire n’ait pas masqué ses données Whois – Prénom, Nom, Email qui nous intéressent en l’occurence – pour lui taper sur les doigts.
Le but ultime de cette automatisation? Générer le texte des mails destinés à ces voleurs de manière automatisée.

Script PanPan féfesses voleur!

Créez un fichier vilain.php avec le code ci-dessous. Inutile d’envoyer un mail au propriétaire du domaines facebook.com ou free.fr si le plagiaire a copié votre texte sur une page Facebook ou un site perso de Free 😉
Prenez une partie de phrase d’un article de votre site (130 caractères maximum) et de préférence en coeur d’article pour éviter de faire remonter digg-like et autres sites lisant vos flux RSS.

&lt;html&gt;
&lt;head&gt;
&lt;title&gt;Script de recherche des voleurs de contenus&lt;/title&gt;
&lt;script type="text/javascript" src="http://ajax.googleapis.com/ajax/libs/jquery/1.4.1/jquery.min.js"&gt;&lt;/script&gt;
&lt;script type="text/javascript"&gt;
/*http://www.sohtanaka.com/web-design/inline-modal-window-w-css-and-jquery/*/
$(document).ready(function(){
$('a.poplight[href^=#]').click(function() {
var popID = $(this).attr('rel');
var popURL = $(this).attr('href');
var query= popURL.split('?');
var dim= query[1].split('&amp;');
var popWidth = dim[0].split('=')[1];
$('#' + popID).fadeIn().css({ 'width': Number( popWidth ) }).prepend('&lt;div style="float:right;"&gt;&lt;a href="#" class="close"&gt;Fermer&lt;/a&gt;&lt;/div&gt;&lt;br /&gt;');
var popMargTop = ($('#' + popID).height() +80) / 2;
var popMargLeft = ($('#' + popID).width() + 80) / 2;
$('#' + popID).css({
'margin-top' : -popMargTop,
'margin-left' : -popMargLeft
});
$('body').append('&lt;div id="fade"&gt;&lt;/div&gt;');
$('#fade').css({'filter' : 'alpha(opacity=80)'}).fadeIn();
return false;
});
$('a.close, #fade').live('click', function() {
$('#fade , .popup_block').fadeOut(function() {
$('#fade, a.close').remove();
});
return false;
});
});
&lt;/script&gt;
&lt;style type="text/css"&gt;
body{font-family:Arial,Helvetica;font-size:1.1em;}
table {
border-spacing: 0px;
background: #E9E9F3;
border: 0.5em solid #E9E9F3;
}
table th {
text-align: left;
font-weight: normal;
padding: 0.5em 0.5em;
border: 0px;
border-bottom: 1px solid #9999AA;
}
table td {
text-align: left;
border: 0px;
border-bottom: 1px solid #9999AA;
border-left: 1px solid #9999AA;
padding: 0.5em 0.5em;
}
table thead th {
text-align: center;
font-weight: bold;
color: #6C6C9A;
border-left: 1px solid #9999AA;
}
table th.corner {
text-align: center;
border-left: 0px;
}
table tr.odd {
background: #F6F4E4;
}
hr{
margin:24px;
}
#fade {
display: none;
background: #000;
position: fixed; left: 0; top: 0;
width: 100%; height: 100%;
opacity: .80;
z-index: 9999;
}
.popup_block{
display: none;
background: #fff;
padding: 20px;
border: 10px solid #ddd;
float: left;
font-size: 1em;
position: fixed;
top: 50%; left: 50%;
z-index: 99999;
-webkit-box-shadow: 0px 0px 20px #000;
-moz-box-shadow: 0px 0px 20px #000;
box-shadow: 0px 0px 20px #000;
-webkit-border-radius: 10px;
-moz-border-radius: 10px;
border-radius: 10px;
}
img.btn_close {
float: right;
margin: -55px -55px 0 0;
}
*html #fade {
position: absolute;
}
*html .popup_block {
position: absolute;
}
&lt;/style&gt;
&lt;/head&gt;
&lt;body&gt;
&lt;?php

function scrapounet ($domaine,$phrase)
{
$schema = '`&lt;h3\s*class="r"&gt;\s*&lt;a[^&lt;&gt;]*href="http://([^/]*)/([^&lt;&gt;]*)?"[^&lt;&gt;]*&gt;(.*)&lt;/a&gt;\s*&lt;/h3&gt;`siU';
$export='Domaine'."\t".'URL'."\t".'IP'."\n";$requete = '';$voleur = '';$deduplicate='';$k=0;
//	$phrase = '"'.str_replace(' ','+',$_POST["phrase"]).'"';
$query = utf8_encode('http://www.google.fr/search?q=-site:'.$domaine.$requete.'+"'.str_replace(' ','+',$_POST["phrase"]).'"&amp;hl=fr&amp;ie=utf-8&amp;oe=utf-8&amp;aq=t&amp;num=100');
$useragent='Opera/9.63 (Windows NT 5.1; U; fr) Presto/2.1.1';
$ch = curl_init();
curl_setopt($ch, CURLOPT_USERAGENT, $useragent);
curl_setopt($ch, CURLOPT_URL, $query);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
$result = curl_exec ($ch);
preg_match_all($schema, $result, $matches);
for ($j=0; $j&lt;count ($matches[1]); $j++) {
$voleur = str_replace('https://','',$matches[1][$j]);
if (!stristr($deduplicate,';'.$voleur.';')) {
$k++;
$ip=gethostbyname($voleur);
if ($k % 2) $odd=' class="odd"';else $odd='';
$mailcontent = '&lt;u&gt;Sujet:&lt;/u&gt; Respect du droit d\'auteur relatif au site '.$domaine.'&lt;br /&gt;&lt;br /&gt;';
$mailcontent .= 'Monsieur,&lt;br /&gt;&lt;br /&gt;';
$mailcontent .= 'Nous venons de d&amp;eacute;couvrir votre site internet '.$voleur.'. Bien qu\'il ait retenu notre attention, nous avons eu la d&amp;eacute;sagr&amp;eacute;able surprise de constater que vous repreniez in extenso certains contenus r&amp;eacute;dactionnels directement issus de notre siteweb '.$domaine.':&lt;br /&gt; Page concern&amp;eacute;e: http://'.$voleur.'/'.$matches[2][$j].'&lt;br /&gt;&lt;br /&gt;';
$mailcontent .= 'Vous comprenez bien que cette situation est pour nous intol&amp;eacute;rable. Nous sommes contraints de vous rappeler que, selon le code de la propri&amp;eacute;t&amp;eacute; intellectuelle (http://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT000006069414&amp;dateTexte=20080911), il est interdit de reproduire librement un texte, une image, un son, sans le consentement de son auteur (article L.122-4) et que les textes mis en ligne sur le site '.$domaine.', sauf mentions particuli&amp;egrave;res, sont la propri&amp;eacute;t&amp;eacute; intellectuelle et l&amp;eacute;gale de son auteur.&lt;br /&gt;&lt;br /&gt;';
$mailcontent .= 'Nous vous prions donc de retirer de votre site '.$voleur.' les articles directement copi&amp;eacute;s-coll&amp;eacute;s de notre site '.$domaine.'. Nous comptons sur votre intervention dans les meilleurs d&amp;eacute;lais.&lt;br /&gt;&lt;br /&gt;Dans cette attente, veuillez recevoir l\'expression de mes cordiales salutations&lt;br /&gt;&lt;br /&gt;';
$domaines .= '&lt;tr'.$odd.'&gt;&lt;th&gt;&lt;a href="http://'.$voleur.'/'.$matches[2][$j].'" target="_blank"&gt;http://'.$voleur.'/'.substr($matches[2][$j],0,60).'&lt;/a&gt;&lt;/th&gt;&lt;td&gt;&lt;a href="http://whois.domaintools.com/'.$voleur.'" target="_blank"&gt;'.$voleur.'&lt;/a&gt;&lt;/td&gt;&lt;td&gt;'.$ip.'&lt;/td&gt;&lt;td&gt;&lt;a href="#?w=700" rel="mailcontent'.$k.'" class="poplight"&gt;Email&lt;/a&gt;&lt;/td&gt;&lt;/tr&gt;';
$export .= $voleur."\t".'http://'.$voleur.'/'.$matches[2][$j]."\t".$ip."\n";
$fulldiv .= '&lt;div id="mailcontent'.$k.'" class="popup_block"&gt;'.$mailcontent.'&lt;/div&gt;';
$deduplicate .= ';'.$voleur.';';$mailcontent='';
}
}
if ($k!=0 &amp;&amp; $k&lt;90){
file_put_contents($domaine.'.txt',$export);
$output = '&lt;u&gt;Requ&amp;ecirc;te effectu&amp;eacute;e:&lt;/u&gt; &lt;br /&gt;'.utf8_decode($query).'&lt;br /&gt;&lt;br /&gt;';
$output .= 'T&amp;eacute;l&amp;eacutecharger l\'export (clic droit): &lt;a href="'.$domaine.'.txt"&gt;'.$domaine.'.txt&lt;/a&gt;&lt;br /&gt;&lt;hr&gt;';
$output .= '&lt;u&gt;Liste des '.$k.' voleurs de contenus:&lt;/u&gt;&lt;br /&gt;&lt;br /&gt;&lt;table&gt;&lt;thead&gt;&lt;tr&gt;&lt;th class="corner"&gt;URL du contenu dupliqu&amp;eacute;&lt;/th&gt;&lt;th&gt;Whois si NDD appartient au voleur&lt;/th&gt;&lt;th&gt;Adresse IP&lt;/th&gt;&lt;th&gt;Texte &amp;agrave; envoyer&lt;/th&gt;&lt;/tr&gt;&lt;/thead&gt;'.$domaines.'&lt;/table&gt;&lt;hr&gt;';
$output .= 'Faire une nouvelle recherche de voleur de contenu: &lt;a href="'.$_SERVER["REQUEST_URI"].'"&gt;'.$_SERVER["REQUEST_URI"].'&lt;/a&gt;';}
else {
$output = '&lt;u&gt;Requ&amp;ecirc;te effectu&amp;eacute;e:&lt;/u&gt; &lt;br /&gt;'.utf8_decode($query).'&lt;br /&gt;&lt;br /&gt;';
$output .= 'Ouf! Votre contenu n\'a pas &amp;eacute;t&amp;eacute; r&amp;eacute;cup&amp;eacuter&amp;eacute;e par un m&amp;eacute;chant... Pas de contenu dupliqu&amp;eacutee, YOUPEE :-)&lt;br /&gt;&lt;br /&gt;';
$output .= 'Faire une nouvelle recherche de voleur de contenu: &lt;a href="'.$_SERVER["REQUEST_URI"].'"&gt;'.$_SERVER["REQUEST_URI"].'&lt;/a&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;';
}
return '&lt;table width="900" align="center"&gt;&lt;tr&gt;&lt;td&gt;'.$output.$fulldiv.'&lt;br /&gt;&lt;br /&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;';
}
if (isset($_POST["domaine"]) &amp;&amp; $_POST["domaine"]!='' &amp;&amp; isset($_POST["phrase"]) &amp;&amp; $_POST["phrase"]!='')
{
$dom = $_POST["domaine"];
print $output =  scrapounet ($dom,$phrase);
}
else {
?&gt;
&lt;table width="800" align="center"&gt;
&lt;form method="post" action="&lt;?print $_SERVER["REQUEST_URI"];?&gt;" &gt;
&lt;tr&gt;&lt;th&gt;Votre nom de domaine:&amp;nbsp;&lt;/th&gt;&lt;td&gt;&lt;input type="text" name="domaine" value="axe-net.fr"&gt;&lt;br /&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;th&gt;Phrase &amp;agrave; trouver chez un vilain copieur:&amp;nbsp;&lt;/th&gt;&lt;td&gt;&lt;textarea name="phrase" cols="70" rows="3" maxlength="130"&gt;La r&amp;eacute;ussite de cette entreprise repose avant tout, sur l'&amp;eacute;coute attentive de vos besoins en mati&amp;egrave;re de communication et l'&amp;eacute;tude de votre secteur d'activit&amp;eacute;.&lt;/textarea&gt;&lt;br /&gt;Max: 130 caract&amp;egrave;res / si le dernier mot est coup&amp;eacute; (copier/coller), supprimez-le.&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;th colspan="2"&gt;&lt;input type="submit" value="Allons attraper ces plagiaires !"&gt;&lt;/th&gt;&lt;/tr&gt;
&lt;/table&gt;
&lt;/form&gt;
&lt;? } ?&gt;
&lt;/body&gt;
&lt;/html&gt;

Edit du 23/11: Voici une deuxième version. Le script a été modifié par @Beunwa qui a fiabilisé le code et l’a rendu plus facilement maintenable : les regexp ont été remplacées par Xpath par exemple car la regexp ci-dessus ne fonctionne plus. J’ai laissé ses commentaires, autant que ses astuces vous servent! Un grand merci à lui 🙂

&lt;html&gt;
&lt;head&gt;
&lt;meta http-equiv="Content-Type" content="text/html; charset=utf-8" /&gt;
&lt;title&gt;Script de recherche des voleurs de contenus&lt;/title&gt;
&lt;script type="text/javascript" src="http://ajax.googleapis.com/ajax/libs/jquery/1.4.1/jquery.min.js"&gt;&lt;/script&gt;
&lt;script type="text/javascript"&gt;
/*http://www.sohtanaka.com/web-design/inline-modal-window-w-css-and-jquery/*/
$(document).ready(function(){
$('a.poplight').click(function() {
var popID = $(this).attr('rel');
var popURL = $(this).attr('href');
var query= popURL.split('?');
var dim= query[1].split('&amp;');
var popWidth = dim[0].split('=')[1];
$('#' + popID).fadeIn().css({ 'width': Number( popWidth ) }).prepend('&lt;div style="float:right;"&gt;&lt;a href="#" class="close"&gt;Fermer&lt;/a&gt;&lt;/div&gt;&lt;br /&gt;');
var popMargTop = ($('#' + popID).height() +80) / 2;
var popMargLeft = ($('#' + popID).width() + 80) / 2;
$('#' + popID).css({
'margin-top' : -popMargTop,
'margin-left' : -popMargLeft
});
$('body').append('&lt;div id="fade"&gt;&lt;/div&gt;');
$('#fade').css({'filter' : 'alpha(opacity=80)'}).fadeIn();
return false;
});
$('a.close, #fade').live('click', function() {
$('#fade , .popup_block').fadeOut(function() {
$('#fade, a.close').remove();
});
return false;
});
});
&lt;/script&gt;
&lt;style type="text/css"&gt;
body{font-family:Arial,Helvetica;font-size:1.1em;}
table {
border-spacing: 0px;
background: #E9E9F3;
border: 0.5em solid #E9E9F3;
}
table th {
text-align: left;
font-weight: normal;
padding: 0.5em 0.5em;
border: 0px;
border-bottom: 1px solid #9999AA;
}
table td {
text-align: left;
border: 0px;
border-bottom: 1px solid #9999AA;
border-left: 1px solid #9999AA;
padding: 0.5em 0.5em;
}
table thead th {
text-align: center;
font-weight: bold;
color: #6C6C9A;
border-left: 1px solid #9999AA;
}
table th.corner {
text-align: center;
border-left: 0px;
}
table tr.odd {
background: #F6F4E4;
}
hr{
margin:24px;
}
#fade {
display: none;
background: #000;
position: fixed; left: 0; top: 0;
width: 100%; height: 100%;
opacity: .80;
z-index: 9999;
}
.popup_block{
display: none;
background: #fff;
padding: 20px;
border: 10px solid #ddd;
float: left;
font-size: 1em;
position: fixed;
top: 50%; left: 50%;
z-index: 99999;
-webkit-box-shadow: 0px 0px 20px #000;
-moz-box-shadow: 0px 0px 20px #000;
box-shadow: 0px 0px 20px #000;
-webkit-border-radius: 10px;
-moz-border-radius: 10px;
border-radius: 10px;
}
img.btn_close {
float: right;
margin: -55px -55px 0 0;
}
*html #fade {
position: absolute;
}
*html .popup_block {
position: absolute;
}
&lt;/style&gt;
&lt;/head&gt;
&lt;body&gt;
&lt;?php
//necessite php5
function getDomValue($html, $path){
$dom = new DOMDocument();
@$dom-&gt;loadHTML($html);
$xp = new DOMXPath($dom);
$nodeList = $xp-&gt;query($path);
$tab = array();
foreach($nodeList as $domElement){
$tab[] = $domElement-&gt;nodeValue;
}
return $tab;
}

function scrapounet ($domaine,$phrase)
{
$export='Domaine'."\t".'URL'."\t".'IP'."\n";$requete = '';$voleur = '';$deduplicate='';$k=0;

/*
* J'ai utilisé urlencode pour construire la requete,
* cette fonction est faite pour ca et marche mieux que
* simplement remplacer les espaces par des accents.
* J'ai supprimé l'utf8_encode qui provoque de mauvais résultats
* (J'ai ajouté l'encodage utf8 dans le header du document
* et j'ai sauvé ce fichier en utf8)
*/

$query = 'http://www.google.fr/search?q=-site:'.$domaine.$requete.'+"'.urlencode($_POST["phrase"]).'"&amp;hl=fr&amp;ie=utf-8&amp;oe=utf-8&amp;aq=t&amp;num=100';
$useragent='Opera/9.63 (Windows NT 5.1; U; fr) Presto/2.1.1';
$ch = curl_init();
curl_setopt($ch, CURLOPT_USERAGENT, $useragent);
curl_setopt($ch, CURLOPT_URL, $query);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
$result = curl_exec ($ch);

/*
* on utilise xpath a la place des regex car il est bien plus
* fiable, adapté et plus facilement maintenable que les regexs.
*
* Si google met a jour son format de serp il suffira juste
* d'ouvrir firefox avec l'extension firepath (par exemple)
* de récuperer le nouveau xpath de l'url des sites
* et de mettre a jour la variable $path ci dessous en conséquence.
*/

$path = '//h3[@class="r"]/a/@href';
$matches[1] = getDomValue($result, $path);
//echo $result;
//print_r($matches[1]);
for ($j=0; $j&lt;count ($matches[1]); $j++) {

/*
* On utilise la fonction parse_url qui permet d'eclater une url
* en host / path / query
*/

$urlvoleur =  $matches[1][$j];
$tmp = parse_url($urlvoleur);
$voleur = $tmp['host'];

if (!stristr($deduplicate, ';'.$voleur.';')) {
$k++;
$ip=gethostbyname($voleur);
if ($k % 2) $odd=' class="odd"';else $odd='';
$mailcontent = '&lt;u&gt;Sujet:&lt;/u&gt; Respect du droit d\'auteur relatif au site '.$domaine.'&lt;br /&gt;&lt;br /&gt;';
$mailcontent .= 'Monsieur,&lt;br /&gt;&lt;br /&gt;';
$mailcontent .= 'Nous venons de d&amp;eacute;couvrir votre site internet '.$voleur.'. Bien qu\'il ait retenu notre attention, nous avons eu la d&amp;eacute;sagr&amp;eacute;able surprise de constater que vous repreniez in extenso certains contenus r&amp;eacute;dactionnels directement issus de notre siteweb '.$domaine.':&lt;br /&gt; Page concern&amp;eacute;e: http://'.$urlvoleur.'&lt;br /&gt;&lt;br /&gt;';
$mailcontent .= 'Vous comprenez bien que cette situation est pour nous intol&amp;eacute;rable. Nous sommes contraints de vous rappeler que, selon le code de la propri&amp;eacute;t&amp;eacute; intellectuelle (http://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT000006069414&amp;dateTexte=20080911), il est interdit de reproduire librement un texte, une image, un son, sans le consentement de son auteur (article L.122-4) et que les textes mis en ligne sur le site '.$domaine.', sauf mentions particuli&amp;egrave;res, sont la propri&amp;eacute;t&amp;eacute; intellectuelle et l&amp;eacute;gale de son auteur.&lt;br /&gt;&lt;br /&gt;';
$mailcontent .= 'Nous vous prions donc de retirer de votre site '.$voleur.' les articles directement copi&amp;eacute;s-coll&amp;eacute;s de notre site '.$domaine.'. Nous comptons sur votre intervention dans les meilleurs d&amp;eacute;lais.&lt;br /&gt;&lt;br /&gt;Dans cette attente, veuillez recevoir l\'expression de mes cordiales salutations&lt;br /&gt;&lt;br /&gt;';
$domaines .= '&lt;tr'.$odd.'&gt;&lt;th&gt;&lt;a href="'.$urlvoleur.'" target="_blank"&gt;'.$urlvoleur.'&lt;/a&gt;&lt;/th&gt;&lt;td&gt;&lt;a href="http://whois.domaintools.com/'.$voleur.'" target="_blank"&gt;'.$voleur.'&lt;/a&gt;&lt;/td&gt;&lt;td&gt;'.$ip.'&lt;/td&gt;&lt;td&gt;&lt;a href="#?w=700" rel="mailcontent'.$k.'" class="poplight"&gt;Email&lt;/a&gt;&lt;/td&gt;&lt;/tr&gt;';
$export .= $voleur."\t".'http://'.$voleur.'/'.$matches[2][$j]."\t".$ip."\n";
$fulldiv .= '&lt;div id="mailcontent'.$k.'" class="popup_block"&gt;'.$mailcontent.'&lt;/div&gt;';
$deduplicate .= ';'.$voleur.';';$mailcontent='';
}
}
if ($k!=0 &amp;&amp; $k&lt;90){
file_put_contents($domaine.'.txt',$export);
$output = '&lt;u&gt;Requ&amp;ecirc;te effectu&amp;eacute;e:&lt;/u&gt; &lt;br /&gt;'.str_replace('+',' ',utf8_decode($query)).'&lt;br /&gt;&lt;br /&gt;';
$output .= '&lt;u&gt;Extrait de texte recherch&amp;eacute;e:&lt;/u&gt; &lt;br /&gt;"'.stripslashes($_POST["phrase"]).'"&lt;br /&gt;&lt;br /&gt;';
$output .= 'T&amp;eacute;l&amp;eacutecharger l\'export (clic droit): &lt;a href="'.$domaine.'.txt"&gt;'.$domaine.'.txt&lt;/a&gt;&lt;br /&gt;&lt;hr&gt;';
$output .= '&lt;u&gt;Liste des '.$k.' voleurs de contenus:&lt;/u&gt;&lt;br /&gt;&lt;br /&gt;&lt;table&gt;&lt;thead&gt;&lt;tr&gt;&lt;th class="corner"&gt;URL du contenu dupliqu&amp;eacute;&lt;/th&gt;&lt;th&gt;Whois si NDD appartient au voleur&lt;/th&gt;&lt;th&gt;Adresse IP&lt;/th&gt;&lt;th&gt;Texte &amp;agrave; envoyer&lt;/th&gt;&lt;/tr&gt;&lt;/thead&gt;'.$domaines.'&lt;/table&gt;&lt;hr&gt;';
$output .= 'Faire une nouvelle recherche de voleur de contenu: &lt;a href="'.$_SERVER["REQUEST_URI"].'"&gt;'.$_SERVER["REQUEST_URI"].'&lt;/a&gt;';}
else {
$output = '&lt;u&gt;Requ&amp;ecirc;te effectu&amp;eacute;e:&lt;/u&gt; &lt;br /&gt;'.str_replace('+',' ',utf8_decode($query)).'&lt;br /&gt;&lt;br /&gt;';
$output .= '&lt;u&gt;Extrait de texte recherch&amp;eacute;e:&lt;/u&gt; &lt;br /&gt;"'.stripslashes($_POST["phrase"]).'"&lt;br /&gt;&lt;br /&gt;';
$output .= 'Ouf! Votre contenu n\'a pas &amp;eacute;t&amp;eacute; r&amp;eacute;cup&amp;eacuter&amp;eacute;e par un m&amp;eacute;chant... Pas de contenu dupliqu&amp;eacutee, YOUPEE &lt;img src="http://www.yapasdequoi.com/blog/wp-includes/images/smilies/icon_smile.gif.pagespeed.ce.nuZG_6txEH.gif" alt=":-)" class="wp-smiley"&gt; &lt;br /&gt;&lt;br /&gt;';
$output .= 'Faire une nouvelle recherche de voleur de contenu: &lt;a href="'.$_SERVER["REQUEST_URI"].'"&gt;'.$_SERVER["REQUEST_URI"].'&lt;/a&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;';
}
return '&lt;table width="900" align="center"&gt;&lt;tr&gt;&lt;td&gt;'.$output.$fulldiv.'&lt;br /&gt;&lt;br /&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;';
}
if (isset($_POST["domaine"]) &amp;&amp; $_POST["domaine"]!='' &amp;&amp; isset($_POST["phrase"]) &amp;&amp; $_POST["phrase"]!='')
{
$dom = $_POST["domaine"];
print $output =  scrapounet ($dom,$phrase);
}
else {
?&gt;
&lt;table width="800" align="center"&gt;
&lt;form method="post" action="&lt;?print $_SERVER["REQUEST_URI"];?&gt;" &gt;
&lt;tr&gt;&lt;th&gt;Votre nom de domaine:&amp;nbsp;&lt;/th&gt;&lt;td&gt;&lt;input type="text" name="domaine" value="axe-net.fr"&gt;&lt;br /&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;th&gt;Phrase &amp;agrave; trouver chez un vilain copieur:&amp;nbsp;&lt;/th&gt;&lt;td&gt;&lt;textarea name="phrase" cols="70" rows="3" maxlength="130"&gt;La r&amp;eacute;ussite de cette entreprise repose avant tout, sur l'&amp;eacute;coute attentive de vos besoins en mati&amp;egrave;re de communication et l'&amp;eacute;tude de votre secteur d'activit&amp;eacute;.&lt;/textarea&gt;&lt;br /&gt;Max: 130 caract&amp;egrave;res / si le dernier mot est coup&amp;eacute; (copier/coller), supprimez-le.&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;th colspan="2"&gt;&lt;input type="submit" value="Allons attraper ces plagiaires !"&gt;&lt;/th&gt;&lt;/tr&gt;
&lt;/table&gt;
&lt;/form&gt;
&lt;? } ?&gt;
&lt;/body&gt;
&lt;/html&gt;

Si les plagiaires sont encore là…

Si jamais après ces échanges de mails, le plagiaire ne veut toujours pas coopérer, vous pouvez toujours faire appel à l’agence tous risques qui se fera un plaisir de lui régler son compte, ou utiliser le formulaire Google de Spam Report. A vous la domination des SERP!

Comment? j’ai utilisé une image sans l’autorisation de son auteur? euh, c’est juste le screenshot d’un film qui a déjà gagné assez d’argent 🙂

Articles relatifs au vol de contenu suceptibles de vous intéresser: , Plagiat, liste des voleurs de contenu chez Axe-net, Vol de contenu et duplicate content chez Axe-Net, Duplicate-Leaks, les nouveaux-zorros?

Tenez-vous informés des mises à jour en vous abonnant aux commentaires de cet article ou en suivant le topic dédié sur le forum Veille SEO. Toute proposition d’amélioration est la bienvenue, n’hésitez pas à retweeter si ça vous plait:-)

Recette du jour: Backup de… Créer des liens? Je crois…

53 commentaires

Diije dit :

22 novembre 2011 à 18 h 41 min

Merci Aymeric pour ce script que je vais m’empresser de tester 🙂
Benoit dit :

22 novembre 2011 à 18 h 44 min

Intéressant.

Le must serait un plugin WordPress, qui sur édition de post, visualise qui te copie 🙂
Ping : Script PHP: chasse aux voleurs de contenus et au duplicate content | Web Analytics & SEO | Scoop.it
Chiliconseo dit :

22 novembre 2011 à 18 h 50 min

Enormissime!!!! je vais tester aussi et je te tiens au courant!!!

Si ca marche impec ça va faciliter la vie à beaucoup d’entre nous!
Emmanuelle dit :

22 novembre 2011 à 18 h 51 min

Génial, faut que je teste ça rapidement !
Merki (t’as vu, cette fois, j’ai tout compris) !
Hervé dit :

22 novembre 2011 à 18 h 54 min

Sympa à Aymeric de proposer ce script que j’ai pu tester en avant-première.

Bon, ou c’est moins cool pour moi, c’est que j’ai chopé un copieur.

Merci pour le partage.
SEO Factory Girl dit :

22 novembre 2011 à 19 h 01 min

Et en plus tu sais faire des liens sur Twitter, tu es magnifique !
Littlebuzz dit :

22 novembre 2011 à 19 h 05 min

Super idée de script ! Je vais m’empresser de le tester.
Merci
Le Juge dit :

22 novembre 2011 à 19 h 11 min

Nice!

Sympa le petit script, pour le moment je ne m’en fais pas trop au niveau du duplicate … personnes ne me copie trop … mais c’est surement parce que j’ai une bien pietre orthographe… du coup..
ethno dit :

22 novembre 2011 à 19 h 25 min

Yeah bon ben tu as assuré! Je me mets ça dans les tools Seo!
SEO Factory Girl dit :

22 novembre 2011 à 19 h 28 min

Non mais vraiment, je te kiffe trop !
1. Aymeric dit :
  
  23 novembre 2011 à 12 h 58 min
  
  ;-D moi aussi ! #seovoici
Audrey dit :

22 novembre 2011 à 19 h 31 min

C’est clair, un petit plugin wordpress qui permettrait de checker le DC, ça serait le bonheur !
Bravo Aymeric 😀
PS : j’adore le design de ce blog (mais je crois que je te l’ai déjà dis 😉 )
1. Aymeric dit :
  
  23 novembre 2011 à 12 h 35 min
  
  Pas bête l’idée du plugin WordPress, je vais y réfléchir tiens…
  
  Pour le design, tu me l’as déjà dit, mais ça fait toujour splaisir à lire 😉
  Thanks again Loic : http://www.bel-et-bien-vu.com/blog/2011/07/yapasdequoi/
Niko dit :

22 novembre 2011 à 19 h 32 min

pas mal, je vais m’empresser de tester ce petit script
un plugin wordpress pourrait m’intéresser aussi d’ailleurs 🙂
SEO Factory Girl dit :

22 novembre 2011 à 19 h 37 min

Tu sais que tu es très beau ?
Antoine dit :

22 novembre 2011 à 19 h 44 min

Super ton script. Je crois que pour Axe-Net, y’a un paquet de mails qui vont partir 😉
miu dit :

22 novembre 2011 à 20 h 23 min

Merci pour ce partage Aymeric, ça peut être effectivement très pratique quand on a une grande popularité dans un domaine.

P.S: Mais quel sex-appeal!!! cc @SEOFACTORYGIRL 😉
1. SEO Factory Girl dit :
  
  23 novembre 2011 à 20 h 17 min
  
  LOL non mais en fait, c’est qu’à chaque commentaire il me volait mon BL, le filou…(il dira qu’il n’y est pour rien, néanmoins personne n’est dupe ^^).
Sylvain dit :

22 novembre 2011 à 20 h 55 min

Arf !
Si tu savais le nombre de recommandés que j’ai pu envoyer. Je me suis un petit peu lassé je l’avoue, j’attends plutôt qu’un jour un « gros » fasse de même, histoire de gagner un peu de sous sur le coup.

Sinon, un grand bravo pour ton script !
1. Aymeric dit :
  
  23 novembre 2011 à 12 h 42 min
  
  Effectivement, quand tu as plus de 50 plagiaires, je comprends que tu puisses te lasser! Je me suis permis de prendre ton site en exemple, comme je sais que tu es souvent confronté à ce genre de problèmes… et sinon merci;)
beunwa dit :

22 novembre 2011 à 20 h 58 min

Ton script est génial ! Par contre tu a utilisé. Les regex pour scrapper, c’est mal :p
Vincent dit :

22 novembre 2011 à 22 h 18 min

Ouh ça m’a l’air bien je vais tester ça 🙂
Morgan dit :

22 novembre 2011 à 23 h 51 min

+1 pour le plugin wp, tu ferais un carton avec !
Suffirait d’automatiser le check du texte en prenant après les 300 premières caractères et là t’as vraiment un truc auto qui fera (je l’espère) un peu chier ces plagieurs…
Watussi dit :

23 novembre 2011 à 0 h 22 min

Pas mal !

Il faut juste espérer que les voleurs soient suffisamment idiots pour laisser leur mail dans le whois…
Maximilien dit :

23 novembre 2011 à 0 h 57 min

Tout simplement excellent !! Merci beaucoup Aymeric pour ce joli code que tu nous as confectionné, avec ça on risque d’être plus tranquille à l’avenir 🙂
evenstood dit :

23 novembre 2011 à 2 h 47 min

Fuck yeah, ça c’est du tip top Script…Gestion de temps SEO optimisé avec ton petit outil là !

Si en effet une évolution plugin se faisait un jour, je vois déjà le délire de la masse !
duplicate dit :

23 novembre 2011 à 10 h 21 min

Merci pour le script qui va peut-être permettre de limiter un peu les risques de scrapping et de duplicate content. Ceci dit, j’ai bien peur que le vol de contenus ne s’arrête pas pour autant :-/
ben dit :

23 novembre 2011 à 11 h 27 min

Génial ce script, pouvoir envoyer directement un mail est le petit plus qui fait tout!
Steph dit :

23 novembre 2011 à 11 h 48 min

Un énorme merci pour le script. Je sens que certains webmasters vont avoir beaucoup de mails d’avertissements ses prochains jours !
Fabien dit :

23 novembre 2011 à 12 h 28 min

Ce script est tout simplement géant. Un grand merci pour cette réalisation. Cependant, y-a-t-il moyen d’augmenter la limite des 130 caractères ?
Agence de communication dit :

23 novembre 2011 à 12 h 35 min

Merci Aymeric !

Juste une petite boutade : C’est « vilan.php » ou « vilain.php » ? 😉

Et encore bravo pour ce script, il est diaboliquement indispensable par les temps qui courent !
1. Aymeric dit :
  
  23 novembre 2011 à 14 h 26 min
  
  OOOps, c’est corrigé, merci!
Emile dit :

23 novembre 2011 à 15 h 10 min

C’est super chouette ce petit script… il m’a déjà permis de trouver un gar qui me pompait tout mon RSS… Merci à toi
Zizounnette dit :

23 novembre 2011 à 15 h 17 min

félicitations pour ce petit dev utile.
longue continuation à ces bouts de sources pratiques !
Sventovit dit :

23 novembre 2011 à 15 h 28 min

« Allons attraper ces plagiaires ! »
au lieu de plagieurs.
À part ça ?
Ça fonctionne très très bien…
Merci pour le partage.
1. Aymeric dit :
  
  23 novembre 2011 à 16 h 21 min
  
  C’est pas faux pour « plagiaires »… merci, c’est corrigé:-)
LeMoussel dit :

23 novembre 2011 à 17 h 26 min

Merci de partager ce code d’une redoutable efficacité.
L’idée d’un plugin wordpress est très intéressante. 😉
Affiliation rencontre dit :

23 novembre 2011 à 17 h 50 min

Excellente idée de script, ça devrait servir à pas mal de monde.
Bravo et merci pour le partage.
ps : +1 aussi pour un plugin wp ^^
e_domi dit :

23 novembre 2011 à 18 h 13 min

Sympa le script! Et c’est vraiment super sympa de partager! Merci et bravo!!
Aymeric dit :

23 novembre 2011 à 19 h 31 min

En cas d’absence de contenu dupliqué, le script affiche entre 90 et 100 voleurs avec des résultats incohérents (pas de réel contenu dupliqué)…
En effet, Google renvoit malgré tout plus d’une centaine de résultats même si l’expression stricte n’est pas trouvée, je filtre du coup l’affichage si jamais plus de 90 résultats sont détectés.
Webmaster Tag dit :

23 novembre 2011 à 22 h 49 min

Au risque de passer pour un « cave » … J’ai relu et parcouru plusieurs fois cette article , impossible de trouver le lien pour charger ce fameux script. Help Help ! Pouvez vous me donner la clé ou au moins une piste ??
Merci de votre compréhension !
C3M dit :

23 novembre 2011 à 23 h 06 min

intéressant, merci
shelko dit :

24 novembre 2011 à 0 h 20 min

Vraiment super sympa ce script on va vite voir ce que ça donne, même si c’est de plus en plus compliqué de faire peur aux voleurs de contenu lorsque l’on est pas un monstre du web.
Fred dit :

24 novembre 2011 à 14 h 02 min

Merci pour cet outil, cela va me faciliter la tache.
consultant seo dit :

24 novembre 2011 à 18 h 47 min

yep merci pour ce script ça sera toujours un outil complémentaire à utiliser avec copyscape, positeo, plagium et tous les tools contre le DC 😉
angkor dit :

5 décembre 2011 à 9 h 00 min

Clair qu’il va être utile. Notamment pour les sites récent qui ont peu d’autorité et donc dont la chance qu’a google de ce trompé sur l’original est d’autant plus forte.
JB dit :

16 décembre 2011 à 12 h 31 min

Salut Aymeric,

Je viens de découvrir ton blog sur le forum SEO Sphere.
Et pas déçu d’être venu, ce script à l’air très bien pensé.
Je m’en vais le tester de ce pas. 🙂

Merci monsieur !
vince dit :

16 décembre 2011 à 15 h 25 min

Bien bon ça !! Merci de partager au plus grand nombre (surtout ceux qui codent si peu…) 😉
Loic dit :

30 décembre 2011 à 13 h 26 min

Super script, ça marche nickel ! Juridiquement, on peut attaquer un site parce qu’il nous pique du contenu ? Comment expliquer que parfois, alors que je suis la source du contenu, les pilleurs sont mieux positionnés que moi ?
Loic Hélias dit :

18 février 2012 à 16 h 08 min

Déterrage !
En tout cas merci, pour le petit script, je télécharge et vais regarder ça de plus près pour mon petit projet de CP.
Merci à toi !
Julien dit :

31 janvier 2013 à 17 h 03 min

Hello ! A quel point ce script chasse t’il le contenu dupliqué ? J’ai par exemple déjà pris en flagrant délit des personnes sortant des articles reprenant plusieurs de mes paragraphes sans copier l’intégralité… Seront-ils dans le radar ?
1. Aymeric dit :
  
  1 février 2013 à 10 h 27 min
  
  Je te conseille dans ce cas de te diriger vers « Duplicate Content Poison » de @512banque qui fait du bon boulot aussi (attention cependant au cache WordPress & serveur) http://www.deliciouscadaver.com/duplicate-content-poison-tuez-definitivement-tous-les-copieurs.html

Script PHP: chasse aux voleurs de contenus et au duplicate content

Halte au vol de contenu

Script PanPan féfesses voleur!

Si les plagiaires sont encore là…

53 commentaires

Laisser un commentaire Annuler la réponse

Articles similaires

Analyse des paramètres d’URL pour les audits SEO

Analyser les combinaisons de paramètres d’URL dans les logs

Récupérer le nombre de followers/following d’un compte Google+