Quelques pistes pour éviter le NSEO Duplicate Content

écrit par Aymeric

bip-bip-coyote-nseoJe profite du fait que Google indique vouloir lutter contre le Negative SEO pour sortir un article qui était dans mes cartons . Je ne vais pas m'attarder sur l'efficacité (ou non) de ce phénomène de "concurrence déloyale" , mais plutôt vous montrer comment nous pourrions commencer à s'en protéger.

Tout référenceur le sait, le contenu dupliqué, c'est mal! mais au fond, qu'est ce qui m'empêche aujourd'hui une petite linkwheel avec des backlinks de sites un minimum trustés (histoire de créer une micro-autorité) contenant des liens modifiés vers un blog cible à plomber avec des paramètres bidons en fin d'URL?

Je copie/colle ton site partout

Je suis un très méchant (j'adore cette vidéo débile) et je vais créer un lien vers : http://www.yapasdequoi.com/scripts/1964-contenu-copie-image-trackee.html?id=jevaisplombertonsite pour exploser ton site Aymeric, une belle page dupliquée gratuite.
Googlebot va donc venir indexer http://www.yapasdequoi.com/scripts/1964-contenu-copie-image-trackee.html?id=jevaisplombertonsite rapidement, en plus de mon URL déjà existante.

Avec quelques automatisations grâce à PHP + Ifttt, on peut arriver rapidement à faire indexer des milliers de pages identiques, les bras croisés. Ajoutez à cela quelques reverse proxy sous Varnish avec deux ou trois noms de domaines configurés en Wildcard * (ou des Web proxy Appspot), ça devient encore plus redoutable: une batterie de sous-domaines qui dupliquent des pages elles mêmes dupliquées avec de paramètres d'URL imaginaires. Aïe, j'ai mal...

Vite, le vaccin Docteur

Attention, le vaccin est à prendre avec des pincettes... dans ce qui suit, nous allons faire sauter tous les paramètres d'URL et les réecrire avec des redirections 301 vers les mêmes URL sans paramètres (on aurait tord de se priver des backlinks de notre agresseur). Selon la qualité des backlinks, une erreur 403, 404 ou 410 sera peut être plus adaptée d'ailleurs. J'ai volontairement conservé certains paramètres comme les paramètres utm_ de Google Analytics et la paramètre de page "p=" utilisé par WordPress au cas où ils sont utilisés, ça serait dommage de s'en priver.

RewriteCond %{REQUEST_URI} !^/wp-admin.* [NC]
RewriteCond %{QUERY_STRING} !=""
RewriteCond %{QUERY_STRING} !^.*(p|utm_source|utm_medium|utm_term|utm_content|utm_campain)=.* [NC]
RewriteRule ^(.*)$ http://www.yapasdequoi.com/$1? [R=301,L]

Cela dit, la mise en place d'une balise <meta name=robots content=noindex> est peut être plus adaptée et moins radicale. Il suffirra dans votre code source d'ajouter cette balise en récupérant le contenu de variable $ SERVER["QUERY_STRING"]. On pourra aussi filtrer certains paramètres:

<?
if (isset($ SERVER["QUERY_STRING"]) && $ SERVER["QUERY_STRING"]!=""){
$ SERVER["QUERY_STRING"]=$marequete;
if (!eregi("p=|utm_",$marequete, $marequete)) print '<meta name=robots content=noindex>';
}
?>

On vient de me suggérer l'utilisation de l'attribut rel=canonical (que je n'utilise quasiment pas) qui reprendrait la chaîne http://$_SERVER["HTTP_HOST"].$_SERVER["REQUEST_URI"]. A tester...

Et contre les reverse proxy?

Pour contrer les Reverse proxy indésirables, on peut déjà se débarrasser rapidement des webproxy sur Google Appspot grâce à une règle de réécriture indiquée par @seoblackout dans son article Comment se protéger du duplicate content liés aux web proxy Appspot ? de la manière suivante:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AppEngine-Google [NC]
RewriteRule .* - [F]

Pour les autres proxys, ça sera au cas par cas, avec des détections dans les Headers et des restrictions par adresse IP par la suite.

Enfin bon, sérieusement, on en est pas là... Ceux qui voudraient tenter un coup de NSEO n'ont pas quelque chose de mieux à faire pour améliorer leur site?
N'oubliez pas, le NSEO peut se retourner contre vous (cf. Coyote vs Bip-Bip) 🙂

écrit dans SEO par Aymeric | 20 commentaires

20 commentaires "Quelques pistes pour éviter le NSEO Duplicate Content"

  • PH dit:
  • DC dit:
  • flo dit:
  • Le Juge dit:
    • Aymeric dit:
  • Emmanuelle dit:
  • Graphemeride dit:
  • Alban dit:
  • KML dit:
  • Olivier dit:
  • stef dit:
  • lionel dit:
  • Clément dit:
  • Lou dit:
  • lereferenceur dit:
  • Hyadex dit:
  • Mathilde dit:
  • Création Internet Montauban dit:
  • Lucile dit: