20

Quelques pistes pour éviter le NSEO Duplicate Content

bip-bip-coyote-nseoJe profite du fait que Google indique vouloir lutter contre le Negative SEO pour sortir un article qui était dans mes cartons . Je ne vais pas m’attarder sur l’efficacité (ou non) de ce phénomène de « concurrence déloyale » , mais plutôt vous montrer comment nous pourrions commencer à s’en protéger.

Tout référenceur le sait, le contenu dupliqué, c’est mal! mais au fond, qu’est ce qui m’empêche aujourd’hui une petite linkwheel avec des backlinks de sites un minimum trustés (histoire de créer une micro-autorité) contenant des liens modifiés vers un blog cible à plomber avec des paramètres bidons en fin d’URL?

Je copie/colle ton site partout

Je suis un très méchant (j’adore cette vidéo débile) et je vais créer un lien vers : http://www.yapasdequoi.com/blog/scripts/1964-contenu-copie-image-trackee.html?id=jevaisplombertonsite pour exploser ton site Aymeric, une belle page dupliquée gratuite.
Googlebot va donc venir indexer http://www.yapasdequoi.com/blog/scripts/1964-contenu-copie-image-trackee.html?id=jevaisplombertonsite rapidement, en plus de mon URL déjà existante.

Avec quelques automatisations grâce à PHP + Ifttt, on peut arriver rapidement à faire indexer des milliers de pages identiques, les bras croisés. Ajoutez à cela quelques reverse proxy sous Varnish avec deux ou trois noms de domaines configurés en Wildcard * (ou des Web proxy Appspot), ça devient encore plus redoutable: une batterie de sous-domaines qui dupliquent des pages elles mêmes dupliquées avec de paramètres d’URL imaginaires. Aïe, j’ai mal…

Vite, le vaccin Docteur

Attention, le vaccin est à prendre avec des pincettes… dans ce qui suit, nous allons faire sauter tous les paramètres d’URL et les réecrire avec des redirections 301 vers les mêmes URL sans paramètres (on aurait tord de se priver des backlinks de notre agresseur). Selon la qualité des backlinks, une erreur 403, 404 ou 410 sera peut être plus adaptée d’ailleurs. J’ai volontairement conservé certains paramètres comme les paramètres utm_ de Google Analytics et la paramètre de page « p= » utilisé par WordPress au cas où ils sont utilisés, ça serait dommage de s’en priver.

RewriteCond %{REQUEST_URI} !^/wp-admin.* [NC]
RewriteCond %{QUERY_STRING} !=""
RewriteCond %{QUERY_STRING} !^.*(p|utm_source|utm_medium|utm_term|utm_content|utm_campain)=.* [NC]
RewriteRule ^(.*)$ http://www.yapasdequoi.com/blog/$1? [R=301,L]

Cela dit, la mise en place d’une balise <meta name=robots content=noindex> est peut être plus adaptée et moins radicale. Il suffirra dans votre code source d’ajouter cette balise en récupérant le contenu de variable $ SERVER[« QUERY_STRING »]. On pourra aussi filtrer certains paramètres:

&lt;?
if (isset($ SERVER["QUERY_STRING"]) &amp;&amp; $ SERVER["QUERY_STRING"]!=""){
$ SERVER["QUERY_STRING"]=$marequete;
if (!eregi("p=|utm_",$marequete, $marequete)) print '&lt;meta name=robots content=noindex&gt;';
}
?&gt;

On vient de me suggérer l’utilisation de l’attribut rel=canonical (que je n’utilise quasiment pas) qui reprendrait la chaîne http://$_SERVER[« HTTP_HOST »].$_SERVER[« REQUEST_URI »]. A tester…

Et contre les reverse proxy?

Pour contrer les Reverse proxy indésirables, on peut déjà se débarrasser rapidement des webproxy sur Google Appspot grâce à une règle de réécriture indiquée par @seoblackout dans son article Comment se protéger du duplicate content liés aux web proxy Appspot ? de la manière suivante:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AppEngine-Google [NC]
RewriteRule .* - [F]

Pour les autres proxys, ça sera au cas par cas, avec des détections dans les Headers et des restrictions par adresse IP par la suite.

Enfin bon, sérieusement, on en est pas là… Ceux qui voudraient tenter un coup de NSEO n’ont pas quelque chose de mieux à faire pour améliorer leur site?
N’oubliez pas, le NSEO peut se retourner contre vous (cf. Coyote vs Bip-Bip) 🙂

20 commentaires

  1. Sympa l’article de faire des 301 sur certains param d’url, mais dans ta condition tu ne vise que les param de GA (utm & co). Tu pourrais tout simplement faire une 301 sur tout ce qui colle pas à la string de ta regex.

    Il y en a qui se font vraiment shooté pour du BL sur de l’url dupliquée ?

  2. Le Negative SEO n’a qu’à bien se tenir avec toutes ces mesures de protection contre l’abus de Duplicate Content 😉

  3. Si j’ai bien suivi, tu maîtrises le duplicate entre une page1.html et page1.html?param (qui t’appartiennent toutes les deux (?))

    Mais, à moins de n’avoir pas compris (ce que je n’exclu pas… Au contraire :p), tout se passe sur ton site et c’est la même url sauf qu’une dispose de paramètres.

    C’est pourquoi la solution la plus efficace et de mettre sur page1.html un « canonical », ou bien sur l’autre page un noindex.

    C’est plus un système d’automatisation que tu proposes donc, ce qui, au passage, est plutôt utile 🙂

  4. Bon bon ca reste des epiphénomenes les attaques de NSEO.

    A priori pour les URLs bidons en duplicate souvent une bonne 404 (si possible perso) suffit souvent a parer a la plupat des eventualité.

    Pour le reste, je ne pense pas que le duplicate soit la meilleure attaque NSEO a faire (mais bon c’est mon avis)

    • Non pas la meilleure, mais ça reste une possibilité. oui pour les 404 aussi, l’astuce ici montrait juste la méthode pour supprimer les query string indésirables via Apache.

  5. Bon ben moi j’ai surtout compris l’épisode avec Nicky Larson…
    Du coup, Aymeric, ben j’ai bien pigé qu’il faudrait que je t’appelle en cas de problème ^^ !
    Tu m’en veux ?

  6. Et si le duplicate se trouve « en dehors ». C’est dans ce cas que le bas blaisse. Surtout si tu utilise un site comme wordpress.org pour héberger le site copieur, qui viendra copier tes articles à chaque mise en ligne… Non?

  7. Je trouve la technique du canonical plus adaptée également mais ta technique de 301 est pas mal et ça peut servir, on sait jamais 🙂

  8. Je vais partager l’avis du juge et préciser également que les attaques à coup de duplicate ne sont pas des pratiques redoutables en NSEO. Mais d’accord avec toi c’est une possibilité d’attaque et mine de rien elle peut être efficace sur des petits sites. Alors autant savoir se protéger… Merci donc pour l’article Aymeric.

  9. J’ai déjà eu un soucis avec de muvaises pages indexées et la balise canonical avait tout réglée en deux coups de cuillère à pot, et 15 jours de patience.
    Mais j’avoue que les techniques mentionnées dans l’article sont intéressantes.

  10. Je crois que même si ce moyen de protection n’est pas dans le long terme, on peut l’utiliser pour se mettre à l’abri du NSEO.

  11. Bonjour Aymeric,

    Pour le coup, je serais en phase avec Julien (le juge), je ne suis pas certain que le duplicate soit l’attaque NSEO la plus efficace et la plus utilisée mais toutes ces petites astuces que tu délivres peuvent être utiles un jour alors je les place dans la boite.

    amicalement

  12. Bonjour,

    De très bonne astuces. Mais ont ne pourras jamais être totalement à l’abris du NSEO. Mais vos techniques peuvent être utile et peuvent protégé quand même.

  13. Merci pour les tuyaux. J’ai un concurrent qui s’est amusé à appeler des pages de mon site de lunettes sous mes-catégories/mon-produit sur mon magento. Obligé de bloquer ça à la main. Il est très très méchant et il va falloir le punir^^

  14. Ce n’est peut être pas la pratique la plus efficace en NSEO mais si on la subit, au moins certains pourront la contrer grâce à cet article.

    Le NSEO est-il vraiment utilisé ?

  15. Avec Pingouin, je ne suis pas certain que le futur du NSEO se contentera du duplicate contente.

    Quelques campagnes massives de liens sur des sites bien pourris avec des ancres hyper optimisées risque de faire beaucoup de mal au site visé.

  16. Merci pour l’astuce qui est intéressante. Mais on est jamais à l’abris ^^

  17. Je me pose une question…. Faut il parler de ces pratiques… En fait plus il en est question plus cela risque de donner des idées à qui n’en aurait pas eut… non.? enfine je sais pas… question idiote? ,-)

  18. Il est vraiment géniale ton site, c’est une mine d’information. Moi j’ai plus une question par rapport à mon site actuel ou aucun annuaire n’en veut et je n’arrive pas trop à comprendre pourquoi … :S Voyez vous des changements que je pourrais faire pour l’améliorer, je passe aussi par wordpress

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *