25

La balise meta noindex et NSEO, attention!

noindex-nofollowHier, j'ai vu passer un post de Gary Illyes (Webmaster Trends Analyst chez Google) qui m'a interpellé : https://plus.google.com/+GaryIllyes/posts/ZPPrxASiXf3

En effet, il annonce que la balise <meta name="robots"> est lu et comprise par Google à l'extérieure d'une section HEAD d'une page Web, ce qui signifie concrètement qu'une balise <meta name="robots" content"noindex"> placée dans la partie <body> d'une page d'accueil par exemple, pourrait tout simplement sortir une homepage de l'index Google.

Violent non?

Le test du noindex dans le <body>

Afin de s'assurer que cette info était bien réelle, Sir Jessy Seo Noob a fait un test sur son site:

- 1 article standard
http://www.love-moi.fr/2015/06/la-confirmation-que-cet-article-sindexe.html

- 1 autre article,  mais contenant cette fois ci une balise meta noindex dans la partie centrale de la page:
http://www.love-moi.fr/2015/06/le-test-qui-confirme-ou-pas-la-regle.html

noindex-dans-le-body

Les 2 URL ont reçu des liens, des pings par plusieurs twittos, et ont été "Explorés par Google" via Google Search Console. Le résultat du test est là:

La première page a été indexée: 

url indexee

La deuxième page (avec noindex dans le body) n'a pas été indexée:

url noindex

 

SEOmuscle à d'ailleurs confirmé cette info:

Vous allez me dire: et alors? et bien je vais vous répondre que c'est une porte ouverte pour du NESO sur certains sites...

NSEO avec cette noindex

Imaginez un site qui ne filtre pas les balises <html>, ou encore qui ne filtre que certains éléments HTML (script, link,...) sauf les <meta>. Via cette faille XSS, un internaute mal intentionné pourrait alors injecter une balise de ce type dans vos pages, pour les faire désindexer purement et simplement.

Cette directive noindex pourra très bien se retrouver sur une page d'accueil d'un CMS mal sécurisé (ou via des plugins mal sécurisés):

- Site de communiqué de presse

- Derniers avis

- Top commentaires

- Forum

- Dernières petites annonces

- etc.

Alors vérifiez bien que vos sites ne permettent pas ce genre d'injection, au risque de vous faire désindexer vos pages par des webmasters malveillants, ou encore de vous faire perdre le potentiel de transmission de jus d'une page via le nofollow.

Cette article a été écrit dans le but de vous sensibiliser afin de contrer ce type d'attaque, et en aucun cas pour vous inciter à effectuer ce genre d'actions. Ma responsabilité ne pourrait être engagée en cas d’utilisation de ces techniques.  Pour rappel, le NSEO c'est de la concurrence déloyale.

Soyez prudents et sécurisez vos sites 😉

PS: Merci encore à Merci à Jessy Seo Noob pour son test! Retrouvez-le sur Twitter: https://twitter.com/jessyseonoob

25 commentaires

  1. C’est assez étonnant de la part de Google, bien qu’il ne respecte pas toujours les standards, c’est du grand n’importe quoi dans ce cas précis.

  2. C’est compréhensible que google prenne en compte les balises meta en dehors du head.

    Vu qu’on peut implémenter les micro données avec des balises meta, celles-ci ne sont pas forcement dans le head, et un moteur doit etre capable de les interpréter.

    Après, ca peut faire des dégâts… 🙂

    • Bonjour,

      En HTML5, les balises se placent où l’on veut.

  3. Ouch, ça peut effectivement faire mal.

    Et quid des articles de référenceurs et développeurs qui mettent ce code dans leurs tutoriels : cela désindexe aussi leurs publications ?

  4. Ah oui, quand même … en espérant surtout que cette interprétation chez Google passe à la trappe rapidement !

  5. Un simple commentaire sur un site qui autorise les balises HTML et on est susceptible de dégager… C’est vraiment n’importe quoi !

    Merci pour le partage en tout cas !

  6. Merci pour cette mise en garde. En effet, cela peut être très paralysant pour un site si cette balise peut être placée dans une page sans autorisation ni modération. Elle disparaît des serps donc plus de trafic direct provenant de Google. Moins de trafic, donc moins de conversions donc baisse du CA.
    Je pense que les “gros” sites ne sont pas toujours modérés mais sont, pour la plupart, sécurisés. Les petits ne le sont pas toujours et doivent faire attention. Après, on n’est jamais à l’abri de failles dans un petit comme dans un gros site.

  7. Étonnant effectivement…Par contre, les possibilités d’injecter “facilement” du code source sur un site tiers restent quand même assez limitées.

  8. Ca fait froid dans le dos ! Pour le second article avec noindex dans le body, ce serait intéressant de rajouter une balise meta index dans le head… Je me demande aussi si ça marche à l’inverse (noindex dans le head, index dans le body)

    • j’avais déjà effectué ce test et en cas d’infos contradictoires (index en X-Robots-Tag et noindex en meta), c’est le noindex qui a le plus de poids.

  9. Ca fait longtemps que je l’avait trouvée celle la, mais en fait ce qui se passe c’est que toutes les balises sont lues par google et même si elles ne sont pas dans le 🙂 car le programmeur de chez google avait surement la flemme de vérifier qu’elles étaient bien placées dans le HEAD ( oui je vois vos yeux qui étincellent et votre cerveau qui fume , ça ouvre bcp de failles…).

  10. Merci Aymeric !

    Content que tu reblogues à nouveau depuis quelques temps, c’est super quali, même si parfois il faut quelques boîtes d’aspi 😉

    Pour compléter je dirais que mon test portait sur une page neuve toute fraîche dans laquelle j’ai mis la balise, et effectivement elle ne s’est pas indexée. J’ai testé sur une autre page que j’avais déja indexée, et j’ai retenté de forcer un recrawl, mais dans ce cas la balise n’a pas été prise en compte.

    Je vous donnerais des news dans quelques jours, parfois les modifs ne sont pas prise en compte immédiatement.

    mais c’est sûr qu’il faudra faire attention surtout pour les pages toutes neuves, d’ailleurs j’ai bien pris soin de scinder pour que le code n’apparaisse pas en page d’accueil sur mes résumés. 😉

    Pour continuer sur la lancée, j’ai tenté une link canonical, sur page neuve. La page s’est indexée et aucune redirection n’a été prise en compte.

    Stay tune

    Ah lisez mon dernière article, l’union fait la force et je voudrais en finir avec mes fails et voir comment je dois me repositionner 😉

  11. Merci pour toutes ces explications Aymeric !
    Ça fait limite froid dans le dos, car on pourrait imaginer bien d’autres utilisations encore plus vicieuses et liées à ce type d’injection. Quand je dis que Google est devenu complétement à la ramasse pour gérer son algo, voici encore et encore une faille de plus !
    Au plaisir 😉

  12. Vu que je commence à me faire la main sur la création de plugins WordPress, je me suis dit que ça pouvait être une bonne idée de faire quelque chose contre ce souci.

    J’en ai fait un petit du coup, qui alertera l’auteur de l’article (ou l’admin) si des meta robots noindex sont cachées dans le contenu d’un article. L’alerte se manifeste simplement par un warning en début d’article avec le nombre d’occurrences trouvées, à vous ensuite d’aller éditer pour les supprimer.

    Il est en attente de validation pour le moment, il sera dispo ici une fois validé : https://wordpress.org/plugins/better-noindex/

    En espérant que ça servira à certains d’entre vous !

  13. Vécu sur un site de 500.000 pages il y a deux ans, je confirme (le référenceur précédent n’était pas content ;-)).
    En pratique, il prend la dernière qu’il rencontre.

  14. Étonnant de la part de GG en effet ! En tous cas, merci pour l’astuce, ça permettra de faire un petit tour de vérification sur ses sites !

    Même si les possibilités sont limités, une vérification ne coûte rien, à part un peu de temps 😉

  15. Et oui

    Je me rapelle quand les google guys ont annoncé cela au SMX ca a fait un petit peu “vibrer” l’assistance.

    En fait ces annonces (puisque faite durant 2 conf’s) concernaient surtout une sorte d’avertissement compte tenu du fait que Google interprete tres bien les javascripts et les pages dynamiques et que par conséquent si on appelle une autre page via script il fallait faire attention ace que cette page ne soit en noindex si on voulait que sons contenu soit indexé.

    Je pense pour ma part que le fait que GG interprete un noindex dans le body vient du fait qu’il essaie maintenant d’interpreter le code de la page. UN effet de bord malheureux on va dire. Et effectivement ca peut etre un souci vis a vis de certaines attauqes NSEO avec des gens qui vont tenter d’injecter ca dans le code – bon apres je ne panique pas trop non plus par rapport au NSEO

  16. Ce qui serais vachement drôle ce serrais d’arriver à coupler l’injection de cette balise avec une autre qui fais une redirection. Qui va tester les métas refresh & cano ? 🙂

  17. sympa cette mise en garde, en plus ça donne des idées… si on peut sortir les metas du head on devrait pouvoir le faire pour d’autres balises, ça peut être bien drôle !

  18. Hello !
    De la même manière que si la meta robots avait été correctement renseigné/écrite sur cet article ce dernier ne serait pas indexé !
    J’avais fait l’erreur sur un de mes billets … =’)
    Enfin, je trouve cela très surprenant de la part de google !
    Amitiés, YannOuch.

  19. Salut !

    Intéressant comme article mais je me pose plusieurs questions :

    – Que se passe-t’il dans le cas ou un balise meta robots index, follow est déjà présente dans le header ? je suppose que la meta no index ne sera alors pas prise en compte… ce qui limiterait beaucoup l’impact

    – Quand je regarde le code source de cette page, je ne vois pas de meta robots dans le header et je trouve une <meta name="robots" content="noindex" (ligne 783) et pourtant la page est tjs indexée … d'ailleurs on retrouve cette balise dans le footer de tout le site !

    Donc soit la meta n'a pas encore été indexée pas google et yapasdequoi va degager des SERP sous peu, ou bien la meta robot n'est pas prise en compte si elle est placée dans le footer, ou encore les conclusions du test initial étaient fausses

    Je suis intéressé par votre avis sur la question !

    • Bonjour Quentin,
      La homepage a mis 5 jours à se désindexer, donc pour une page interne, ça sera probablement plus long! La home est bien désindexée comme tu peux le constater.
      Je vais d’ailleurs supprimer le noindex car le trafic baisse, et tout mon blog risque d’être désindexé en intégralité;)

      Si il y a un “index” plus haut dans la partie page, il faudrait faire le test.
      En tout cas, en cas d’infos contradictoires (entête HTTP vs head), c’est le noindex qui le remporte quoi qu’il arrive, j’avais déjà effectué un test sur cette question. Reste à savoir si Google tient compte de la première ou de la dernière balise rencontrée sur une même page.

  20. Maintenant il va falloir se méfier des commentaires sur les blogs ^^

  21. A oui la c’est clair que tu peux vite avoir des soucis. Je ne comprends pas que Google n’est pas prit en compte ce point.
    Donc comme le dit Patrice cela ne doit pas ce limiter à la meta robot. Si tu peux aussi manipuler la meta description et le title comme cela j’imagine même pas ce que tu peux faire LOL

Les commentaires sont fermés.