Lors d’une migration SEO, n’oubliez aucune URL pour vos redirections

Posted on 12 octobre 2012 by Aymeric

Comme vous le savez (ou pas), il est capital de rediriger l’ensemble des URL d’un site lors d’une refonte avec des redirections 301 afin de redistribuer la popularité des pages/site vers le nouveau site.

Ayant fait des recommandations pour plusieurs migrations SEO concernant les sites de deux clients récemment, je tenais à partager avec vous quelques éléments qui me semblent indispensables afin d’éviter toute chute de trafic.

Lors d’une refonte d’un site Web, toutes les URL ne peuvent pas forcément être maintenues (nouveau CMS, fusion de plusieurs sites, etc).

De bons articles sur la migration SEO existent comme celui de Ramenos qui détaille les 5 étapes pour sauver son SEO lors d’une refonte ou migration de site, mais j’aimerais faire un focus sur sa deuxième étape qui consiste à récupérer toutes les URLs du site.

J’utilise pour ma part 4 méthodes pour rediriger un maximum d’URLs:

Le crawl du site

Le crawl du site avec un logiciel tel que Xenu ou Screaming Frog SEO est la première étape afin de récupérer les URL du site.

L’ensemble des liens du site seront parcourus afin d’englober toutes les URL accessibles directement via un lien sur le site Web lui-même. Cela vous permettra dans un premier temps d’analyser la structure du site et des ses URL afin de procéder à l’organisation de votre future table de correspondance (typologie de pages & catégories).

Une fois le crawl fini, vous pensez avoir toutes les URL du site à migrer en main? Il n’en est rien, il vous en manque peut être une partie…

Liste d’URLs via l’outil de Web Analytics

Il est probable que des pages ne recevant plus de liens internes existent encore et génèrent du trafic SEO (ancienneté, liens externes).
Je demande donc au client de récupérer via sa plateforme de Web Analytics (Google Analytics, Xiti, NetRatings…), un export des URLs qui ont reçu un minimum de trafic sur les 6 derniers mois (voir plus), afin de compiler ces données avec le crawl déjà effectué à l’étape précédente.

Au delà de détecter d’autres pages à rediriger, cela me permet également de rediriger en priorité de manière stricte (page à page), les URL recevant le plus de trafic via les résultats organiques pour une transmission optimale de la popularité. Une redirection 301 importante oubliée risquerait d’impacter directement le trafic SEO de manière négative.

Outil d’analyse de linking

En complément de la liste d’URLs recevant encore du trafic (non détectées avec le linking interne), j’effectue également une analyse des pages qui bénéficient de backlinks.

J’utilise dans ce cas des outils comme Majestic SEO, (ou OSE, Ahrefs) pour trouver les pages « zappées » par les étapes précédentes qui reçoivent des liens externes et donc potentiellement du PR à retargeter.
On peut tomber sur d’anciens jeux-concours ou des pages évènementielles, avec un bon capital « linkjuice » quoi;)

Fouiller l’index de Google

Cette dernière étape permet de rediriger des pages ayant été indexées malgré le robots.txt et d’anciennes pages dupliqués entre autres. Les commandes site:, inurl: et autre filetype: seront vos alliées pour cette vérification ultime.

En fonction du volume de pages indexées, il est possible d’extraire l’ensemble des URL via Scrapebox RDDZ Scraper et la commande site: de Google en effectuant du scraping de manière récursive dans les répertoires afin de dépasser la limite des 1.000 premiers résultats de Google.

site:domaine.com/repertoire1/ = 1200 pages indexés

Il est donc nécessaire de segmenter /repertoire1/. On effectue donc la recherche suivante :

site:domaine.com/repertoire1/repertoireA = 850 pages indexés

puis

site:domaine.com/repertoire1/ -site:domaine.com/repertoire1/repertoireA = 350 pages indexés

et ce jusqu’à avoir extrait l’ensemble des pages indexées.

Cette dernière méthode permet de retrouver l’ensemble des URL dans l’index de Google et qui seront potentiellement re-crawlées. Dans la majeure partie des cas, c’est une sécurité supplémentaire mais elle n’est obligatoire.

Sur un site avec des dizaine de milliers de pages, hormis si vous développez un script spécifique pour effectuer l’opération décrite ci-dessus, cela peu s’avérer très fastidieux.
Dans ce cas, une analyse approfondie des logs serveurs sur plusieurs semaines peut permettre de récupérer une partie des pages crawlés par GoogleBot pour compléter la liste d’URL à rediriger. Une commande Bash tel que:

awk '{if($14 ~ /Googlebot/) {print $7}}' /var/log/apache2/access.log | sort | uniq -c | sort -n &gt;&gt; urlstoredirect.txt

fera l’affaire.

Table de redirections

Je vous recommande d’organiser les anciennes URL dans votre table de correspondances avec plusieurs colonnes supplémentaires:

[table “8” not found /]

Un tableau de ce type pourra vous aider à renforcer la popularité de certaines pages comme il offre une vision globale et structurée du site. Il aidera l’admin système à estimer le temps nécessaire à l’intégration des règles et directives Apache.

Cela vous permettra de gagner du temps après le crawl du nouveau site pour la mise en place des correspondances anciennes URL > nouvelles URL. Bien évidemment, en cas de pages supprimées lors de la refonte, il conviendra de les rediriger vers la catégorie la plus proche (ou un article similaire) pour garder une cohérence par rapport aux contenus demandés pour les internautes et les moteurs.

Pour ce qui est des listings d’articles/dossiers, je redirige en générale les pages 2,3,4,5 etc vers la première page du listing, sachant que ces pages peuvent bouger régulièrement dès qu’un article est ajouté. Attention toutefois aux QUERY_STRING lors de la création des règles : RewriteCond, QSA et autres flags se manipulent avec précautions si vous ne voulez pas générer encore plus de contenu dupliqué que vous n’en avez déjà…

Bref

La migration d’un site est pour moi l’occasion de redistribuer la popularité sur des pages spécifiques, ce qui peut parfois s’avérer assez efficace. J’en profite aussi pour retrouver d’éventuels domaines ou sous-domaines oubliés façon grand nettoyage de printemps.
À l’inverse, le fait d’avoir trop d’erreurs 404 et un plan de redirection mal construit peut être pénalisant et difficilement récupérable d’où l’intérêt de n’oublier aucune URL comme des liens de référents voir même des anciens liens d’affiliation.

Si vous souhaitez avoir plus d’infos, je vous invite à consulter ce topic Scoop it! sur la migration SEO

PS: Pour mieux surveiller vos erreurs 404 après la mise en production des règles de redirection, je vous recommande vivement de procéder à la correction des erreurs 404 déjà existantes au début du projet grâce à Google Webmasters Tools.
Vous y verrez plus clair dans un moment crucial (à savoir les jours qui suivent la mise en ligne), mais aussi vous pourrez tester le process d’intégration des directives par l’équipe IT de votre client: une sorte de répétition quoi 😉

Lors d’une migration SEO, n’oubliez aucune URL pour vos redirections

Le crawl du site

Liste d’URLs via l’outil de Web Analytics

Outil d’analyse de linking

Fouiller l’index de Google

Table de redirections

Bref

Aymeric

35 commentaires

Laisser un commentaire Annuler la réponse