Netlinking, Google et targets: Scrapons peu mais scrapons bien

Posted on 17 janvier 2013 by Aymeric

Lorsque vous scrappez les pages de résultats de Google dans le but de trouver des cibles potentielles pour vos campagnes de netlinking, il ne ressort souvent que très peu d’URLs potables sur un grand nombre d’URLs récupérées.

Séprarer le bon grain de l’ivraie pour peu de rendement au final, les grosses moissons d’URL demandent des ressources et surtout des proxys pour eviter de tomber dans les captchas…

Avoir la réponse au bout de son nez

Bien souvent, après avoir scraper des milliers de pages de résultats avec variation de mots clés, et autres commandes site:.{fr|be|net|com}, je me retrouve avec des centaines d’URL des mêmes blogs, qui ne sont pas forcément de bons plans. En pendant que je scrape les URLs de ces blogs, c’est autant d’URL plus pertinentes que je ne récupère pas.

Comment faire pour ne scraper qu’une seule page de chaque site, pour avoir un maximum de targets potentielles?
La réponse était devant moi, depuis toujours, sans que je n’y prête jamais vraiment attention: Google Blogs!

Google Blogs Search

L’avantage de Google Blogs Search est que comme son nom l’indique, il filtre les résultats pour les sites ayant cette typologie, et permettant souvent de poster des commentaires intéressants liens optimisés.
Mais ce qui va nous intéresser, c’est la possibilité de n’afficher que les pages d’accueil de ces blogs et donc de récupérer un maximum d’URL différentes:

Voilà de quoi sortir une belle liste de sites Web en jouant avec les commandes inurl et intitle. Si vous n’avez pas utilisé de footprint spécifique pour détecter un CMS, vous pourrez toujours utiliser Whatweb pour connaître le CMS utilisé pour chacune de ces targets.

Paramètres pour le scraping

Si vous avez déjà votre propre script de scraping, voici les paramètres d’URL pour lancer la recherche sur Google Blogs:

– Google Blogs: Paramètre tbm avec la value blg
– Pages d’accueil seulement: Paramètre tbs avec la value blgt:b

ce qui donne https://www.google.fr/search?pws=0&tbm=blg&q=voyage&source=univ&tbs=blgt:b

Il ne vous reste plus qu’à configurer un nouveau profil de Scrap en Mode Expert dans votre RDDZ Scraper préféré !

Cette méthode de scrap vous permettra d’avoir pleins d’URLs en préservant un maximum vos proxys. Couplée à l’astuce de Watussi pour récupérer des NDD expirés et vous avez de quoi vous occuper pour cet hiver 😉

Source de la photo

Netlinking, Google et targets: Scrapons peu mais scrapons bien

Avoir la réponse au bout de son nez

Google Blogs Search

Paramètres pour le scraping

Aymeric

48 commentaires

Laisser un commentaire Annuler la réponse