Netlinking, Google et targets: Scrapons peu mais scrapons bien

écrit par Aymeric

scrap googleLorsque vous scrappez les pages de résultats de Google dans le but de trouver des cibles potentielles pour vos campagnes de netlinking, il ne ressort souvent que très peu d’URLs potables sur un grand nombre d’URLs récupérées.

Séprarer le bon grain de l’ivraie pour peu de rendement au final, les grosses moissons d’URL demandent des ressources et surtout des proxys pour eviter de tomber dans les captchas…

Avoir la réponse au bout de son nez

Bien souvent, après avoir scraper des milliers de pages de résultats avec variation de mots clés, et autres commandes site:.{fr|be|net|com}, je me retrouve avec des centaines d’URL des mêmes blogs, qui ne sont pas forcément de bons plans. En pendant que je scrape les URLs de ces blogs, c’est autant d’URL plus pertinentes que je ne récupère pas.

Comment faire pour ne scraper qu’une seule page de chaque site, pour avoir un maximum de targets potentielles?
La réponse était devant moi, depuis toujours, sans que je n’y prête jamais vraiment attention: Google Blogs!

Google Blogs Search

Google Blogs Search

L’avantage de Google Blogs Search est que comme son nom l’indique, il filtre les résultats pour les sites ayant cette typologie, et permettant souvent de poster des commentaires intéressants liens optimisés.
Mais ce qui va nous intéresser, c’est la possibilité de n’afficher que les pages d’accueil de ces blogs et donc de récupérer un maximum d’URL différentes:

Google Blogs Option pour les pages d'accueil

Voilà de quoi sortir une belle liste de sites Web en jouant avec les commandes inurl et intitle. Si vous n’avez pas utilisé de footprint spécifique pour détecter un CMS, vous pourrez toujours utiliser Whatweb pour connaître le CMS utilisé pour chacune de ces targets.

Paramètres pour le scraping

Si vous avez déjà votre propre script de scraping, voici les paramètres d’URL pour lancer la recherche sur Google Blogs:

– Google Blogs: Paramètre tbm avec la value blg
– Pages d’accueil seulement: Paramètre tbs avec la value blgt:b

ce qui donne https://www.google.fr/search?pws=0&tbm=blg&q=voyage&source=univ&tbs=blgt:b

Il ne vous reste plus qu’à configurer un nouveau profil de Scrap en Mode Expert dans votre RDDZ Scraper préféré !

Cette méthode de scrap vous permettra d’avoir pleins d’URLs en préservant un maximum vos proxys. Couplée à l’astuce de Watussi pour récupérer des NDD expirés et vous avez de quoi vous occuper pour cet hiver ;-)

Source de la photo

écrit dans Astuces par Aymeric | 48 commentaires

48 commentaires "Netlinking, Google et targets: Scrapons peu mais scrapons bien"

  • jb dit:
  • Diije dit:
  • Pierre dit:
  • Jguiss dit:
  • Freddy dit:
  • Jérôme dit:
  • Mikiweb dit:
  • Arnaud dit:
  • Daniel dit:
  • Pat dit:
  • Simon dit:
  • Eric dit:
  • Christophe dit:
  • Stoff dit:
  • Arnaud dit:
  • Svetlana dit:
  • Gerard dit:
  • RDD dit:
  • Shelko dit:
  • Xav dit:
  • Tiger dit:
  • Louis dit:
  • Adam dit:
  • Aurelien dit:
  • Fred dit:
  • Fred dit:
  • Nix dit:
  • thomas dit:
  • Jordan dit:
  • Mali dit:
  • Augustin dit:
  • Enzo dit:
  • Jeromeweb dit:
  • Soul dit:
  • Jeromeweb dit:
  • Enzo dit:
  • websilon dit:
  • référencement web dit: