Après avoir utilisé à quelques reprises l’outil de Webrankinfo pour mesurer la popularité d’une page sur les réseaux sociaux et suite à une demande d’un ami, j’ai voulu aller un peu plus loin dans les signaux sociaux et la popularité des pages… en le combinant avec les données d’un fichier sitemap pour récupérer tous ces indicateurs sociaux sur l’ensemble des pages d’un site. Les fichiers sitemaps (CSV ou XML) ne sont pas réservés qu’aux crawlers, ils regroupent l’ensemble des pages d’un site classées par ordre de priorité (enfin normalement), alors pourquoi s’en priver?
Et pourquoi faire? On peut y trouver plusieurs utilités. Tout d’abord, cela peut permettre de savoir si certains boutons de partage/like sont inutilisés… On peut aussi connaître les contenus les plus efficaces sur les réseaux sociaux, les plus populaires et pourquoi pas les catégories/rubriques ayant le meilleur impact sur ces réseaux. On pourrait aussi l’utiliser pour mettre en avant certains boutons de partages plus que d’autres en fonction des articles. Bref, il y a de quoi faire à priori, vous y trouverez peut être d’autres utilités: dites moi lesquelles:-)
Concernant le script, j’ai ajouté des pauses pour éviter les « User Rate Limit Exceeded » des différentes API entre tous les appels. J’ai volontairement supprimé Delicious et Stumbleupon car sur différents sitemaps testés, ces valeurs étaient trop marginales pour être pertinentes, mais je pourrais les rajouter dans la V2 du script qui peut encore être amélioré, d’ailleurs combiné avec l’API de Google Analytics, on devrait arriver à quelque chose de sympa. Afin de permettre un traitement des données sur Excel par la suite, le fichier généré en sortie est au format CSV.
Exemple du résultat:
Il vous suffit d’envoyer le script sur votre serveur et de l’appeler de cette manière: http://www.monsite.com/socialscript/script.php?priorite=0.5&sitemap=http://www.monsite.com/sitemap.xml
La valeur du paramètre « priorite » permet d’extraire des données uniquement pour les URL du sitemap dont la priorité est supérieure ou égale (0.5 dans l’exemple). Ce filtre permet de ne pas faire remonter des pages trop profondes et « sans vie sociale »… quoi qu’il peut parfois y avoir des surprises sur des pages avec des priorité de 0.2.
Ah j’oubliais, le but ultime de ce script est d étudier la concurrence pour découvrir les contenus les plus populaires chez vos « ennemis », remerciez les robots.txt qui contiennent les chemins des sitemap, surtout quand ils ne s’appellent pas sitemap.xml !
Merci pour la popularité sur les réseaux sociaux que vous donnerez à cet article
001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 054 055 056 057 058 059 060 061 062 063 064 065 066 067 068 069 070 071 072 073 074 075 076 077 078 079 080 081 082 083 084 085 086 087 088 089 090 091 092 093 094 095 096 097 098 099 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 | <?php /* ###################################### ##### Signaux sociaux via sitemap #### ###### ----------------------- ####### ### Script provenant du site: ### ### http://www.yapasdequoi.com ### ### ### ### ** Version 1.0 ** ### ### ### ###################################### */ $i =0; socialsitemaps( $_GET [ "sitemap" ], '5' , $_GET [ "priorite" ]); function geturl ( $api , $url ) { $ch = curl_init(); switch ( $api ){ case "facebookall" :curl_setopt( $ch , CURLOPT_URL, 'http://api.facebook.com/method/fql.query?query=select%20like_count,%20share_count,%20comment_count,%20total_count%20from%20link_stat%20where%20url=\'' . $url . '\'&format=atom' ); break ; case "twitter" :curl_setopt( $ch , CURLOPT_URL, 'http://urls.api.twitter.com/1/urls/count.json?url=' .urlencode( $url )); break ; case "googlebuzz" :curl_setopt( $ch , CURLOPT_URL, 'https://www.googleapis.com/buzz/v1/activities/count?alt=json&url=' . $url ); break ; case "googleplus" :curl_setopt( $ch , CURLOPT_URL, 'https://clients6.google.com/rpc' ); curl_setopt( $ch , CURLOPT_POST, 1); curl_setopt( $ch , CURLOPT_POSTFIELDS, '[{"method":"pos.plusones.get","id":"p","params":{"nolog":true,"id":"' . $url . '","source":"widget","userId":"@viewer","groupId":"@self"},"jsonrpc":"2.0","key":"p","apiVersion":"v1"}]' ); curl_setopt( $ch , CURLOPT_HTTPHEADER, array ( 'Content-type: application/json' )); break ; case "linkedin" :curl_setopt( $ch , CURLOPT_URL, 'http://www.linkedin.com/cws/share-count?url=' .urlencode( $url )); break ; case "xmlsitemap" :curl_setopt( $ch , CURLOPT_URL, $url ); break ; } curl_setopt( $ch , CURLOPT_RETURNTRANSFER,1); $resultat =curl_exec ( $ch );curl_close ( $ch ); return $resultat ; } function socialsitemaps ( $sitemap , $pause , $priorite ) { if ( $sitemap == "" || ! eregi ( 'http://' , $sitemap )) { print 'URL incorrecte, le paramètre est vide ou mal formaté.<br /> Ex: http://' . $_SERVER [ "SERVER_NAME" ]. $_SERVER [ "PHP_SELF" ]. '?priorite=0.5&sitemap=http://www.monsite.com/sitemap.xml' ;} else { if (ob_get_level() == 0) ob_start(); parsesitemap( $sitemap , $pause , $priorite ); } ob_end_flush(); } function parsesitemap ( $map , $pause = '5' , $priorite = '1' ) { $xml = simplexml_load_string(geturl( 'xmlsitemap' , $map )); $len = count ( $xml ->url); foreach ( $xml ->url as $link ) { $lien = $link ->loc; $priority = $link ->priority; if ( $priority == "" ) $priority = '1' ; if ( $lien != "" && $priority >= $priorite ){ $i ++; $facebooklike =extractsign(geturl( 'facebookall' , $lien ), 'like' );sleep( $pause ); $facebookshare =extractsign(geturl( 'facebookall' , $lien ), 'share' );sleep( $pause ); $facebookcomments =extractsign(geturl( 'facebookall' , $lien ), 'comment' );sleep( $pause ); $facebooktotal = $facebooklike + $facebookshare + $facebookcomments ; $twitter =extractsign(geturl( 'twitter' , $lien ), 'count' ); $googlebuzz =extractsign(geturl( 'googlebuzz' , $lien ), 'count' ); $googleplus =extractsign(geturl( 'googleplus' , $lien ), 'plus' ); $linkedin =extractsign(geturl( 'linkedin' , $lien ), 'count' ); $total =0; $total = $facebooktotal + $twitter + $googleplus + $linkedin + $googlebuzz ; sleep( $pause *2); if ( $i == "1" ) { $filecontent .= 'URL;Priorité;Facebook Like;Facebook Share;Facebook Comments;Facebook total;Twitter;Google +1;Google Buzz;Linkedin;TOTAL;' . "\n" ; print '<html><head><title>Signaux sociaux des URL du sitemap ' . $_GET [ "sitemap" ]. '</title></head><body style="font-family:Verdana">' ; print '<br><table border="1"><tr style="font-weight:bold;"><td>URL</td><td>Priorit&eacute;</td><td>Facebook Like</td><td>Facebook Share</td><td>Facebook Comments</td><td>Facebook total</td><td>Twitter</td><td>Google +1</td><td>Google Buzz</td><td>Linkedin</td><td>TOTAL</td></tr>' ; } if ( $total != "0" ){ print '<tr><td>' . $lien . '</td><td>' . $priority . '</td><td>' . $facebooklike . '</td><td>' . $facebookshare . '</td><td>' . $facebookcomments . '</td><td>' . $facebooktotal . '</td><td>' . $twitter . '</td><td>' . $googleplus . '</td><td>' . $googlebuzz . '</td><td>' . $linkedin . '</td><td>' . $total . '</td></tr>' ; $filecontent .= $lien . ';' . $priority . ';' . $facebooklike . ';' . $facebookshare . ';' . $facebookcomments . ';' . $facebooktotal . ';' . $twitter . ';' . $googleplus . ';' . $googlebuzz . ';' . $linkedin . ';' . $total . ';' . "\n" ; ob_flush(); flush (); } } else { $len = $len -1; } if ( $i == $len ) { file_put_contents ( 'signauxsociaux.csv' , $filecontent ); print '</table><br><br>Fichier CSV g&eacute;n&eacute;r&eacute; pour le sitemap: ' . $map . ': <a href="signauxsociaux.csv">signauxsociaux.csv</a><br />' ; print 'Comment? Vous ne me suivez pas sur Twitter ? ah! c\'est par ici <a href="http://twitter.com/aymerictwit">@aymerictwit</a>' ; print '</body></html>' ; } } } function extractsign( $content , $valeur ){ switch ( $valeur ){ case "like" : $xml = simplexml_load_string( $content ); if ( $xml ->link_stat[0]->like_count!= "" ) return $xml ->link_stat[0]->like_count; else return 'Erreur' ; break ; case "share" : $xml = simplexml_load_string( $content ); if ( $xml ->link_stat[0]->share_count!= "" ) return $xml ->link_stat[0]->share_count; else return 'Erreur' ; break ; case "comment" : $xml = simplexml_load_string( $content ); return $xml ->link_stat[0]->comment_count; break ; if ( $xml ->link_stat[0]->comment_count!= "" ) return $xml ->link_stat[0]->comment_count; else return 'Erreur' ; break ; case "count" : if (preg_match( "/" . $valeur . "\"?:\"?([0-9]+)/s" , $content , $match ) && $match [1]!= "" ) return $match [1]; else return 'Erreur' ; break ; case "plus" : if (preg_match( "/count\"?:\"?\s+([0-9]+)./s" , $content , $match ) && $match [1]!= "" ) return $match [1]; else return 'Erreur' ; break ;} } ?> |
y’a pas de quoi
Si il n’y a pas de priorité dans le sitemap, ca tourne en rond ?
Non, ça ne tourne pas tout court! c’est corrigé: si il n’y a pas de priorité, il prend tous les liens du coup. Merci pour cette remarque, j’avais omis ce cas.