Idées

3 exemples de Clustering pour les webmarketers

Par 9 juin 2015 0 Commentaires

Jeudi dernier se tenait QueDuWeb, événement organisé par les Frères Peyronnet. Lorsque Sylvain m’a proposé d’y présenter un exposé flash sur ce-qu-on-sait-faire-chez-One-Clic, le choix n’a pas été facile : tellement de sujets qui vaudraient le détour !

Logo QueDuWeb

QueDuWeb : un événement qu’il est bien !

Finalement, je me suis décidé à parler de clustering, parce que c’est un sujet encore assez peu évoqué dans le petit monde du SEO, et pourtant très intéressant.

Bien évidement, 7 minutes ne suffisent pas à évoquer toutes les facettes de ce sujet complexe, alors j’ai opté pour trois exemples d’applications concrètes, dans l’optique de faire germer les idées. Si vous étiez présents, j’espère que j’ai atteint mon objectif !
Mais pour aller un peu plus loin, voici quelques détails supplémentaires.

Clustering : kézako ?

Si vous avez des notions de théorie des graphes, vous êtes déjà en terrain conquis. Si ça n’est pas le cas, il est toujours temps d’apprendre quelques notions lors d’une des prochaines Masterclass des Frères Peyronnet, encore eux.

Le Data Clustering, en français partitionnement de données, est un ensemble de méthodes issues des statistiques et permettant d’analyser des données à grande échelle. En pratique, il s’agit de diviser un ensemble de données en clusters, des paquets homogènes. En d’autres termes, on va faire en sorte que chaque membre d’un groupe soit très similaire aux autres membres du groupes, et différent des membres d’autres groupes.

Naturellement, on va donc voir se rapprocher des données proches, la notion de proximité dépendant principalement de la nature des données.

Je vois trois principaux points qui symbolisent l’intérêt de ces techniques pour le webmarketing :

  • Il est possible d’automatiser une bonne partie des étapes de traitement, et d’apprendre ou de faire apprendre à l’outil que l’on utilisera en fonction du résultat des expériences passées (c’est le principe du Machine Learning),
  • On est rapidement capable de traiter des volumes très importants de données, ce qui est loin d’être anodin à l’heure du Big Data,
  • Ce sujet n’étant pas si nouveau qu’on pourrait le penser, la littérature scientifique et les outils abondent.

Bref, plein de choses excitantes en perspective !

Exemple 1 : explorer un univers sémantique

C’est un sujet que nous avons déjà abordé à plusieurs reprises sur ce blog, par exemple ici, puisque c’est l’usage premier de notre outil Clustaar : explorer des univers sémantiques pour en tirer des informations pertinentes.

Malgré la montée en puissance du not provided, on trouve encore énormément d’informations basées sur les mots-clés, les requêtes des internautes sur les moteurs de recherche. La difficulté est d’agréger ces données et de leur donner du sens, des points communs.

On peut par exemple se baser sur la lemmatisation, l’analyse de n-grams, une notion de cooccurrence ou encore un calcul de tf*idf pour calculer la proximité entre des requêtes. Quelle que soit la métrique retenue, l’objectif sera de regrouper les mots-clés les plus semblables entre eux.

On obtiendra alors des clusters plus ou moins pertinents en fonction de la métrique retenue, et des algorithmes appliqués à vos données.

exemple de clustering de mots clés

Exemple de clustering de mots clés : l’univers des robots de cuisine

Après insertion de nos données dans le logiciel Gephi (j’y reviendrai plus tard) on voit très vite apparaître nos clusters, regroupant des mots clés très proches sémantiquement.
Une visualisation de ce type est idéale dans un mode exploratoire, mais permet aussi très rapidement de détecter les sujets à traiter et les mots clés à employer par exemple. En y ajoutant des données de visibilité (quel site est présent sur quel mot clé), on peut aussi obtenir des informations sur la concurrentialité de chaque cluster.

Exemple 2 : segmenter une base d’utilisateurs

Pour ce deuxième exemple, petite mise en situation : imaginez que vous disposez d’une large base d’utilisateurs, qui échangent de nombreux liens entre eux. En bref, vous seriez donc un forum ou un réseau social.
Il est assez facile de thématiser certains des plus grands sites français : on peut affirmer sans gros risque d’erreur qu’une URL issue de www.lequipe.fr parlera de sport, tandis qu’une URL de www.750g.com aura pour thème la cuisine.

En définissant une liste de sites témoins, on pourra alors thématiser nos utilisateurs : si untel partage essentiellement des URL de github.com ou stackoverflow.com c’est sûrement qu’il s’intéresse au développement informatique.

exemple 2 : clustering d'utilisateurs

Clustering d’utilisateurs en fonction de leurs centres d’intérêts

Ici, les cercles sont de deux types : les plus gros sont les thématiques, tandis que les plus petits sont des utilisateurs. Si un utilisateur a partagé un lien associé à une des thématiques, il est relié à celle-ci par un arc dans le graphe. On va pouvoir isoler des utilisateurs spécifiques à une seule thématique, les influenceurs. Les individus qui leurs sont proches seront sûrement intéressés par des contenus de la thématique en question : voilà la base d’un système de recommandation !

Exemple 3 : réutiliser des données apprises

Il est également possible de réutiliser les données que l’on a apprises, ou au moins validées grâce à de précédentes expériences de clustering. Pour reprendre l’exemple précédent, j’ai identifié mes influenceurs en isolant les utilisateurs qui partagent exclusivement des URL de sites spécifiques à une thématique. Pourquoi ne pas se servir de cette connaissance pour catégoriser les pages d’un site moins facile à thématiser ?

clustering : détection des influenceurs

Détecter les influenceurs : quels utilisateurs ne parlent que d’une seule thématique ?

Prenons l’exemple d’un site e-commerce généralise : si un nombre important d’influenceurs pour un sujet donné partagent une même URL produit, alors ce produit a toutes les chances de les intéresser. En enrichissant petit à petit notre méthode, notamment en ajoutant de nouveaux influenceurs ou sites de référence, on obtiendra un système de plus en plus fiable.

Et concrètement ?

Les 3 exemples présentés ci-dessus sont relativement simplistes, et ont surtout pour but de faire germer des idées. Pour autant, si les méthodes de clustering sont déjà utilisées dans bien des domaines, avec des logiques parfois très évoluées, leur mise en place à une échelle plus raisonnable est relativement facile.

logo du logiciel Gephi

Gephi, le couteau suisse pour le clustering

Le logiciel Gephi, open-source et gratuit, permet d’expérimenter un bon nombre de choses. Les visualisations précédentes ont d’ailleurs toutes été réalisées avec cet outil, mais il intègre également directement un certain nombres d’algorithmes très utiles.

Si vous souhaitez vous lancer, je vous recommande de jeter un oeil à la documentation très fournie et riche en exemples concrets. Il ne vous restera qu’à trouver des données avec lesquelles jouer : commencez par regarder dans vos bases de données !

Les slides