Appelez-nous : +33(0)4 78 84 08 85


Bandeau de titre - Opéra-Conseil

Le clustering, segmenter pour mieux décider

La prise de décision est un aspect central de l’activité et du pilotage de l’entreprise. Comportant toujours une part de risque, elle se base en premier lieu sur la connaissance experte des équipes métiers. Cette connaissance, indispensable, peut être augmentée et affinée grâce aux techniques d’analyse de données, par exemple dans des situations où elle est rendue difficile par un grand nombre de données qui, à première vue, ne sont pas homogènes. Aucune décision ne parait alors satisfaisante pour tous les cas de figure. Ce qu’il faut, c’est arriver à répartir les données en sous-ensembles de telle sorte que dans chaque groupe elles soient suffisamment homogènes pour permettre des décisions pertinentes pour l’ensemble du groupe. Quand une telle opération est trop complexe à réaliser avec une simple lecture, il est possible d’utiliser les puissantes techniques de clustering, et ainsi automatiser la recherche de ces groupes dans la masse de données.

Supposons, à titre d’exemple, que l’on dispose d’une grande quantité de données (anonymisées !) sur des clients potentiels avec notamment leurs préférences et attentes sur des produits. L’objectif est d’identifier lesquels de nos produits seraient susceptibles d’intéresser ces clients ou encore comment il faudrait faire évoluer nos produits pour qu’ils puissent intéresser les clients. Il s’agit donc d’utiliser l’information contenue dans les données pour prendre des décisions relatives au design des produits et à la stratégie marketing. Le problème est que les clients, tels que décrits par le jeu de données, semblent à première vue ne pas avoir de point commun très marqué. Aucune tendance générale ne se dégage et toute prise de décision ne paraît être adaptée qu’à une partie d’entre eux sans qu’il soit facile de cerner des groupes. Il doit pourtant bien être possible de répartir ces clients en groupes de telle sorte que les clients d’un même groupe aient suffisamment de points communs pour qu’une décision soit pertinente pour l’ensemble ! Mais le grand nombre de caractéristiques dont on dispose pour décrire ces clients nous empêche de trouver des groupes, ou alors un trop grand nombre, et au final on ne sait pas quoi prioriser pour avancer dans l’analyse.

Considérons le schéma suivant présentant les clients (représentés par des points), décrits ici par seulement deux caractéristiques, qui sont des notes de satisfaction sur deux produits A et B.

Clustering - Le clustering, segmenter pour mieux décider - Blog - Opéra-Conseil

Ce schéma met en évidence deux groupes assez marqués de clients : ceux qui aiment beaucoup les deux produits et ceux qui n’aiment pas A et moyennement B. Dans cette situation, un indicateur comme la satisfaction moyenne du produit A peut n’avoir aucun intérêt et même induire en erreur, car elle ne correspond en fait à pratiquement aucun client. Se baser dessus pour prendre une décision risque d’aboutir à une situation qui ne convient à personne, quand bien même il s’agit d’une décision moyenne sur l’ensemble. Ce qu’il faut ici c’est identifier les deux groupes que le schéma met en évidence et considérer ensuite les moyennes (ou tout autre indicateur) à l’intérieur de chaque groupe et non globalement. Le cas ci-dessus peut sembler évident et on peut se demander à quoi bon utiliser des techniques sophistiquées alors qu’il suffit d’afficher les données pour identifier les groupes comme c’est le cas avec ce schéma. Mais il n’y a ici que deux caractéristiques (les notes de satisfaction des produits A et B) ! Or dans la réalité, il y en a souvent des dizaines, voire des centaines, et en tout cas un nombre suffisamment grand pour qu’aucune représentation graphique ne soit possible, ni dans un plan, ni même dans un espace en 3D. On est alors aveuglé et quand bien même des groupes homogènes existent, on est incapable de les discerner.

Le clustering est la solution à ce problème. Il va précisément permettre de faire ce que l’œil est capable de faire sur le schéma ci-dessus, mais pour des clients décrits par un grand nombre de caractéristiques et ainsi permettre de bénéficier de toute la richesse d’information que contiennent les données. Chaque client est affecté à un groupe dont il est possible de mesurer l’homogénéité. L’analyse de chaque groupe peut alors se faire indépendamment des autres de manière à prendre des décisions pour chaque ensemble de clients qui soit pertinentes pour tout le groupe, tout en en limitant le nombre.

Les techniques de clustering peuvent être mises en œuvre par un Data-Scientist. Plusieurs méthodes, dont les principales sont détaillées dans cet article : « Qu’est-ce que le clustering ? Les 3 méthodes à connaitre », existent et peuvent être testées parallèlement pour ensuite être comparées. Chaque méthode a ses avantages et inconvénients. Certaines imposent de fixer à l’avance un nombre de groupes souhaités ; d’autres s’occupent de trouver le nombre de groupes permettant la plus grande homogénéité. Le Data-Scientist sait comment sélectionner et adapter ces techniques en fonction de la nature des données, des contraintes qu’elles imposent et des objectifs pratiques à atteindre.

La mise en œuvre de ces techniques n’a pas pour but de remplacer l’expert, mais plutôt d’enrichir ses connaissances en mettant en évidence des sous-ensembles qui ne sont tout simplement pas identifiables à la seule lecture du jeu de données. Les cas d’utilisation sont très vastes et s’appliquent a tous les domaines du moment qu’il y a des données à disposition. La classification obtenue peut apporter de la clarté qui s’ajoute aux connaissances des experts métier pour rendre plus efficaces et rapides les prises de décisions. Elle peut accélérer la recherche d’une segmentation et servir de base aux analyses des marketeurs. Mais le clustering peut aussi être utilisé pour faciliter la mise en œuvre de modèles prédictifs tels que les réseaux de neurones ou les forêts aléatoires, par exemple en aidant à régler les épineux problèmes liés aux données manquantes. Ces différents aspects seront présentés dans de futurs articles.


Découvrez plus d’articles de notre blog