Bandeau de titre - Opéra-Conseil

Statistical Indicators: What Lies Behind the Mean, Standard Deviation?

Les données sont disponibles de plus en plus massivement et regorgent d’informations qui peuvent être exploitées pour développer l’activité de l’entreprise. Si on se donne les moyens de les analyser, les données permettent d’améliorer les prises de décision, de rester concurrentiel en s’adaptant aux évolutions du marché, ou même d’avoir un temps d’avance en anticipant les changements à venir.

L’approche la plus sûre pour accéder à toute l’information sur un jeu de données est de le lire complètement.

Ainsi pour avoir une parfaite compréhension des ventes d’un certain produit au cours d’une année, le plus efficace serait de regarder toutes les ventes une par une ⇒ Mais bien sûr nous manquons de temps pour le faire.

Analyser les données est pourtant capital pour bien comprendre la situation et prendre les meilleures décisions. Nous voulons donc avoir la représentation la plus juste, la plus précise et la plus utile possible sur ces données, tout en ne les lisant pas. Est-ce possible ?

La réponse est : oui ! C’est ce que permettent les indicateurs statistiques.

La mise en place d’indicateurs, au moyen de tableaux de bords dynamiques, pour surveiller les points clefs de l’activité est devenu indispensable pour les organisations.

Supposons que sur un produit donné on ait demandé à un grand nombre de personnes de mettre une note de satisfaction entre 0 et 10. On se place dans un contexte où l’on veut avoir une vue de la satisfaction globale pour pouvoir prendre des décisions importantes, par exemple sur la campagne marketing à mettre en place. On peut commencer par regarder la moyenne, qui est un indicateur de tendance centrale ; supposons que cette moyenne soit 5. On sait alors que globalement la satisfaction n’est ni particulièrement bonne ni particulièrement mauvaise, mais ceci peut cacher des situations très différentes.

Si une grande partie des clients a mis des notes entre 6 et 8 mais un petit nombre a mis 0, la moyenne peut valoir 5 alors même qu’une majorité des clients est plutôt satisfaite. On est alors induit en erreur et ceci peut impacter négativement les décisions qui sont prises. Un autre indicateur permet de réduire ce risque : la médiane, qui est aussi un indicateur de tendance centrale. La médiane divise l’échantillon en deux groupes de même effectif. Dans l’exemple donné, la médiane aurait des chances d’être par exemple à 7, indiquant que bien que la satisfaction moyenne soit à 5, la moitié des clients ont mis une note supérieure à 7 et l’autre moitié une note inférieure. À l’inverse, si la plupart des clients ont mis des notes entre 2 et 4 mais un petit nombre a mis 10, la médiane pourrait être à 3 indiquant que la moitié des personnes est très peu satisfaite alors même que la moyenne pourrait encore être à 5. On voit donc que la moyenne seule peut être trompeuse car elle est très influencée par les valeurs extrêmes, même si ces valeurs sont minoritaires. La médiane, au contraire, est totalement résistante à ces valeurs extrêmes. Elle complète donc bien la moyenne pour avoir une vue juste de ce que disent les données.

Considérons une autre situation. Si tous les clients ont mis la note 5, la moyenne vaut 5. Si la moitié des clients a mis 0 et l’autre moitié a mis 10, la moyenne vaut encore 5. Dans le premier cas, tous les clients sont moyennement satisfaits ; alors quand dans le deuxième cas il y a un groupe totalement insatisfait et un autre parfaitement satisfait. Nul doute que ces deux situations doivent entraîner des prises de décisions complètement différentes. Mais la moyenne ne permet pas de les distinguer ! Et la médiane n’est d’aucun secours ! Il nous faut un indicateur qui informe sur la manière dont les valeurs sont réparties autour de cette moyenne. C’est le principe des indicateurs de dispersion comme l’écart-type. L’écart type est un complément indispensable à la moyenne car il informe sur le risque qui est pris en réduisant notre connaissance à la valeur moyenne. Dans l’exemple où tous les clients ont mis la note 5, l’écart-type vaut 0 et indique donc qu’il n’y a aucune dispersion autour de la moyenne, cette valeur pouvant donc être considérée sans risque. D’une manière générale, plus l’écart-type est grand, plus il y a une dispersion des valeurs et donc plus la moyenne doit être considérée avec précaution. Un trop grand écart-type peut amener à chercher des sous-ensembles dans les données de façon à identifier des groupes homogènes, ce qui est la base de techniques telles que le clustering. Chaque sous-groupe peut ainsi faire l’objet d’une prise de décision séparée et différente des autres, plus pertinente qu’une décision globale. Ce sera l’objet d’un futur article.

La lecture naïve d’indicateurs comme la moyenne peut induire en erreur et aboutir à de mauvaises décisions, et donc que le meilleur moyen de tirer profit de ses données en les analysant correctement est de confier cette tâche à un professionnel.

Nous expliquerons dans un prochain article le rôle indispensable du Data Analyst.


Discover more articles from our blog