Le rôle clef du Data Analyst
D’autres indicateurs tels que les quantiles ou le coefficient d’asymétrie permettent d’affiner encore la connaissance des données.
Les indicateurs statistiques sont très précieux pour tirer de l’information d’un jeu de données sans avoir à lire tous les chiffres. Ils permettent d’avoir une bonne représentation de la situation et de prendre des décisions efficientes. Il n’est donc pas étonnant que beaucoup d’entreprises mettent en place des système dynamiques permettant d’avoir accès à ces informations au quotidien pour surveiller facilement les points clefs de leur business.
C’est le rôle du data analyst. Le data analyst identifie les indicateurs pertinents en fonction du type de décisions qui doivent être prises. Il s’occupe de les rendre accessibles simplement et rapidement grâce à des tableaux de bords dynamiques, qui se mettent à jour automatiquement pour explorer au mieux les données les plus récentes. Le data analyst à en outre un rôle de conseil concernant la lecture que l’on peut faire de ces chiffres et les pièges à éviter. Il est donc un élément incontournable pour toute entreprise qui souhaite rester concurrentielle et avoir un temps d’avance en tirant de l’information des données dont elle dispose.
Et si on résumait plus encore l’information ?
Chaque variable du jeu de donnée peut ainsi être résumée grâce à des indicateurs statistiques et il est possible de voir quotidiennement comment les choses évoluent en lisant uniquement ces quelques points clefs.
Mais supposons que l’on ait un grand nombre de variables (des centaines, voire des milliers), il devient alors impossible d’analyser le jeu de données simplement avec des indicateurs statistiques car il faudrait considérer chaque indicateur pour chaque variable. Ce qu’il faudrait c’est un moyen de résumer l’information, non pas pour chaque variable, mais transversalement à plusieurs variables.
C’est ce que permet une autre technique d’analyse de données : la réduction de dimensions. La réduction de dimensions permet de réduire le nombre de variables et d’obtenir un résumé de l’ensemble avec une perte d’information très nettement inférieure à la perte d’information qu’engendre le fait de retirer des variables pour ne conserver que « les plus importantes ». Elle permet donc de tenir compte d’un très grand nombre de variables, tout en limitant l’analyse comme s’il n’y avait que quelques variables. Ce sera l’objet d’un prochain article.