Sunday, 24 June 2018

Quand on regarde les données Pensez comme un statisticien - sans les maths


Ecrit par Kevin Purdy

Traduit par Vincent van Heesewijk

 


Je m'appelle statisticien, parce que, bon, je suis un étudiant diplômé en statistiques. Cependant, posez-moi des questions spécifiques sur les tests d'hypothèses ou la taille d'échantillonnage requise, et ma réponse ne sera probablement pas très bonne.


L'autre jour, j'essayais de penser à la dernière fois que j'ai fait un test d'hypothèse ou une analyse formelle. Je ne pouvais pas m'en souvenir. En fait, j'ai dû déterrer les anciennes listes de cours pour savoir quand c'était. C'était il y a quatre ans pendant ma première année d'études supérieures. J'ai bien réussi dans ces cours, et je suis confiant que je pourrais faire cela avec un rafraîchissement rapide, mais ce n'est pas un problème. Ce n'est pas quelque chose que je fais régulièrement.
Au lieu de cela, les choses les plus importantes que j'ai apprises sont moins formelles, mais se sont révélées extrêmement utiles lorsque je travaillais / jouais avec des données. Ici, ils ne sont pas dans un ordre particulier.

Attention au détail
Souvent, ce sont les petites choses qui finissent par être les plus importantes. Il y avait une fois en classe quand mon professeur a mis en place un graphique sur le projecteur. C'était un tas de points de données avec une ligne ajustée lisse. Il a demandé ce que nous avons vu. Eh bien, il y avait une augmentation au début, une stabilisation au milieu, puis une autre augmentation. Cependant, ce qui m'a manqué était le petit blip dans la courbe dans la première augmentation. C'était ce que nous étions après.
Le point est que les tendances et les modèles sont importants, mais il en va de même pour les valeurs aberrantes, les points de données manquants et les incohérences.

Voir la grande image

Cela dit, il est important de ne pas être trop pris par des points de données individuels ou une petite section dans un très grand ensemble de données. Nous l'avons vu dans le graphique de récupération récent. Comme certains l'ont fait remarquer, si nous prenions du recul et regardions un laps de temps plus long, le contraste Obama / Bush n'a pas l'air si choquant.

Pas d'ordre du jour

Cela devrait aller de soi, mais aborder les données aussi objectivement que possible. Je ne dis pas que vous ne devriez pas avoir une idée de ce que vous cherchez, mais ne laissez pas vos idées préconçues influencer les résultats. Parce que si vous allez à la recherche d'un modèle spécifique, vous allez probablement le trouver. Ce sera juste au sacrifice de résultats précis.

Regardez en dehors des données

Contexte, contexte, contexte. Parfois, cela se fera sous la forme de métadonnées. D'autres fois, cela proviendra de plus de données.
Plus vous en savez sur la façon dont les données ont été collectées, d'où elles proviennent, quand elles se sont produites et ce qui se passait à ce moment-là, plus vos résultats sont informatifs et plus vous pouvez être sûr de vos résultats.

Demander pourquoi

Enfin, et c'est la chose la plus importante que j'ai apprise, demandez toujours pourquoi. Quand vous voyez un point dans un graphique, vous devriez vous demander pourquoi il est là. Si vous trouvez une corrélation, vous devriez réfléchir à la question de savoir si cela a un sens ou non. Si cela a du sens, alors refroidissez, mais sinon, creuser plus profondément. Les chiffres sont excellents, mais vous devez vous rappeler que lorsque les humains sont impliqués, les erreurs sont toujours une possibilité.




0 comments:

Post a Comment