Friday, 15 June 2018

Quatre idées fausses des statistiques que vous devriez éviter

Ecrit par Eric Ravenscraft
Traduit par Vincent van Heesewijk




Les statistiques sont devenues un élément incontournable de la société moderne. Nous les lisons dans les nouvelles et ils sont utilisés pour déterminer les politiques qui affecteront tous les aspects de nos vies. Malheureusement, beaucoup de gens les interprètent sauvagement de manière fondamentale.


L'erreur de taux de base qui trouve trop de terrorists

Voici comment fonctionne l'erreur de taux de base: disons que vous avez une entreprise avec 25% d'employés féminins et 75% d'employés masculins. De l'extérieur, cela semble être une sélection biaisée de candidats masculins. Nous supposons cela parce qu'aux États-Unis, la répartition par sexe est à peu près égale. Cependant, cela ignore le bassin de candidats. Si seulement 10% des candidats étaient des femmes, un pourcentage plus élevé de femmes ayant fait une demande a été sélectionné par rapport au pourcentage d'hommes qui ont postulé.
Un autre exemple commun concerne le dispositif mythique de repérage des terroristes. Imaginez une boîte qui a un taux de réussite de 99% pour identifier positivement un terroriste et une chance de 99% d'identifier correctement un non-terroriste correctement. On pourrait supposer que si sur une population de 1 million de personnes, dont 100 sont des terroristes, la case identifie une personne comme terroriste, il y a 99% de chances qu'elle soit correcte. En réalité, c'est beaucoup plus proche de 1%. La raison en est que la boîte a faussement sonné pour 1% des non-terroristes (9 999 personnes), ainsi que pour 99% des vrais terroristes (99 personnes).
Extrapolation qui mène à la polygamie


L'extrapolation est un favori de quiconque anticipe les tendances économiques ou prédire l'avenir. "Cette chose s'est produite sur une période de temps déterminée, ce qui va continuer à se produire." Sauf que ce n'est peut-être pas vrai. Lorsque nous analysons les tendances passées, nous devons garder à l'esprit que les facteurs qui ont produit ces tendances peuvent changer.
Prenez, par exemple, la prédiction de part de marché des smartphones. En 2009, Gartner a prédit que d'ici 2012, Symbian serait le premier système d'exploitation de smartphones dans le monde, avec 39% du marché, alors qu'Android n'en aurait que 14,5%. En outre, Windows Mobile battrait Blackberry, juste derrière l'iPhone. Inutile de dire que ce n'était même pas le cas.
Alors, pourquoi Gartner était si loin? Parce que l'extrapolation ne tient pas compte des circonstances changeantes. Microsoft a tué Windows Mobile en faveur de Windows Phone, une plate-forme que Nokia a adopté à la place de Symbian. Dans un grand mouvement, la prédiction entière a été rendue non seulement incorrecte, mais complètement impossible. Les choses changent toujours, c'est pourquoi presque toutes les prédictions basées sur les tendances statistiques devraient raisonnablement être suivies de l'expression «... en supposant que rien ne change».
Corrélation qui n'implique pas toujours la causalité (mais pourrait)
Éviter la «Corrélation n'implique pas la causalité» L'erreur est un vieux favori. Si vieux, en fait, qu'il vient avec son propre adage latin: cum hoc ergo proptor hoc. Cependant, le contrepoint à cela qui est souvent négligé est que la corrélation soulève des questions sur la causalité. Ou, pour citer xkcd (encore une fois): "La corrélation n'implique pas la causalité, mais elle agite les sourcils de manière suggestive et gestuelle furtivement tout en mâchonnant" regardez là-bas ".
Considérons un exemple très controversé de l'Université des Sciences et Technologies du Missouri qui a trouvé certains types d'utilisation d'Internet corrélés à la dépression. Les utilisateurs souffrant de dépression ont été trouvés pour vérifier plus souvent le courrier électronique, regarder plus de vidéos, ou se livrer à plus de partage de fichiers.
L'hypothèse initiale faite par beaucoup de lecture était que l'étude a prétendu que l'utilisation d'Internet a mené à la dépression. Le mantra que "Corrélation n'implique pas la causalité!" pourrait être invoquée pour soutenir que l'étude est incorrecte, mais elle jette aussi le bébé avec l'eau du bain. Lorsqu'il n'y a pas d'explication directe de la raison pour laquelle une chose est corrélée à une autre, une étude plus approfondie - et non un congédiement catégorique - est justifiée.
Le paradoxe de Simpson qui soulève et réduit les salaires
Le paradoxe de Simpson est celui qui plie l'esprit, mais ce n'est vraiment mathématique complexe. La version courte est que lorsque vous examinez des données dans des sous-groupes, vous pouvez parfois voir une tendance, mais voir une tendance complètement opposée lorsque vous visualisez ces mêmes données dans un agrégat. Par exemple, le salaire médian, corrigé de l'inflation, a augmenté aux États-Unis depuis 2000. Cependant, le salaire médian a diminué pour chaque sous-groupe de travailleurs..
Les conséquences de ce paradoxe sont qu'occasionnellement, si vous regardez les données sous une forme combinée, vous pourriez être conduit à une conclusion contradictoire que si vous l'examiniez en partie. Un exemple célèbre, basé sur une étude réelle, a trouvé qu'un traitement de calculs rénaux A était plus efficace dans le traitement des calculs rénaux de petite et de grande taille, mais le traitement B était plus efficace lorsque les deux groupes étaient combinés.
Malheureusement, cela rend les décisions basées sur des données soumises au paradoxe de Simpson plus complexes. D'une part, si vous connaissez la taille d'une pierre au rein, le traitement A serait évidemment préférable. Cependant, lorsque vous commencez à diviser les données pour obtenir des résultats différents, vous pouvez découper les données pour montrer tout ce que vous voulez.
Le meilleur plan d'action avec le paradoxe de Simpson (et, en fait, avec n'importe quelles données statistiques), est d'utiliser l'information pour se référer à l'histoire des données. Les statistiques sont fortement basées sur les mathématiques, mais elles sont utilisées pour analyser des scénarios et des situations du monde réel. Séparés de la réalité, les statistiques ont une valeur limitée. Le fait de s'appuyer sur les chiffres en tant que représentation impartiale de la réalité est réconfortant, mais sans l'attacher aux personnes et aux situations de la vie réelle, l'information ne vaut rien.


0 comments:

Post a Comment