Traduit par Vincent van Heesewijk
Les statistiques sont devenues un élément incontournable de la société moderne. Nous les lisons dans les nouvelles et ils sont utilisés pour déterminer les politiques qui affecteront tous les aspects de nos vies. Malheureusement, beaucoup de gens les interprètent sauvagement de manière fondamentale.
L'erreur
de taux de base qui trouve trop de terrorists
Voici
comment fonctionne l'erreur de taux de base: disons que vous avez une
entreprise avec 25% d'employés féminins et 75% d'employés masculins. De
l'extérieur, cela semble être une sélection biaisée de candidats masculins.
Nous supposons cela parce qu'aux États-Unis, la répartition par sexe est à peu
près égale. Cependant, cela ignore le bassin de candidats. Si seulement 10% des
candidats étaient des femmes, un pourcentage plus élevé de femmes ayant fait
une demande a été sélectionné par rapport au pourcentage d'hommes qui ont
postulé.
Un
autre exemple commun concerne le dispositif mythique de repérage des
terroristes. Imaginez une boîte qui a un taux de réussite de 99% pour
identifier positivement un terroriste et une chance de 99% d'identifier
correctement un non-terroriste correctement. On pourrait supposer que si sur
une population de 1 million de personnes, dont 100 sont des terroristes, la
case identifie une personne comme terroriste, il y a 99% de chances qu'elle
soit correcte. En réalité, c'est beaucoup plus proche de 1%. La raison en est
que la boîte a faussement sonné pour 1% des non-terroristes (9 999 personnes),
ainsi que pour 99% des vrais terroristes (99 personnes).
Extrapolation
qui mène à la polygamie
L'extrapolation
est un favori de quiconque anticipe les tendances économiques ou prédire
l'avenir. "Cette chose s'est produite sur une période de temps déterminée,
ce qui va continuer à se produire." Sauf que ce n'est peut-être pas vrai. Lorsque
nous analysons les tendances passées, nous devons garder à l'esprit que les
facteurs qui ont produit ces tendances peuvent changer.
Prenez, par exemple, la prédiction de part
de marché des smartphones. En 2009, Gartner a prédit que d'ici 2012, Symbian
serait le premier système d'exploitation de smartphones dans le monde, avec 39%
du marché, alors qu'Android n'en aurait que 14,5%. En outre, Windows Mobile
battrait Blackberry, juste derrière l'iPhone. Inutile de dire que ce n'était
même pas le cas.
Alors, pourquoi Gartner était si loin?
Parce que l'extrapolation ne tient pas compte des circonstances changeantes.
Microsoft a tué Windows Mobile en faveur de Windows Phone, une plate-forme que
Nokia a adopté à la place de Symbian. Dans un grand mouvement, la prédiction
entière a été rendue non seulement incorrecte, mais complètement impossible.
Les choses changent toujours, c'est pourquoi presque toutes les prédictions
basées sur les tendances statistiques devraient raisonnablement être suivies de
l'expression «... en supposant que rien ne change».
Corrélation
qui n'implique pas toujours la causalité (mais pourrait)
Éviter
la «Corrélation n'implique pas la causalité» L'erreur est un vieux favori. Si
vieux, en fait, qu'il vient avec son propre adage latin: cum hoc ergo proptor
hoc. Cependant, le contrepoint à cela qui est souvent négligé est que la
corrélation soulève des questions sur la causalité. Ou, pour citer xkcd (encore
une fois): "La corrélation n'implique pas la causalité, mais elle agite
les sourcils de manière suggestive et gestuelle furtivement tout en
mâchonnant" regardez là-bas ".
Considérons
un exemple très controversé de l'Université des Sciences et Technologies du
Missouri qui a trouvé certains types d'utilisation d'Internet corrélés à la
dépression. Les utilisateurs souffrant de dépression ont été trouvés pour
vérifier plus souvent le courrier électronique, regarder plus de vidéos, ou se
livrer à plus de partage de fichiers.
L'hypothèse initiale faite par beaucoup de
lecture était que l'étude a prétendu que l'utilisation d'Internet a mené à la
dépression. Le mantra que "Corrélation n'implique pas la causalité!"
pourrait être invoquée pour soutenir que l'étude est incorrecte, mais elle
jette aussi le bébé avec l'eau du bain. Lorsqu'il n'y a pas d'explication
directe de la raison pour laquelle une chose est corrélée à une autre, une
étude plus approfondie - et non un congédiement catégorique - est justifiée.
Le
paradoxe de Simpson qui soulève et réduit les salaires
Le
paradoxe de Simpson est celui qui plie l'esprit, mais ce n'est vraiment
mathématique complexe. La version courte est que lorsque vous examinez des
données dans des sous-groupes, vous pouvez parfois voir une tendance, mais voir
une tendance complètement opposée lorsque vous visualisez ces mêmes données
dans un agrégat. Par exemple, le salaire médian, corrigé de l'inflation, a
augmenté aux États-Unis depuis 2000. Cependant, le salaire médian a diminué
pour chaque sous-groupe de travailleurs..
Les conséquences de ce paradoxe sont
qu'occasionnellement, si vous regardez les données sous une forme combinée,
vous pourriez être conduit à une conclusion contradictoire que si vous
l'examiniez en partie. Un exemple célèbre, basé sur une étude réelle, a trouvé
qu'un traitement de calculs rénaux A était plus efficace dans le traitement des
calculs rénaux de petite et de grande taille, mais le traitement B était plus
efficace lorsque les deux groupes étaient combinés.
Malheureusement, cela rend les décisions
basées sur des données soumises au paradoxe de Simpson plus complexes. D'une
part, si vous connaissez la taille d'une pierre au rein, le traitement A serait
évidemment préférable. Cependant, lorsque vous commencez à diviser les données
pour obtenir des résultats différents, vous pouvez découper les données pour montrer
tout ce que vous voulez.
Le meilleur plan d'action avec le paradoxe de Simpson (et, en fait, avec
n'importe quelles données statistiques), est d'utiliser l'information pour se
référer à l'histoire des données. Les statistiques sont fortement basées sur
les mathématiques, mais elles sont utilisées pour analyser des scénarios et des
situations du monde réel. Séparés de la réalité, les statistiques ont une
valeur limitée. Le fait de s'appuyer sur les chiffres en tant que
représentation impartiale de la réalité est réconfortant, mais sans l'attacher
aux personnes et aux situations de la vie réelle, l'information ne vaut rien.
0 comments:
Post a Comment