Ecrit par Eric
Ravenscraft
Traduit par Vincent van Heesewijk
L'utilisation abusive des statistiques est l'un des moyens les plus puissants de mentir. Normalement, nous vous enseignons comment éviter les erreurs d'interprétation des statistiques, mais savoir comment les nombres sont manipulés peut vous aider à repérer quand cela arrive. À cette fin, nous allons vous montrer comment faire en sorte que les données disent quoi que vous fassiez pour sauvegarder toute mauvaise idée que vous avez.
Collectez des exemples de
données qui ajoutent un biais à vos résultats
La
première étape de la création de statistiques consiste à déterminer ce que vous
voulez analyser. Les statisticiens appellent cela la «population». Ensuite,
vous définissez un sous-ensemble de ces données à collecter qui, une fois
analysées, doivent être représentatives de la population dans son ensemble.
Plus l'échantillon est grand et précis, plus vos conclusions peuvent être
précises.
Bien sûr, il existe quelques grandes façons
de bousiller ce type d'échantillonnage statistique, soit par accident ou
intentionnellement. Si les données d'échantillon que vous rassemblez sont
mauvaises, vous finirez avec de fausses conclusions, peu importe quoi. Il y a beaucoup de façons de gâcher vos
données, mais voici quelques-unes des plus importantes:
- Biais de sélection personelle: Ce type de biais se produit lorsque les personnes ou les données que
vous étudiez volontairement se mettent dans un groupe qui n'est pas
représentatif de l'ensemble de votre population. Par exemple, lorsque nous
demandons à nos lecteurs des questions comme «Quelle est votre application
de textos préférée?», Nous recevons seulement des réponses de personnes
qui choisissent de lire Lifehacker. Les résultats d'un sondage informel
comme celui-ci ne seront probablement pas représentatifs de la population
dans son ensemble, car tous nos lecteurs sont plus intelligents, plus
drôles et plus attirants que la moyenne des gens.
- Échantillonnage de commodité: Ce biais se produit lorsqu'une étude analyse les données disponibles,
au lieu d'essayer de trouver des données représentatives. Par exemple, un
réseau de nouvelles par câble pourrait interroger ses téléspectateurs au
sujet d'un candidat politique. Sans interroger les gens qui regardent
d'autres réseaux (ou ne regardent pas du tout la télévision), il est
impossible de dire que les résultats du sondage représenteraient la
réalité.
- Biais de non-réponse: Cela se produit lorsque certaines personnes d'un ensemble choisi ne
répondent pas à une enquête statistique, ce qui entraîne une modification
des réponses. Par exemple, si une enquête sur l'activité sexuelle
demandait «Avez-vous déjà trompé votre conjoint?» Certaines personnes
peuvent ne pas vouloir admettre l'infidélité, donnant l'impression que la
tricherie est plus rare qu'elle ne l'est.
- Sondages en accès libre: ce type de sondage
permet à quiconque de soumettre des réponses et, dans de nombreux cas, ne
vérifie même pas que les personnes ne soumettent une réponse qu'une seule
fois. Bien qu'ils soient communs, ils sont fondamentalement biaisés parce
qu'ils n'essaient pas de contrôler l'entrée de manière significative. Par
exemple, les sondages en ligne qui vous demandent simplement de cliquer
sur votre option préférée tombent sous ce biais. Bien qu'ils puissent être
amusants et utiles, ils ne sont pas bons pour prouver objectivement un
point.
Ce ne sont que quelques-unes des nombreuses
façons dont un échantillon peut être biaisé. Si vous voulez créer une
impression trompeuse, choisissez votre poison. Par exemple, les sondages en
libre accès sur les sites Web peuvent être utilisés pour «prouver» que le
candidat que vous aimez le mieux a remporté un débat ou que Undertale est le
meilleur jeu de tous les temps. La beauté des biais de l'échantillonnage est
que quelqu'un, quelque part prend un sondage non scientifique qui dira tout ce
que vous voulez. Donc, juste Google autour jusqu'à ce que vous trouviez un
sondage non scientifique que vous aimez, ou diable - créez votre propre.
Choisissez l'analyse qui soutien vos idées
Le quatuor
d'Anscombe montre quatre graphiques différents qui ont presque exactement les
mêmes sommaires statistiques.
Étant donné que les statistiques utilisent
des chiffres, il est facile de supposer qu'elles constituent une preuve
tangible des idées qu'elles prétendent soutenir. En réalité, la mathématique
derrière les statistiques est complexe, et l'analyser incorrectement peut
donner des conclusions différentes, voire totalement contradictoires. Si vous
vouliez tordre une statistique pour répondre à vos besoins, fudge les maths.
Pour démontrer les failles dans l'analyse
des données, le statisticien Francis Anscom a créé le quatuor d'Anscombe (voir
ci-dessus). Il se compose de quatre graphiques qui, lorsqu'ils sont affichés
sur un graphique, montrent des tendances très différentes. Le graphique X1
montre un diagramme de dispersion basique avec une tendance ascendante. X2
montre une tendance incurvée qui montait, mais qui descend maintenant. X3
montre une tendance plus faible vers le haut, mais avec une valeur aberrante
sur l'axe Y. X4 affiche des données parfaitement plates sur l'axe X, sauf une
valeur aberrante super haute sur les deux axes.
Voici où ça devient fou. Pour les quatre
graphiques, les affirmations suivantes sont vraies:
• La valeur x
moyenne est de 9 pour chaque ensemble de données
• La valeur y
moyenne est de 7.50 pour chaque ensemble de données
• La variance
pour x est 11 et la variance pour y est 4.12
• La corrélation entre x et y est de 0,816 pour
chaque ensemble de données
Si vous
avez seulement vu ces données sous forme de texte, vous pourriez penser que les
quatre situations étaient identiques. Par exemple, disons que vous avez un
tableau comme X1 qui montre les salaires des hommes dans votre entreprise au fil
des ans, et un comme X2 montrant les salaires des femmes à la même époque dans
la même entreprise. Si vous montrez seulement le texte, vous verriez qu'ils ont
fait le même salaire moyen! Cependant, si vous montrez les graphiques, les gens
verraient que les salaires des femmes étaient à la baisse pour une raison
quelconque.
Anscombe a suggéré que pour éviter d'induire les
gens en erreur, vous devriez toujours visualiser vos données avant de tirer des
conclusions et être conscient de la façon dont les valeurs aberrantes
influencent l'analyse. Il est difficile de rater une valeur aberrante sur un
graphique correctement tracé, mais ils peuvent avoir un effet massif mais
invisible sur le texte. Bien sûr, si votre objectif est d'induire les gens en
erreur, vous pouvez simplement ignorer cette étape.
Créez des graphiques qui ne
mettent en évidence que votre conclusion préconçue
La
plupart des gens n'ont pas le temps de faire leur propre analyse statistique,
alors ils comptent sur vous pour leur montrer des graphiques qui résument vos
conclusions. Si vous créez correctement vos graphiques, ils devraient suggérer
des idées qui correspondent à la réalité. Si vous voulez les visser, vous
pouvez mettre l'accent sur les données que vous préférez.
L'un des graphiques les plus célèbres, hilarement
inexacts de mémoire récente est venu d'un membre du Congrès lors d'une réunion
concernant Planned Parenthood. Au cours de cette réunion, le représentant Jason
Chaffetz (R-Utah) a tenté de faire valoir que les services d'avortement de PP
ont augmenté depuis 2006, alors que ses services de cancer ont diminué au cours
de la même période. Voici le tableau qu'il a utilisé pour démontrer
ceci:
C'est l'un des pires
graphiques que j'ai jamais vu. Et il a été présenté au Comité de surveillance
de la Chambre.
À première vue, cela ressemble que le niveau d'avortements a explosé tandis que les services de cancer ont chuté de façon spectaculaire.
Nous pouvons remercier plusieurs défauts dans ce tableau pour cette conclusion:
·
• Il n'y a pas d'étiquette sur l'axe Y. Alors
que l'axe X inférieur est étiqueté depuis des années, l'axe Y n'a aucune
étiquette. Est-ce le nombre de procédures? Montant d'argent dépensé pour les
procédures? Qui sait! Vous n'êtes pas obligé.
·
• Les échelles de l'axe Y sont toutes fausses. En
plus de l'étiquette incorrecte, l'échelle de l'axe Y est tout faux. Le point de
données final de la ligne rouge est 327 000, ce qui est inexplicablement plus
élevé sur le graphique que le point de données final de la ligne rose 935 573.
Techniquement, chaque ligne va dans la bonne direction, mais l'échelle est
mauvaise.
·
• Il manque de contexte. Ces
points de données (tels qu'ils sont) suggèrent seulement ce qui se passe, pas
pourquoi cela arrive. Par exemple, en 2009, le groupe de travail américain sur
les services préventifs a mis à jour sa recommandation de passer des examens de
mammographie tous les deux ans, au lieu de la suggestion précédente de chaque
année. Cela pourrait expliquer la diminution des dépistages du cancer.
La plupart des graphiques ne sont pas aussi
flagrants, mais c'est un bon exemple de tromperie en omettant simplement
quelques éléments clés d'un graphique. Quartz a montré à quoi ressemblerait
cette charte si elle était représentée correctement (note: les données de 2008
ne sont pas fournies et donc manquantes dans le tableau):
C'est beaucoup plus précis. Si vous êtes dans ce genre de chose.
Sur
cette échelle, l'augmentation des procédures d'avortement est relativement
stable, tandis que les dépistages du cancer ont diminué. Cependant, étant donné
que des points de données individuels sont montrés, nous pouvons voir que la
baisse a commencé tout autour de 2009, tout comme nous l'avions prévu. C'est
ainsi que vous présentez précisément l'information dans son contexte approprié!
Donc, si vous voulez tromper les gens, tout ce qu'il faut, c'est un peu de
triche. Laissez vos étiquettes, manipulez un peu l'axe et vous pouvez vous
faire croire que vous avez un meilleur point que vous avez reelement.
Obscurcir
vos sources à tout prix
Plus il
est facile de voir vos sources, plus les autres peuvent facilement vérifier ou
réfuter vos conclusions. Si vos conclusions peuvent être vérifiées, alors
laissez les gens voir vos données et comment vous y êtes arrivé. Cependant, si
votre but est d'induire les gens en erreur, ne laissez personne découvrir
comment vous êtes arrivé aux conclusions que vous avez faites.
Pour un approvisionnement correct, chaque
personne qui mentionne un élément de données inclura une référence à la source.
Les sites d'actualités doivent être liés aux études ou aux recherches qu'ils
citent (pas d'articles sur les études). Les chercheurs peuvent ne pas montrer
l'ensemble de leurs données, mais la source d'une étude devrait répondre à
quelques questions de base:
- Comment les données ont-elles été recueillies? Avez-vous appelé les gens au téléphone? Arrêtez-les à l'extérieur du centre commercial? Était-ce un sondage Twitter? La méthode que vous utilisez pour recueillir vos données peut pointer vers (ou réfuter) le biais d'échantillonnage.
- Quand les données ont-elles été collectées? Quand avez-vous collecté les
données et combien de temps cela a-t-il pris pour se rassembler? Les
rapports peuvent devenir obsolètes rapidement et les tendances peuvent
changer avec le temps. Y compris le temps dont proviennent les données
peut en dire beaucoup sur les conclusions que vous dessinez.
- Qui a collecté les données? La personne ou le groupe qui
collecte les données peut fournir des indications sur la fiabilité des
données. Une étude d'une compagnie de tabac affirmant que les cigarettes
sont sûres pourrait ne pas être correcte à moins que quelqu'un d'autre
puisse la vérifier.
- Qui a été demandé? Particulièrement dans le domaine des enquêtes
et des sondages, il est important de savoir qui a été interrogé. Si un
politicien interroge seulement des personnes qui sont déjà amicales avec
eux, ils n'obtiendront pas de données qui représentent la population dans
son ensemble.
L'approvisionnement n'est pas seulement
utilisé pour éviter les préjugés, mais pour permettre aux autres de vérifier
vos affirmations. Il ouvre vos données, vos méthodes et vos conclusions à la
critique. Il permet à d'autres d'essayer de percer des trous dans vos idées. Si
vos conclusions ne peuvent pas résister à la critique, elles s'effondrent. Les
statistiques les plus précises sont celles que les autres peuvent voir et
corroborer avec leurs propres recherches. Cependant, si votre but est de vous
tromper ou de tromper quelqu'un, ne vous embêtez pas à partager les sources. En
fait, votre meilleure défense consiste simplement à dire «Cherchez-le!» Et à partir.
Personne ne peut réfuter cela.
Illustration par Angelica Alzona. Photos par
Wikimedia Commons, Américains unis pour la vie et Quartz.
0 comments:
Post a Comment