Comment mentir à soi-même et aux autres avec les statistiques ~ .

Ecrit par Eric Ravenscraft

Traduit par Vincent van Heesewijk

L'utilisation abusive des statistiques est l'un des moyens les plus puissants de mentir. Normalement, nous vous enseignons comment éviter les erreurs d'interprétation des statistiques, mais savoir comment les nombres sont manipulés peut vous aider à repérer quand cela arrive. À cette fin, nous allons vous montrer comment faire en sorte que les données disent quoi que vous fassiez pour sauvegarder toute mauvaise idée que vous avez.

Collectez des exemples de données qui ajoutent un biais à vos résultats

La première étape de la création de statistiques consiste à déterminer ce que vous voulez analyser. Les statisticiens appellent cela la «population». Ensuite, vous définissez un sous-ensemble de ces données à collecter qui, une fois analysées, doivent être représentatives de la population dans son ensemble. Plus l'échantillon est grand et précis, plus vos conclusions peuvent être précises.

Bien sûr, il existe quelques grandes façons de bousiller ce type d'échantillonnage statistique, soit par accident ou intentionnellement. Si les données d'échantillon que vous rassemblez sont mauvaises, vous finirez avec de fausses conclusions, peu importe quoi. Il y a beaucoup de façons de gâcher vos données, mais voici quelques-unes des plus importantes:

Biais de sélection personelle: Ce type de biais se produit lorsque les personnes ou les données que vous étudiez volontairement se mettent dans un groupe qui n'est pas représentatif de l'ensemble de votre population. Par exemple, lorsque nous demandons à nos lecteurs des questions comme «Quelle est votre application de textos préférée?», Nous recevons seulement des réponses de personnes qui choisissent de lire Lifehacker. Les résultats d'un sondage informel comme celui-ci ne seront probablement pas représentatifs de la population dans son ensemble, car tous nos lecteurs sont plus intelligents, plus drôles et plus attirants que la moyenne des gens.
Échantillonnage de commodité: Ce biais se produit lorsqu'une étude analyse les données disponibles, au lieu d'essayer de trouver des données représentatives. Par exemple, un réseau de nouvelles par câble pourrait interroger ses téléspectateurs au sujet d'un candidat politique. Sans interroger les gens qui regardent d'autres réseaux (ou ne regardent pas du tout la télévision), il est impossible de dire que les résultats du sondage représenteraient la réalité.
Biais de non-réponse: Cela se produit lorsque certaines personnes d'un ensemble choisi ne répondent pas à une enquête statistique, ce qui entraîne une modification des réponses. Par exemple, si une enquête sur l'activité sexuelle demandait «Avez-vous déjà trompé votre conjoint?» Certaines personnes peuvent ne pas vouloir admettre l'infidélité, donnant l'impression que la tricherie est plus rare qu'elle ne l'est.
Sondages en accès libre: ce type de sondage permet à quiconque de soumettre des réponses et, dans de nombreux cas, ne vérifie même pas que les personnes ne soumettent une réponse qu'une seule fois. Bien qu'ils soient communs, ils sont fondamentalement biaisés parce qu'ils n'essaient pas de contrôler l'entrée de manière significative. Par exemple, les sondages en ligne qui vous demandent simplement de cliquer sur votre option préférée tombent sous ce biais. Bien qu'ils puissent être amusants et utiles, ils ne sont pas bons pour prouver objectivement un point.

Ce ne sont que quelques-unes des nombreuses façons dont un échantillon peut être biaisé. Si vous voulez créer une impression trompeuse, choisissez votre poison. Par exemple, les sondages en libre accès sur les sites Web peuvent être utilisés pour «prouver» que le candidat que vous aimez le mieux a remporté un débat ou que Undertale est le meilleur jeu de tous les temps. La beauté des biais de l'échantillonnage est que quelqu'un, quelque part prend un sondage non scientifique qui dira tout ce que vous voulez. Donc, juste Google autour jusqu'à ce que vous trouviez un sondage non scientifique que vous aimez, ou diable - créez votre propre.

Choisissez l'analyse qui soutien vos idées

Le quatuor d'Anscombe montre quatre graphiques différents qui ont presque exactement les mêmes sommaires statistiques.

Étant donné que les statistiques utilisent des chiffres, il est facile de supposer qu'elles constituent une preuve tangible des idées qu'elles prétendent soutenir. En réalité, la mathématique derrière les statistiques est complexe, et l'analyser incorrectement peut donner des conclusions différentes, voire totalement contradictoires. Si vous vouliez tordre une statistique pour répondre à vos besoins, fudge les maths.

Pour démontrer les failles dans l'analyse des données, le statisticien Francis Anscom a créé le quatuor d'Anscombe (voir ci-dessus). Il se compose de quatre graphiques qui, lorsqu'ils sont affichés sur un graphique, montrent des tendances très différentes. Le graphique X1 montre un diagramme de dispersion basique avec une tendance ascendante. X2 montre une tendance incurvée qui montait, mais qui descend maintenant. X3 montre une tendance plus faible vers le haut, mais avec une valeur aberrante sur l'axe Y. X4 affiche des données parfaitement plates sur l'axe X, sauf une valeur aberrante super haute sur les deux axes.

Voici où ça devient fou. Pour les quatre graphiques, les affirmations suivantes sont vraies:

• La valeur x moyenne est de 9 pour chaque ensemble de données

• La valeur y moyenne est de 7.50 pour chaque ensemble de données

• La variance pour x est 11 et la variance pour y est 4.12

• La corrélation entre x et y est de 0,816 pour chaque ensemble de données

Si vous avez seulement vu ces données sous forme de texte, vous pourriez penser que les quatre situations étaient identiques. Par exemple, disons que vous avez un tableau comme X1 qui montre les salaires des hommes dans votre entreprise au fil des ans, et un comme X2 montrant les salaires des femmes à la même époque dans la même entreprise. Si vous montrez seulement le texte, vous verriez qu'ils ont fait le même salaire moyen! Cependant, si vous montrez les graphiques, les gens verraient que les salaires des femmes étaient à la baisse pour une raison quelconque.

Anscombe a suggéré que pour éviter d'induire les gens en erreur, vous devriez toujours visualiser vos données avant de tirer des conclusions et être conscient de la façon dont les valeurs aberrantes influencent l'analyse. Il est difficile de rater une valeur aberrante sur un graphique correctement tracé, mais ils peuvent avoir un effet massif mais invisible sur le texte. Bien sûr, si votre objectif est d'induire les gens en erreur, vous pouvez simplement ignorer cette étape.

Créez des graphiques qui ne mettent en évidence que votre conclusion préconçue

La plupart des gens n'ont pas le temps de faire leur propre analyse statistique, alors ils comptent sur vous pour leur montrer des graphiques qui résument vos conclusions. Si vous créez correctement vos graphiques, ils devraient suggérer des idées qui correspondent à la réalité. Si vous voulez les visser, vous pouvez mettre l'accent sur les données que vous préférez.

L'un des graphiques les plus célèbres, hilarement inexacts de mémoire récente est venu d'un membre du Congrès lors d'une réunion concernant Planned Parenthood. Au cours de cette réunion, le représentant Jason Chaffetz (R-Utah) a tenté de faire valoir que les services d'avortement de PP ont augmenté depuis 2006, alors que ses services de cancer ont diminué au cours de la même période. Voici le tableau qu'il a utilisé pour démontrer ceci:

C'est l'un des pires graphiques que j'ai jamais vu. Et il a été présenté au Comité de surveillance de la Chambre.

À première vue, cela ressemble que le niveau d'avortements a explosé tandis que les services de cancer ont chuté de façon spectaculaire. Nous pouvons remercier plusieurs défauts dans ce tableau pour cette conclusion:

· • Il n'y a pas d'étiquette sur l'axe Y. Alors que l'axe X inférieur est étiqueté depuis des années, l'axe Y n'a aucune étiquette. Est-ce le nombre de procédures? Montant d'argent dépensé pour les procédures? Qui sait! Vous n'êtes pas obligé.

· • Les échelles de l'axe Y sont toutes fausses. En plus de l'étiquette incorrecte, l'échelle de l'axe Y est tout faux. Le point de données final de la ligne rouge est 327 000, ce qui est inexplicablement plus élevé sur le graphique que le point de données final de la ligne rose 935 573. Techniquement, chaque ligne va dans la bonne direction, mais l'échelle est mauvaise.

· • Il manque de contexte. Ces points de données (tels qu'ils sont) suggèrent seulement ce qui se passe, pas pourquoi cela arrive. Par exemple, en 2009, le groupe de travail américain sur les services préventifs a mis à jour sa recommandation de passer des examens de mammographie tous les deux ans, au lieu de la suggestion précédente de chaque année. Cela pourrait expliquer la diminution des dépistages du cancer.

La plupart des graphiques ne sont pas aussi flagrants, mais c'est un bon exemple de tromperie en omettant simplement quelques éléments clés d'un graphique. Quartz a montré à quoi ressemblerait cette charte si elle était représentée correctement (note: les données de 2008 ne sont pas fournies et donc manquantes dans le tableau):

C'est beaucoup plus précis. Si vous êtes dans ce genre de chose.

Sur cette échelle, l'augmentation des procédures d'avortement est relativement stable, tandis que les dépistages du cancer ont diminué. Cependant, étant donné que des points de données individuels sont montrés, nous pouvons voir que la baisse a commencé tout autour de 2009, tout comme nous l'avions prévu. C'est ainsi que vous présentez précisément l'information dans son contexte approprié! Donc, si vous voulez tromper les gens, tout ce qu'il faut, c'est un peu de triche. Laissez vos étiquettes, manipulez un peu l'axe et vous pouvez vous faire croire que vous avez un meilleur point que vous avez reelement.

Obscurcir vos sources à tout prix

Plus il est facile de voir vos sources, plus les autres peuvent facilement vérifier ou réfuter vos conclusions. Si vos conclusions peuvent être vérifiées, alors laissez les gens voir vos données et comment vous y êtes arrivé. Cependant, si votre but est d'induire les gens en erreur, ne laissez personne découvrir comment vous êtes arrivé aux conclusions que vous avez faites.

Pour un approvisionnement correct, chaque personne qui mentionne un élément de données inclura une référence à la source. Les sites d'actualités doivent être liés aux études ou aux recherches qu'ils citent (pas d'articles sur les études). Les chercheurs peuvent ne pas montrer l'ensemble de leurs données, mais la source d'une étude devrait répondre à quelques questions de base:

Comment les données ont-elles été recueillies? Avez-vous appelé les gens au téléphone? Arrêtez-les à l'extérieur du centre commercial? Était-ce un sondage Twitter? La méthode que vous utilisez pour recueillir vos données peut pointer vers (ou réfuter) le biais d'échantillonnage.
Quand les données ont-elles été collectées? Quand avez-vous collecté les données et combien de temps cela a-t-il pris pour se rassembler? Les rapports peuvent devenir obsolètes rapidement et les tendances peuvent changer avec le temps. Y compris le temps dont proviennent les données peut en dire beaucoup sur les conclusions que vous dessinez.
Qui a collecté les données? La personne ou le groupe qui collecte les données peut fournir des indications sur la fiabilité des données. Une étude d'une compagnie de tabac affirmant que les cigarettes sont sûres pourrait ne pas être correcte à moins que quelqu'un d'autre puisse la vérifier.
Qui a été demandé? Particulièrement dans le domaine des enquêtes et des sondages, il est important de savoir qui a été interrogé. Si un politicien interroge seulement des personnes qui sont déjà amicales avec eux, ils n'obtiendront pas de données qui représentent la population dans son ensemble.

L'approvisionnement n'est pas seulement utilisé pour éviter les préjugés, mais pour permettre aux autres de vérifier vos affirmations. Il ouvre vos données, vos méthodes et vos conclusions à la critique. Il permet à d'autres d'essayer de percer des trous dans vos idées. Si vos conclusions ne peuvent pas résister à la critique, elles s'effondrent. Les statistiques les plus précises sont celles que les autres peuvent voir et corroborer avec leurs propres recherches. Cependant, si votre but est de vous tromper ou de tromper quelqu'un, ne vous embêtez pas à partager les sources. En fait, votre meilleure défense consiste simplement à dire «Cherchez-le!» Et à partir. Personne ne peut réfuter cela.

Illustration par Angelica Alzona. Photos par Wikimedia Commons, Américains unis pour la vie et Quartz.

SOURCE

.

Tuesday, 19 June 2018