Pourquoi les scientifiques continuent-ils à chercher un résultat statistiquement significatif alors qu'ils n'en ont pas trouvé au départ ?
L'effet "regard ailleurs
a expliqué.Qu'est-ce que l'effet "regard ailleurs" ?
L'effet "regardez ailleurs" décrit comment, lorsque les scientifiques analysent les résultats de leurs expériences, des résultats apparemment significatifs d'un point de vue statistique peuvent en fait être le fruit du hasard. L'une des raisons pour lesquelles cela peut se produire est qu'un chercheur a ignoré un résultat statistiquement non significatif qu'il avait trouvé précédemment, choisissant de "regarder ailleurs", c'est-à-dire de continuer à chercher un résultat significatif au lieu d'accepter ses résultats initiaux.
Où ce biais se produit-il ?
Supposons que votre ami David soit un chercheur en médecine qui essaie de mettre au point un médicament qui aidera les gens à se remettre plus rapidement d'un rhume. Il réalise une expérience au cours de laquelle il teste son nouveau traitement, recueille un grand nombre de données et les analyse à l'aide de tests statistiques. Son analyse ne révèle aucun effet significatif du traitement sur le temps de guérison des patients.
David est d'abord déçu, puis il se dit que s'il n'a pas trouvé de résultat significatif, c'est peut-être parce qu'il n'a pas cherché au bon endroit. Après avoir effectué quelques tests différents, il finit par trouver un effet statistiquement significatif : le groupe traité a signalé moins de symptômes de maux de tête que le groupe témoin. C'est un succès !
Effets individuels
L'effet "regard ailleurs" est alimenté par des distorsions cognitives communes à tous les individus, mais il est spécifiquement lié aux tests statistiques et à leur interprétation. C'est pourquoi il affecte principalement les scientifiques et les chercheurs qui utilisent des statistiques pour tenter de prouver (ou d'infirmer) une hypothèse.
Effets systémiques
L'effet "regardez ailleurs" est un facteur important qui contribue à la crise de la réplication à laquelle sont actuellement confrontées de nombreuses branches de la science. La réplication est le processus qui consiste à répéter une expérience déjà réalisée, afin de voir si les résultats seront les mêmes ou non. Il s'agit d'un instrument essentiel pour vérifier que les mécanismes de la science fonctionnent correctement : si les résultats d'une étude ne peuvent pas être répétés, cela remet en question la validité des conclusions initiales.
Malheureusement, ces dernières années, un très grand nombre de réplications n'ont pas réussi à reproduire les résultats de l'étude originale. Bien que ce problème ait reçu le plus d'attention en psychologie, des crises parallèles se développent dans plusieurs domaines, y compris l'économie1 et même la médecine - où, selon certaines estimations, seulement 20 à 25 % des études sont parfaitement répliquées.2 Il va probablement sans dire qu'il s'agit d'un problème énorme, qui entrave le progrès scientifique et sape également la confiance du public dans les scientifiques.
Pourquoi cela se produit-il ?
Pour comprendre l'effet "look-elsewhere", il faut d'abord avoir une compréhension très élémentaire de ce que signifie une découverte "statistiquement significative". Lorsque des chercheurs souhaitent tester une hypothèse, ils mènent généralement une expérience au cours de laquelle ils comparent les résultats de différents groupes - par exemple, un groupe qui reçoit le traitement étudié par le chercheur et un groupe témoin qui reçoit simplement un placebo. Tant que tous les autres facteurs sont soigneusement contrôlés, si nous constatons une différence entre les résultats de ces groupes, nous pouvons affirmer que cette différence est due au traitement. C'est vrai ?
Le problème est que, même lorsque les chercheurs ont contrôlé d'autres variables, il est toujours possible que les différences entre les groupes soient dues à des coïncidences aléatoires. En effet, bien que nous essayions de généraliser les effets d'un traitement sur l'ensemble d'une population, nous devons le tester sur un échantillon beaucoup plus restreint d'individus. Si, pour une raison quelconque, notre échantillon s'avère ne pas être représentatif de l'ensemble de la population, nos résultats seront trompeurs.
Pour illustrer ce propos, imaginez que vous travaillez dans un glacier, où les gens sont autorisés à goûter les différents parfums. Un jour, un grand groupe de personnes arrive, une centaine, toutes désireuses de goûter le chocolat à la menthe. Il est évident qu'il y a beaucoup de pépites de chocolat dans le chocolat à la menthe, mais elles ne sont pas réparties uniformément dans le seau. Ainsi, lorsque vous distribuez les échantillons, la grande majorité d'entre eux contiennent du chocolat, mais de temps en temps, une personne malchanceuse reçoit un échantillon qui n'est que de la glace à la menthe, un échantillon qui ne représente pas correctement la saveur.
En science, l'échantillonnage pose un problème similaire : il est toujours possible que notre échantillon expérimental, par malchance, présente des caractéristiques qui le font réagir au traitement différemment du reste de la population. Cela signifie que nos résultats seraient le fruit du hasard (également connu sous le nom d'erreur d'échantillonnage) et nous conduiraient à une conclusion erronée concernant notre traitement.
Nous ne pourrons jamais échapper complètement à ce problème, mais nous pouvons essayer de le contourner à l'aide de statistiques. Il existe de nombreux tests statistiques qui aident les scientifiques à déterminer si leurs résultats sont réellement significatifs. Dans de nombreux cas, les scientifiques utilisent les tests statistiques pour calculer une valeur p, un chiffre qui indique la probabilité d'obtenir un résultat significatif dû au hasard et non aux effets du traitement. Par exemple, une valeur p de 0,1 indique une probabilité de 10 %. Les chercheurs de différents domaines s'accordent sur le seuil p qu'un résultat doit franchir pour être considéré comme significatif. Souvent, ce seuil est fixé à 0,05, ce qui signifie que les scientifiques conviennent de ne pas tolérer plus de 5 % de probabilité qu'un résultat ne soit qu'une coïncidence. Les résultats significatifs erronés sont connus sous le nom d'erreurs alpha ou d'erreurs de type I.
Ceci étant dit, nous pouvons revenir à l'effet "regardez ailleurs".
Plus de tests statistiques, plus de problèmes
L'une des raisons pour lesquelles l'effet "regard ailleurs" se produit est purement mathématique. Elle est connue en statistique sous le nom de problème des comparaisons multiples. Comme son nom l'indique, ce problème survient lorsque les scientifiques effectuent de nombreux tests statistiques sur le même ensemble de données. Plus un chercheur cherche un résultat dans le même ensemble de données, plus il a de chances de tomber sur quelque chose qui semble intéressant à première vue, mais qui n'est en fait que le résultat d'un bruit ou de fluctuations aléatoires dans les données.4
Voilà, en quelques mots, l'explication statistique de l'effet "regard ailleurs". Cependant, cette explication n'est pas tout à fait exacte. Après tout, les chercheurs sont formés aux statistiques - ils devraient savoir qu'il ne suffit pas d'effectuer une série de tests à tort et à travers. De plus, il existe des moyens de corriger statistiquement le problème des comparaisons multiples, dans les cas où il est vraiment nécessaire de réaliser un grand nombre de tests différents.3 Alors pourquoi ce problème persiste-t-il dans la recherche scientifique ? La réponse se résume à des biais cognitifs inconscients.
L'homme est faillible, même les scientifiques
Les gens sont enclins à toute une série de préjugés et d'heuristiques qui faussent leur raisonnement. Qui plus est, les préjugés inconscients sont justement inconscients. Même lorsqu'on nous a enseigné les défauts de notre propre pensée, il est souvent très difficile d'éviter de tomber dans les mêmes pièges cognitifs. Une pilule encore plus difficile à avaler : cette vérité s'applique aussi bien aux experts qu'aux profanes. Bien que beaucoup d'entre nous aient tendance à considérer que les scientifiques sont en quelque sorte au-dessus des mêmes erreurs de jugement que le reste d'entre nous, il est prouvé que ce n'est pas le cas. Il est encore plus surprenant de constater que l'éducation formelle des scientifiques en matière de statistiques ne les met pas à l'abri d'un raisonnement biaisé lorsqu'il s'agit d'estimer des probabilités.
Une démonstration célèbre de ce fait concerne la taille des échantillons. En statistique, il est fondamental de savoir que les grands échantillons sont toujours meilleurs ; les petits échantillons rendent plus difficile la détection d'un effet éventuel. Pourtant, des recherches ont montré que même des statisticiens très renommés omettent parfois de tenir compte de la taille de l'échantillon.
Dans un article intitulé "Belief in the Law of Small Numbers", les économistes comportementaux Daniel Kahneman et Amos Tversky, lauréats du prix Nobel, ont demandé à des chercheurs expérimentés, dont deux auteurs de manuels de statistiques, de remplir un questionnaire décrivant des scénarios de recherche hypothétiques. Les experts ont été invités à choisir la taille des échantillons, à estimer le risque d'échec et à donner des conseils à un étudiant diplômé hypothétique menant le projet. Les résultats ont montré qu'une grande majorité des répondants ont commis des erreurs de jugement parce qu'ils n'ont pas accordé suffisamment d'attention à la taille de l'échantillon.5
En bref, il est clair que même les plus érudits d'entre nous sont vulnérables aux biais cognitifs. Outre notre manque d'intuition en matière de statistiques, d'autres biais, tels que le biais d'optimisme et la justification de l'effort, jouent probablement un rôle dans l'effet "regardez ailleurs".
Nous sommes optimistes à souhait
Le biais d'optimisme décrit comment nous sommes généralement plus orientés vers la positivité : nous prêtons plus d'attention aux informations positives, nous nous souvenons mieux des événements heureux que des événements pénibles et nous avons des attentes positives à l'égard des gens et du monde qui nous entourent.6 Ce "biais" n'est pas nécessairement une mauvaise chose : au contraire, notre optimisme général accroît clairement notre bien-être. Parfois, cependant, le biais d'optimisme peut nous conduire à supprimer les informations négatives, en ignorant les faits qui nous mettent mal à l'aise, au profit de ceux qui nous mettent de bonne humeur.7 En ce qui concerne l'effet "regard ailleurs", la détermination à rechercher des informations positives peut conduire certains chercheurs à ignorer leurs premiers résultats insignifiants et à continuer à chercher une découverte plus excitante.
Nous n'aimons pas que notre dur labeur soit gaspillé
Lorsqu'un chercheur arrive au stade de l'analyse d'une expérience, il est probable qu'il ait investi beaucoup de temps et d'énergie dans la conception de l'expérience, l'acquisition de tout le matériel nécessaire et la collecte des données. La recherche demande beaucoup d'efforts et nous ne voulons jamais avoir l'impression que notre dur labeur a été gaspillé. Et lorsque nous commençons à avoir l'impression que notre travail n'a peut-être servi à rien, nous commençons à faire de la gymnastique cognitive pour éviter d'avoir à affronter cette vérité désagréable. Ce phénomène est connu sous le nom de justification de l'effort.
Souvent, la justification de l'effort amène les gens à attribuer une plus grande valeur à l'objet ou au projet sur lequel ils ont travaillé dur. Dans une étude classique menée par Elliot Aronson et Judson Mills, des étudiantes ont été informées qu'elles participeraient à une discussion de groupe sur la sexualité. Cependant, certaines d'entre elles ont d'abord été soumises à un processus d'initiation embarrassant, censé prouver qu'elles ne seraient pas trop mal à l'aise pour participer à la conversation. Les femmes qui ont dû faire cet effort supplémentaire ont ensuite jugé le contenu de la discussion plus intéressant et leurs camarades de groupe plus intelligentes, par rapport à celles qui n'avaient pas fait l'initiation.8
En ce qui concerne l'effet "regard ailleurs", la réticence des chercheurs à abandonner des projets dans lesquels ils ont investi beaucoup d'efforts peut les pousser à continuer à effectuer des tests statistiques, au-delà du moment où ils devraient probablement abandonner. Il est difficile d'accepter qu'une hypothèse ne se vérifie pas, et de nombreuses personnes adoptent l'attitude selon laquelle il vaut mieux trouver n'importe quel résultat significatif que de ne rien obtenir, même si ce résultat n'est pas celui qu'ils recherchaient à l'origine.
La "course aux rats" du monde universitaire
Alors qu'un raisonnement humain défectueux peut conduire les individus à tomber dans le piège de l'effet "regard ailleurs", il est indéniable que de nombreuses forces structurelles sont également à l'origine de ce problème. La crise de la réplication étant toujours d'actualité, nombreux sont ceux qui ont pointé du doigt la culture du monde universitaire moderne, où les chercheurs sont incités à publier le plus grand nombre d'articles scientifiques possible et où les nouveaux diplômés sont soumis à une concurrence féroce pour un nombre d'emplois en baisse. Selon une étude réalisée en 2013, il n'y avait que 12,8 % des titulaires d'un doctorat aux États-Unis qui pouvaient trouver un emploi9, et le problème n'a fait que s'aggraver depuis. Ce type de marché de l'emploi exerce une pression énorme sur les personnes pour qu'elles soient performantes.
Un autre problème est lié à la manière dont les performances sont évaluées et au type de recherche qui est considéré comme publiable. En règle générale, seuls les résultats statistiquement significatifs sont considérés comme suffisamment intéressants pour mériter d'être publiés. Par conséquent, de nombreux chercheurs perçoivent les résultats statistiquement insignifiants comme des "échecs" - même si un résultat insignifiant transmet des informations précieuses. Cette dynamique incite les scientifiques à "regarder ailleurs" et à essayer d'atteindre la signification statistique dans la mesure du possible.
Pourquoi c'est important
L'effet "regard ailleurs", répété par de nombreuses personnes pendant de nombreuses années, peut avoir des conséquences dévastatrices pour les chercheurs. La crise de la réplication a remis en question l'existence même de concepts sur lesquels de nombreux chercheurs ont fait toute leur carrière. Par exemple, dans un billet de blog datant de juin 2020, le psychologue social et neuroscientifique Michael Inzlicht a écrit qu'un sujet central de son travail - l'épuisement de l'égo, l'idée que la maîtrise de soi repose sur un stock limité de ressources - n'est, en fin de compte, "probablement pas réel".10 Cette révélation a eu un impact émotionnel énorme : selon ses termes, elle a "défait [son] monde".
Mais l'effet "regard ailleurs" ne cause pas seulement des problèmes aux individus. En tant que facteur contribuant à la crise de la réplication, il a des implications considérables : en plus d'entraver le progrès scientifique et de conduire les scientifiques à des conclusions erronées, il nuit également à la réputation de la science en tant qu'institution. À une époque où la vérité semble de plus en plus difficile à cerner et où les théories du complot gagnent du terrain de manière alarmante, il est primordial que le public ait confiance dans les experts scientifiques. Malheureusement, cette confiance est minée par le nombre scandaleusement élevé d'études qui ne peuvent être reproduites : dans certaines branches de la psychologie, par exemple, jusqu'à la moitié de toutes les études publiées pourraient ne pas être reproductibles.15
Comment l'éviter ?
Comme nous l'avons établi, il est difficile d'éviter les biais cognitifs, même lorsque nous savons qu'ils existent. En ce qui concerne l'effet "regard ailleurs", il existe toutefois des mesures spécifiques que les chercheurs peuvent prendre pour se prémunir contre les pratiques statistiques inappropriées. Nombre de ces pratiques sont de plus en plus courantes, car de nombreux scientifiques réclament davantage d'ouverture et de transparence dans leur domaine. Des changements plus larges dans la culture scientifique et universitaire pourraient également contribuer à résoudre ce problème.
Pré-enregistrer les études avant qu'elles n'aient lieu
Le pré-enregistrement consiste à soumettre un plan de recherche à un registre avant de réaliser l'étude. Lorsque les chercheurs préenregistrent une étude, ils s'engagent à mettre en place un plan non seulement pour la réalisation de l'expérience elle-même, mais aussi pour l'analyse des données, en déclarant les tests statistiques qu'ils prévoient d'utiliser.11 En fait, cela signifie que les chercheurs se privent de l'option de "regarder ailleurs". Cela permet de minimiser les erreurs de type I et de s'assurer que les recherches publiées sont réellement significatives.
Ouvrir le tiroir à dossiers
Comme indiqué plus haut, les résultats statistiquement nuls ne sont généralement pas considérés comme valables par les universitaires et les rédacteurs en chef des revues. Cela signifie que les études qui aboutissent à des résultats non significatifs sont rarement vues par d'autres personnes que le(s) chercheur(s) qui les a(ont) menées.
Non seulement le fait de ne pas tenir compte des résultats nuls encourage l'effet "regard ailleurs", car les chercheurs ne voient aucune valeur dans leurs résultats nuls, mais il peut également avoir des conséquences négatives pour la science dans son ensemble en créant un biais dans la littérature publiée. Imaginons, par exemple, que 99 chercheurs du monde entier aient mené des expériences pour tenter de prouver l'existence de X et qu'ils aient obtenu des résultats insignifiants. Il est probable que ces scientifiques ne rendraient public leur projet "raté" à personne. Mais un jour, un centième chercheur réalise une étude similaire, obtient (par hasard) un résultat statistiquement significatif et le publie dans une revue académique. Comme les 99 tentatives ratées n'ont pas été publiées, personne ne se rend compte que ce résultat est trompeur.
Ce phénomène est connu sous le nom de "problème des tiroirs", car les documents contenant des résultats statistiquement non significatifs ont tendance à être jetés dans un tiroir et mis sous scellés. En encourageant la publication de ces résultats nuls, les scientifiques peuvent réduire l'incitation à "regarder ailleurs", tout en contribuant à garantir que l'attention et le financement sont orientés vers des recherches valables.12
Comment tout a commencé
Au début des années 2000, des inquiétudes concernant la reproductibilité ont commencé à se faire jour dans différents domaines scientifiques. Dans un célèbre article de 2005 audacieusement intitulé "Why most published research findings are false", John Ioannidis, professeur à l'université de Stanford, a affirmé qu'en raison d'un certain nombre de facteurs statistiques, notamment le grand nombre de tests statistiques et la flexibilité de la conception et de l'analyse, un grand nombre d'articles de recherche publiés (il s'intéressait plus particulièrement à la recherche médicale) étaient fondés sur des erreurs de type I et ne pouvaient pas être reproduits.13
Plus tard, en 2012, une équipe de chercheurs a interrogé plus de 2 000 psychologues sur leur utilisation de pratiques de recherche douteuses et a constaté que 67 % d'entre eux s'étaient livrés à au moins une de ces pratiques. Il s'agit notamment de comportements tels que le fait de ne pas signaler toutes les relations statistiques testées, comme c'est souvent le cas avec l'effet "look-elsewhere".14
Exemple 1 - Le code de la Bible
Dans les années 1990, Eliyahu Rips et Doron Witztum, deux chercheurs de l'Université hébraïque de Jérusalem, ont publié un article dans la revue Statistical Science, dans lequel ils affirmaient avoir la preuve que le livre de la Genèse contenait des prédictions pour l'avenir. Dans leur article, Rips et Witztum ont démontré que si l'on prenait chaque cinquième lettre de cette partie de la Bible et qu'on les plaçait dans une séquence, cette séquence de lettres contenait les noms, les dates de naissance et les dates de décès de 32 rabbins célèbres de toute l'histoire juive.16
À première vue, cette découverte semble ne pas pouvoir être une coïncidence - les probabilités d'une telle chose sont infiniment faibles. Pourtant, il est désormais largement admis que le "code biblique" est un tour de passe-passe. Le livre de la Genèse est le plus long de la Bible, avec plus de 38 000 mots. Compte tenu du nombre de lettres analysées et de la souplesse de l'analyse elle-même (Rips et Witztum auraient très bien pu examiner une lettre sur six, ou sur sept, et ainsi de suite), il aurait été plus inhabituel que les chercheurs ne trouvent pas une sorte de modèle statistiquement significatif.
Exemple 2 - Chercher ailleurs le boson de Higgs
En décembre 2011, les physiciens du Grand collisionneur de hadrons du CERN pensaient avoir trouvé la preuve de l'existence du boson de Higgs, un élément fondamental du modèle standard de la physique des particules, mais qui n'était pas encore confirmé à ce moment-là. Cependant, cette observation pourrait être le résultat de l'effet "regard ailleurs". Lorsque les scientifiques ont cru avoir trouvé des preuves de l'existence du boson de Higgs, ils ont collecté des "taux excédentaires" de données, ce qui rendait plus probable que les modèles qu'ils avaient observés n'étaient que le résultat de fluctuations aléatoires.17
Résumé
Qu'est-ce que c'est ?
L'effet "regard ailleurs" décrit comment des résultats qui semblent significatifs peuvent en fait être le fruit du hasard.
Pourquoi cela se produit-il ?
Les chercheurs sont poussés à continuer à "chercher ailleurs" un résultat statistiquement significatif par des biais cognitifs tels que le biais d'optimisme et la justification de l'effort, ainsi que par des problèmes systémiques au sein de la communauté scientifique. D'un point de vue mathématique, cette façon de faire ne peut qu'augmenter les chances que toute relation significative détectée ne soit en fait qu'une coïncidence aléatoire.
Exemple 1 - Le code biblique et l'effet "regard ailleurs
Dans les années 1990, des chercheurs ont cru découvrir un schéma étonnant dans le livre de la Genèse : la séquence formée par une lettre sur cinq contenait les noms, les dates de naissance et de décès de 32 rabbins célèbres. Aussi miraculeux que cela puisse paraître à première vue, ce n'est là aussi qu'un résultat de l'effet "regardez ailleurs", car un résultat statistiquement significatif ne peut manquer de se produire avec une telle quantité de données.
Exemple 2 - Chercher ailleurs le boson de Higgs
En 2011, les physiciens pensaient avoir trouvé la preuve de l'existence de l'insaisissable boson de Higgs. En fait, les modèles qu'ils croyaient indiquer le boson de Higgs n'étaient probablement que des fluctuations aléatoires dans leur énorme ensemble de données.
Comment l'éviter ?
Le pré-enregistrement des études scientifiques et la publication des résultats statistiquement non significatifs sont deux mesures importantes que la communauté scientifique peut prendre pour lutter contre l'effet "look-elsewhere".