L'erreur commise par près de la moitié des chefs de produit
Personne ne sait mieux que les responsables de produits que le comportement des utilisateurs est capricieux. Quel que soit le type de produit que vous construisez, il est évident que les utilisateurs se comporteront de manière inattendue : ils seront victimes de biais cognitifs, contrediront leurs propres préférences, etc. C'est pourquoi les données et les tests d'utilisateurs sont le pain et le beurre de la conception de produits.
Mais après d'innombrables missions consacrées à l'intégration d'informations comportementales dans les produits numériques, j'ai remarqué que les chefs de produit eux-mêmes sont tout aussi enclins à commettre des erreurs cognitives.
En fait, lorsque TDL s'est penché sur cette question récemment, nous avons constaté que quatre chefs de produit sur dix font le même choix irrationnel sur la façon d'interpréter les données des tests d'utilisateurs.
Quel serait ce choix ? Lire la suite...
Imaginez ceci
Nous avons récemment mené un sondage informel sur notre page LinkedIn, afin de savoir comment les chefs de produit réagiraient au scénario hypothétique suivant :
"Imaginez que vous et votre équipe veniez de lancer la première version d'un produit. Le développement initial s'est déroulé dans un tourbillon - vous avez fait un sprint pour vous assurer que le produit serait livré à temps, et vous n'avez pas été en mesure de faire tous les tests que vous auriez souhaités. Aujourd'hui, votre équipe envisage de modifier la conception du produit et vous effectuez quelques tests rapides auprès des utilisateurs pour voir si cela fait une différence significative pour vos indicateurs clés de performance.
Une fois toutes les données collectées, vous effectuez les analyses statistiques et constatez que la modification de conception que vous envisagez d'apporter a une valeur p de 0,3. En d'autres termes, il ne s'agit pas d'un effet significatif avec un niveau de confiance de 95 %, mais il y a une tendance positive. Que faire ?"
Les répondants avaient le choix entre trois options :
- Décider de ne pas mettre en œuvre le changement
- Mettre en œuvre le changement de toute façon
- Autre chose
Au final, nous avons reçu 90 réponses à notre enquête.
Résultats
Nous avons constaté qu'environ 40 % des personnes interrogées ont choisi une action que je qualifierais d'irrationnelle. En tant qu'universitaire reconverti en praticien, cette situation est également une épine dans mon pied, car j'ai vu à maintes reprises des personnes se comporter instinctivement de manière irrationnelle lorsqu'elles étaient confrontées à ce type de situation.
Mais avant de nous plonger dans mon discours ou dans nos résultats, prenons d'abord un peu de recul et examinons ce que signifient les valeurs p, ainsi que le concept plus large de signification statistique.
Que sont les valeurs p ?
De manière générale, si nous constatons qu'un résultat est statistiquement significatif, nous excluons, à un niveau de confiance donné, le hasard comme moteur d'une observation intéressante et nous l'attribuons à notre intervention (par exemple, un médicament, un message ou une page d'atterrissage restructurée). En d'autres termes, nous ne communiquons pas de certitude ; nous disons simplement que si, par exemple, p<0,05 dans un test A/B, nous sommes sûrs à plus de 95 % qu'une option est supérieure à une autre.
Prenons également le temps de réfléchir à ce que signifie le fait qu'un résultat ne soit pas considéré comme statistiquement significatif. Prenez un moment et réfléchissez à ce qui suit : Si nous menons une expérience et que nous n'atteignons pas notre seuil de p<0,05, qu'est-ce que cela signifie ?
Cela signifie-t-il que nous sommes, à un autre niveau de certitude, persuadés qu'une option est pire que l'autre ?
Bien sûr que non ! Le fait de se situer en dessous de notre niveau de confiance cible signifie précisément que nous sommes moins confiants dans la supériorité d'une option par rapport à une autre. En soi, cela ne signifie pas que nous pensons qu'une option est pire, mais simplement que nous n'avons pas suffisamment confiance pour qualifier une option de meilleure.
La signification statistique dans le monde universitaire
Passons maintenant à la pièce suivante du puzzle. Qu'y a-t-il de si spécial à propos de p<0,05 ? Pourquoi se soucier d'un niveau de confiance de 95 % ?
Ici, c'est le contexte qui compte. Si je suis un chercheur universitaire, j'ai (avec un peu de chance) consacré ma vie à la recherche de quelque chose qui ressemble à la vérité. Mon domaine d'intérêt peut aller des comportements d'accouplement des grenouilles de pluie africaines (elles sont très mignonnes. Faites-vous une faveur et recherchez-les sur Google - idéalement lorsqu'elles ne s'accouplent pas) à la concurrence bilatérale dans les environnements d'achat en ligne.
Quoi qu'il en soit, mon objectif est en fin de compte de démontrer qu'il y a quelque chose de nouveau et d'intéressant dans le monde et de l'attribuer à quelque chose d'autre que le hasard.
Existe-t-il donc un texte savant divin qui affirme qu'un taux de confiance de 95 % est la seule véritable référence en matière de certitude académique ? Bien sûr que non ! Nous aurions pu tout aussi bien, et de manière plus ou moins justifiée, choisir 96 % ou 94 % comme référence. Cependant, avec l'objectif ci-dessus à l'esprit, il s'ensuit que nous voulons simplement être très précis quant aux résultats que nous sommes prêts à accepter, et un niveau de confiance de 95 % semble assez raisonnable.
Pour la suite de cet article, prenons ce qui suit pour acquis : Dans le contexte de la recherche scientifique pure, il est tout à fait logique de fixer des seuils de certitude élevés. Dans la pratique, cela est plus controversé que vous ne le pensez, mais il s'agit là d'une conversation pour un autre jour!1
En résumé
- L'absence de seuil de confiance ne signifie pas que l'une des options est moins bonne que l'autre. Cela signifie que nous ne sommes pas suffisamment confiants dans la supériorité d'une option.
- Le taux de confiance de 95 % est en fin de compte arbitraire, mais il est assez logique si l'on recherche la vérité.
Pourquoi les chefs de produit devraient se désintéresser des valeurs p**.
** p<.01
Laissons maintenant de côté les chercheurs et concentrons-nous sur les praticiens, et plus précisément sur les gestionnaires de produits. L'objectif d'un chef de produit est-il de rechercher une vérité objective ? Je dirais que non. C'est peut-être une aspiration, mais en fin de compte, un gestionnaire de produit est chargé de veiller à ce que les efforts d'une équipe de produit se traduisent par des améliorations lorsqu'il s'agit de la capacité du produit à atteindre les objectifs stratégiques et à satisfaire les besoins des utilisateurs (ou quelle que soit votre définition, tant que nous sommes d'accord sur le fait que les universitaires et les gestionnaires de produit ont des objectifs différents).
Reprenons notre hypothèse : vous, le chef de produit, avez testé un changement, constaté une tendance à l'amélioration des performances, mais finalement trouvé que p = 0,3. Cela signifie que vous avez environ 70 % de confiance dans le fait que l'amélioration que vous avez observée est le résultat de votre changement, et non d'un hasard.
Dans notre enquête, nous avons constaté la répartition suivante des réponses.
Environ 38 % ont indiqué qu'ils n'enverraient pas le changement, tandis que 42 % ont indiqué qu'ils le feraient. Alors, qui a raison ? Qui a raison ?
Nous allons procéder de la manière suivante.
- Nous avons deux options :
non défini non défini - Nous avons deux déterminations statistiques, chacune avec une probabilité associée
indéfinieindéfinie
Nous pouvons donc visualiser les résultats possibles comme suit :
Si votre responsabilité est de vous assurer que vous livrez la meilleure version possible de votre produit, devrions-nous mettre en œuvre le changement, même si nous avons manqué le seuil supposé magique de p<0,05 ? Je soutiens que la bonne réponse est un oui catégorique et enthousiaste. Tant que nous avons une tendance positive, le seul résultat néfaste dans notre matrice se produit si nous n'expédions pas le produit. Si nous expédions, le pire scénario est que nous nous retrouvons avec un produit qui ne se distingue pas de celui que nous avions auparavant.
Pour illustrer un autre point, permettez-moi d'échelonner ce diagramme afin de refléter notre niveau de confiance dans les résultats possibles.
Le graphique ci-dessus montre qu'en pratique, avec un niveau de confiance de 70 %, les résultats les plus probables sont que nous avons soit amélioré notre produit, soit manqué une occasion de le faire. Dans ce cas, il va de soi que nous voulons toujours expédier nos produits !
Que se passe-t-il si nous ne sommes confiants qu'à 30 % ? Que se passe-t-il alors ?
La composition des implications possibles sur les produits reste inchangée. Tout ce qui a changé, c'est la probabilité que nous nous retrouvions dans l'un ou l'autre des quadrants. Cela renforce l'idée que, tant que nous avons une tendance positive, le seul choix que nous puissions anticiper et qui conduirait à un résultat néfaste (dans ce cas, une opportunité manquée) est de ne pas expédier le changement.
J'admets que je ne prends pas en compte d'autres considérations cruciales (par exemple, le coût d'opportunité de l'allocation de ressources de développement à un changement peu probable), mais je pense que l'idée est que les valeurs p en elles-mêmes ne sont jamais suffisantes pour disqualifier un changement qui génère une tendance positive.
Il est évident que le changement pourrait être pire, et nos données sont tout simplement insuffisantes pour le démontrer. En tant que praticiens, nous sommes souvent confrontés à des informations incomplètes ou de qualité inférieure à ce que nous souhaiterions. Dans ces cas-là, notre enquête suggère que 38 % des chefs de produit peuvent penser que la chose la plus prudente à faire est de ne rien faire, mais c'est irrationnel. Il est de notre responsabilité de prendre la meilleure décision possible avec les informations dont nous disposons.
Pourquoi restons-nous bloqués sur les valeurs p ?
Pourquoi agissons-nous de la sorte ? L'une des façons de comprendre ce comportement est de l'envisager sous l'angle du biais d'ancrage. Il s'agit de notre tendance à trop nous fier à un seul élément d'information lorsque nous prenons une décision, en l'utilisant comme point de référence pour juger tous les points de données ultérieurs. Des recherches ont montré que nous pouvons même nous attacher à des chiffres qui n'ont rien à voir avec la décision que nous essayons de prendre.
En ce qui concerne les tests d'utilisateurs, nous pouvons considérer la valeur p de 0,05 comme un point d'ancrage inutile. Si nous mettons de côté le concept de signification statistique et que nous nous concentrons sur ce qui est le plus susceptible de produire le meilleur résultat pour notre produit, une valeur p de quelque chose comme 0,7 devrait être plus que suffisante pour justifier l'expédition d'un changement. Mais lorsque les chefs de produit sont obnubilés par le seuil arbitraire de 95 % de confiance, ils finissent par passer à côté de la situation dans son ensemble.
Se désancrer
Bien qu'il soit impossible d'éviter complètement le biais d'ancrage, il existe un certain nombre de stratégies fondées sur des données probantes qui peuvent contribuer à le réduire. La recherche montre que le fait de s'arrêter pour évaluer la pertinence d'un point d'ancrage par rapport à la situation2 et d'envisager d'autres options susceptibles de mieux fonctionner3 peut contribuer à réduire les effets de ce biais.
Avant même de lancer un test utilisateur, les équipes produit devraient se réunir pour discuter des seuils de signification statistique qu'elles estiment devoir être atteints avant de procéder à un changement, et établir un plan sur la manière de procéder si un changement proposé n'atteint pas ces repères. Ces objectifs peuvent varier considérablement en fonction d'éléments tels que la taille de l'échantillon, le niveau d'effort requis pour mettre en œuvre un changement, les effets anticipés sur l'expérience de l'utilisateur, etc.
En fin de compte, l'important est que les équipes ne s'attachent pas à des normes irréalistes ou inutiles dans la pratique, et qu'elles parviennent à une compréhension commune de ce qui constituerait un résultat significatif dans leur contexte particulier.
Un changement important
Je me rends compte que certains lecteurs peuvent avoir l'impression que je m'oppose au maintien d'un certain niveau de rigueur scientifique dans la conception des produits. C'est vrai dans un sens, mais uniquement parce que je pense qu'il est irréaliste et un peu ridicule d'importer les normes de la recherche universitaire dans un environnement appliqué.
Si les responsables de produits ont la certitude raisonnable que la mise en œuvre d'un changement améliorera les résultats pour les utilisateurs, et s'ils n'ont aucune raison de penser que ce changement sera préjudiciable, nous ne devrions pas rejeter une idée parfaitement bonne simplement parce qu'elle n'a pas atteint un niveau de référence arbitraire.
Après tout, dans notre scénario hypothétique ci-dessus, la version originale du produit a été élaborée dans l'urgence et livrée avec un minimum de tests auprès des utilisateurs. Même si la v2 n'est pas parfaite, si elle est étayée par davantage de données que la v1, il y a de fortes chances qu'elle soit meilleure. En fait, elles sont nettement meilleures.
References
- Cowles, M. et Davis, C. (1982). On the origins of the .05 level of statistical significance. American Psychologist, 37(5), 553-558. https://doi.org/10.1037/0003-066x.37.5.553
- Mussweiler, T., Strack, F. et Pfeiffer, T. (2000). Overcoming the Inevitable Anchoring Effect : Considering the Opposite Compensates for Selective Accessibility. Personality and Social Psychology Bulletin, 26(9), 1142-1150. https://doi.org/10.1177/01461672002611010
- Zenko, M. (2018, 19 octobre). Les dirigeants peuvent prendre des décisions vraiment stupides. Cet exercice peut y remédier. Fortune. https://fortune.com/2018/10/19/red-teams-decision-making-leadership/amp/
About the Author
Turney McKee
Turney McKee est chef de projet au Decision Lab. Il est titulaire d'une maîtrise en biologie cellulaire et d'une licence en pharmacologie, toutes deux obtenues à l'Université McGill. Il s'intéresse aux systèmes de santé internationaux et aux politiques publiques. Avant de rejoindre The Decision Lab, Turney a travaillé en tant qu'analyste de la concurrence et de l'intelligence économique dans les secteurs de la santé et de la technologie.