L’utilisation et l’interprétation des valeurs p en recherche psychologique font l’objet de nombreux débats depuis plusieurs années. Une tendance particulièrement controversée est le signalement de résultats « marginalement significatifs », c’est-à-dire des valeurs p légèrement supérieures au seuil conventionnel de 0,05 mais inférieures à 0,10. Cet article examine en détail cette pratique, son évolution au fil du temps et ses implications pour la recherche en psychologie.
Contexte et définition des valeurs p marginalement significatives
En statistique inférentielle, la valeur p représente la probabilité d’obtenir un résultat au moins aussi extrême que celui observé, en supposant que l’hypothèse nulle soit vraie. Traditionnellement, un seuil de signification de 0,05 est utilisé pour rejeter l’hypothèse nulle et conclure à un effet statistiquement significatif.
Cependant, de nombreux chercheurs ont pris l’habitude de qualifier de « marginalement significatifs » les résultats dont la valeur p se situe entre 0,05 et 0,10. Cette pratique est controversée car elle élargit de facto le seuil de signification sans justification théorique solide.
Définition des valeurs p marginalement significatives
On considère généralement comme « marginalement significatives » les valeurs p comprises entre 0,05 et 0,10. Les termes couramment utilisés pour les décrire incluent :
- « Marginalement significatif »
- « Approchant la signification »
- « Tendance vers la signification »
- « Presque significatif »
Origines de cette pratique
L’utilisation de la notion de signification marginale remonte aux débuts de l’inférence statistique, mais s’est particulièrement répandue en psychologie à partir des années 1970. Plusieurs facteurs expliquent son adoption :
- La pression à publier des résultats positifs
- Le manque de puissance statistique de nombreuses études
- Une interprétation erronée de la valeur p comme mesure continue de l’évidence
Prévalence et évolution du signalement des valeurs p marginales
Plusieurs études se sont penchées sur la fréquence d’utilisation des valeurs p marginalement significatives dans la littérature psychologique. Les résultats montrent une pratique répandue mais qui tend à diminuer ces dernières années.
Étude d’Olsson-Collentine et al. (2019)
Une étude majeure publiée en 2019 dans Psychological Science par Olsson-Collentine et ses collègues a analysé l’évolution de cette pratique sur 30 ans dans les revues de l’American Psychological Association.
Méthodologie :
- Analyse de 44 200 articles publiés entre 1985 et 2016
- Extraction automatisée de 42 504 valeurs p entre 0,05 et 0,10
- Recherche des termes « margin* » et « approach* » à proximité des valeurs p
Principaux résultats :
Indicateur | Résultat |
---|---|
Pourcentage moyen de valeurs p marginales signalées | 39,6% |
Discipline avec le plus fort taux | Psychologie organisationnelle (45,4%) |
Discipline avec le plus faible taux | Psychologie clinique (30,1%) |
Évolution globale 1985-2016 | Tendance à la baisse |
Comparaison avec l’étude de Pritschet et al. (2016)
Une étude antérieure de Pritschet et al. en 2016 avait suggéré une augmentation de l’utilisation des valeurs p marginales au fil du temps. Cependant, l’analyse plus fine d’Olsson-Collentine et al. a montré que cette augmentation apparente était due à un biais méthodologique :
- Augmentation du nombre total de valeurs p rapportées par article
- Analyse au niveau des articles et non des valeurs p individuelles
Une fois ces facteurs pris en compte, la tendance s’est avérée être à la baisse dans la plupart des disciplines psychologiques.
Variations entre disciplines
L’étude d’Olsson-Collentine et al. a mis en évidence des différences notables entre les sous-disciplines de la psychologie :
Discipline | Pourcentage de valeurs p marginales signalées | Tendance 1985-2016 |
---|---|---|
Psychologie organisationnelle | 45,4% | Stable (b = -0,09) |
Psychologie sociale | 44,5% | Stable (b = -0,02) |
Psychologie expérimentale | 40,7% | Forte baisse (b = -0,60) |
Psychologie cognitive | 39,5% | Forte baisse (b = -0,68) |
Psychologie du développement | 37,7% | Légère baisse (b = -0,12) |
Psychologie de l’éducation | 34,7% | Baisse modérée (b = -0,35) |
Psychologie médico-légale | 33,9% | Forte baisse (b = -0,92) |
Psychologie de la santé | 31,6% | Baisse modérée (b = -0,27) |
Psychologie clinique | 30,1% | Baisse modérée (b = -0,29) |
Ces variations peuvent s’expliquer par plusieurs facteurs :
- Différences de culture méthodologique entre disciplines
- Niveaux variables de pression à publier des résultats positifs
- Adoption plus ou moins rapide des nouvelles recommandations statistiques
Problèmes liés à l’utilisation des valeurs p marginalement significatives
Bien que largement répandue, la pratique du signalement des valeurs p marginales pose plusieurs problèmes méthodologiques et épistémologiques sérieux.
Interprétation erronée de la valeur p
L’un des principaux problèmes est que cette pratique repose sur une interprétation erronée de la nature même de la valeur p :
- La valeur p n’est pas une mesure continue de l’évidence en faveur de l’hypothèse alternative
- Elle ne représente pas la probabilité que l’hypothèse nulle soit vraie
- Un seuil de signification est par nature arbitraire et ne devrait pas être « assoupli » a posteriori
Considérer une valeur p de 0,07 comme « presque significative » n’a pas plus de sens statistique que de considérer une valeur de 0,93 comme « presque non-significative ».
Augmentation du risque d’erreur de type I
L’utilisation des valeurs p marginales augmente mécaniquement le risque d’erreur de type I, c’est-à-dire de conclure à tort à l’existence d’un effet :
- Le seuil conventionnel de 0,05 correspond déjà à un risque d’erreur de 5%
- Élargir ce seuil à 0,10 double ce risque à 10%
Cette inflation du risque d’erreur est particulièrement problématique dans un contexte où la reproductibilité des résultats en psychologie est déjà remise en question.
Biais de publication et « p-hacking »
La possibilité de signaler des résultats marginalement significatifs peut encourager certaines pratiques discutables :
- Biais de publication : tendance à ne publier que les résultats positifs ou « presque » positifs
- « P-hacking » : manipulation des analyses pour obtenir une valeur p juste en-dessous du seuil de 0,10
- HARKing (Hypothesizing After Results are Known) : formulation d’hypothèses a posteriori pour justifier des résultats marginaux
Ces pratiques contribuent à polluer la littérature scientifique avec des résultats peu fiables et difficilement reproductibles.
Confusion entre signification statistique et importance pratique
L’accent mis sur la signification statistique, même « marginale », détourne l’attention de considérations plus importantes :
- La taille de l’effet observé
- La précision de l’estimation (intervalles de confiance)
- La signification pratique ou clinique des résultats
Un résultat peut être statistiquement significatif sans avoir d’importance réelle, et inversement.
Arguments en faveur de l’utilisation des valeurs p marginales
Malgré les critiques, certains chercheurs continuent de défendre l’utilité des valeurs p marginalement significatives dans certains contextes.
Nuance dans l’interprétation des résultats
Les partisans de cette approche arguent qu’elle permet une interprétation plus nuancée des résultats, notamment :
- Pour les études exploratoires où l’on cherche des pistes de recherche
- Dans les domaines où les effets sont généralement faibles et difficiles à détecter
- Pour éviter de rejeter trop rapidement des hypothèses potentiellement intéressantes
Prise en compte de la puissance statistique
L’argument de la puissance statistique est souvent avancé :
- De nombreuses études en psychologie manquent de puissance statistique
- Un résultat marginalement significatif pourrait devenir pleinement significatif avec un échantillon plus large
- Ignorer ces résultats reviendrait à augmenter le risque d’erreur de type II (faux négatifs)
Flexibilité dans la prise de décision
Certains chercheurs considèrent que la flexibilité dans l’interprétation des valeurs p permet :
- Une approche plus pragmatique de l’analyse statistique
- La possibilité d’adapter le seuil de signification au contexte de l’étude
- Une transition progressive vers des méthodes d’inférence plus sophistiquées
Alternatives et recommandations
Face aux problèmes posés par l’utilisation des valeurs p marginales, plusieurs alternatives et recommandations ont été proposées.
Rapporter les valeurs p exactes
Une première recommandation simple est de toujours rapporter les valeurs p exactes plutôt que de les catégoriser :
- Permet au lecteur de juger par lui-même de la force de l’évidence
- Évite la dichotomie artificielle entre « significatif » et « non significatif »
- Facilite les méta-analyses ultérieures
Mettre l’accent sur les tailles d’effet et les intervalles de confiance
De nombreux statisticiens recommandent de se concentrer davantage sur :
- Les tailles d’effet standardisées (d de Cohen, r de Pearson, etc.)
- Les intervalles de confiance autour de ces estimations
Ces indicateurs fournissent une information plus riche et plus pertinente que la simple valeur p.
Utiliser des méthodes bayésiennes
L’inférence bayésienne offre une alternative intéressante à l’approche fréquentiste classique :
- Calcul de facteurs de Bayes plutôt que de valeurs p
- Estimation de la probabilité des hypothèses étant donné les données
- Possibilité d’intégrer des connaissances préalables (priors)