Vous le constatez tous, aujourd’hui, le nombre de traductions et de synthèses de publications scientifiques fleurissent partout sur les réseaux. Nous avons déjà averti sur le sujet il y a quelques mois. Kinesport diffuse les synthèses des articles sélectionnés depuis 10 ans, souvent, mais avec de plus en plus de difficultés justement à les sélectionner selon leur niveau de preuves, leur pertinence ou encore leur apport pratique parfois différent. Souvent instrumentalisés, ces affichages peuvent vous induire en erreur et nous appelons à la plus grande prudence des effets de comm qui claquent. Dans une ligne de bon sens, nous tentons de vous faire découvrir nos approches liant les avancées des preuves factuelles et leurs déductions pratiques dans notre quotidien d’une part avec les pratiques qui ont fait leur « preuve » par le pratice-based evidence d’autre part.
Encore plus dans le sport, le besoin de résultats est pressant que ce soit terme de scores de matchs, ou d’effets positifs dans une publication scientifique dans le sport. Mais qu’en est-il vraiment du niveau de preuve de ces publications concentrées sur la médecine et la kinésithérapie du sport.
Une recherche de haute qualité peut aider les cliniciens et les patients à décider quels traitements sont les plus efficaces. La reproduction des résultats de la recherche fait partie intégrante du processus scientifique et représente une base de preuves plus solide pour la décision clinique. Cependant, il est à craindre que la majorité des allégations de recherche publiées soient fausses.
Dans une enquête auprès de 1576 chercheurs, plus de 70% avaient essayé et échoué à reproduire l'expérience d'un autre scientifique, et plus de la moitié n'avaient pas reproduit leurs propres expériences. Dans la recherche préclinique, seulement 11% à 49% des résultats de la recherche ont été reproduits avec succès, 10 avec des chiffres similaires rapportés dans la science psychologique. Bien que la pratique fondée sur des preuves devrait améliorer considérablement la qualité et le coût des soins de santé, de graves préoccupations concernant la conception des essais contrôlés randomisés (randomized controlled trial (RCT)) et l'analyse statistique soulèvent des questions sur la validité des interventions fondées sur des preuves.
L'analyse statistique dans la recherche médicale amène souvent à des conclusions formées par des valeurs de P (probabilité) générées à partir de tests appelés « null-hypothesis significance testing » ou tests d’hypothèse nulle (l’hypothèse selon laquelle on fixe à priori un paramètre de la population à une valeur particulière s’appelle l’hypothèse nulle et est notée H0. N’importe quelle autre hypothèse qui diffère de l’hypothèse H0 s’appelle l’hypothèse alternative (ou contre-hypothèse) et est notée H1
). Cependant, de nombreux chercheurs et cliniciens sont incapables de définir ou d'interpréter avec précision les valeurs de P. Les idées fausses courantes sont qu'une valeur de P représente «la probabilité que les résultats se soient produits par hasard » ou «la probabilité que l'hypothèse nulle (H0) est vrai" ou" la probabilité que l'hypothèse testée soit vraie. " La valeur AP représente seulement la probabilité que les données obtenues, ou des valeurs plus extrêmes, puissent être obtenues si l'hypothèse nulle était vraie, c'est-à-dire la probabilité des données, à condition que l'hypothèse nulle soit vraie.
Une mauvaise interprétation des résultats des tests statistiques rend difficile la distinction entre les résultats positifs et les résultats faux positifs. Comprendre et appliquer avec précision les statistiques appropriées pour se défendre contre les fausses découvertes. Au cœur de ce processus se trouve la quantification du risque de faux positifs (false-positive risk (FPR)), « La probabilité d'observer une valeur de p statistiquement significative et de déclarer qu'un effet est réel, alors qu'il ne l'est pas. » Le FPR dans différents domaines de la science biomédicale a été estimé avec prudence à 25%. Cela signifie que dans au moins 1 étude sur 4, les chercheurs ont conclu à tort qu'un effet de traitement s'était produit.
La question des données non reproductibles est discutée par les scientifiques depuis des décennies. Cependant, elle a reçu peu d'attention dans les soins de santé. Personne n'a examiné le FPR en utilisant des données primaires extraites de recherches expérimentales cliniques de haute qualité. Compte tenu de la critique d'une base de données probantes faible pour l'orthopédie et la médecine sportive.
3 auteurs anglais, CHRIS BLEAKLEY, JONATHAN REIJGERS et JAMES M. SMOLIGA, se sont donnés pour mission de réaliser une étude pour estimer le FPR des RCT de haute qualité en physiothérapie sportive. leurs objectifs secondaires étaient d'examiner la relation entre le FPR et les valeurs de P déclarées en quantifiant le nombre d'études avec un FPR supérieur à 5%, et de déterminer comment le FPR a changé en fonction d'hypothèses sur la probabilité d'effet antérieure. Leur étude vient d'être publiée dans le JOSPT le 2 février 2020.
Je vous en propose une synthèse traduction.
Arnaud BRUCHARD
Encore plus dans le sport, le besoin de résultats est pressant que ce soit terme de scores de matchs, ou d’effets positifs dans une publication scientifique dans le sport. Mais qu’en est-il vraiment du niveau de preuve de ces publications concentrées sur la médecine et la kinésithérapie du sport.
Une recherche de haute qualité peut aider les cliniciens et les patients à décider quels traitements sont les plus efficaces. La reproduction des résultats de la recherche fait partie intégrante du processus scientifique et représente une base de preuves plus solide pour la décision clinique. Cependant, il est à craindre que la majorité des allégations de recherche publiées soient fausses.
Dans une enquête auprès de 1576 chercheurs, plus de 70% avaient essayé et échoué à reproduire l'expérience d'un autre scientifique, et plus de la moitié n'avaient pas reproduit leurs propres expériences. Dans la recherche préclinique, seulement 11% à 49% des résultats de la recherche ont été reproduits avec succès, 10 avec des chiffres similaires rapportés dans la science psychologique. Bien que la pratique fondée sur des preuves devrait améliorer considérablement la qualité et le coût des soins de santé, de graves préoccupations concernant la conception des essais contrôlés randomisés (randomized controlled trial (RCT)) et l'analyse statistique soulèvent des questions sur la validité des interventions fondées sur des preuves.
L'analyse statistique dans la recherche médicale amène souvent à des conclusions formées par des valeurs de P (probabilité) générées à partir de tests appelés « null-hypothesis significance testing » ou tests d’hypothèse nulle (l’hypothèse selon laquelle on fixe à priori un paramètre de la population à une valeur particulière s’appelle l’hypothèse nulle et est notée H0. N’importe quelle autre hypothèse qui diffère de l’hypothèse H0 s’appelle l’hypothèse alternative (ou contre-hypothèse) et est notée H1
). Cependant, de nombreux chercheurs et cliniciens sont incapables de définir ou d'interpréter avec précision les valeurs de P. Les idées fausses courantes sont qu'une valeur de P représente «la probabilité que les résultats se soient produits par hasard » ou «la probabilité que l'hypothèse nulle (H0) est vrai" ou" la probabilité que l'hypothèse testée soit vraie. " La valeur AP représente seulement la probabilité que les données obtenues, ou des valeurs plus extrêmes, puissent être obtenues si l'hypothèse nulle était vraie, c'est-à-dire la probabilité des données, à condition que l'hypothèse nulle soit vraie.
Une mauvaise interprétation des résultats des tests statistiques rend difficile la distinction entre les résultats positifs et les résultats faux positifs. Comprendre et appliquer avec précision les statistiques appropriées pour se défendre contre les fausses découvertes. Au cœur de ce processus se trouve la quantification du risque de faux positifs (false-positive risk (FPR)), « La probabilité d'observer une valeur de p statistiquement significative et de déclarer qu'un effet est réel, alors qu'il ne l'est pas. » Le FPR dans différents domaines de la science biomédicale a été estimé avec prudence à 25%. Cela signifie que dans au moins 1 étude sur 4, les chercheurs ont conclu à tort qu'un effet de traitement s'était produit.
La question des données non reproductibles est discutée par les scientifiques depuis des décennies. Cependant, elle a reçu peu d'attention dans les soins de santé. Personne n'a examiné le FPR en utilisant des données primaires extraites de recherches expérimentales cliniques de haute qualité. Compte tenu de la critique d'une base de données probantes faible pour l'orthopédie et la médecine sportive.
3 auteurs anglais, CHRIS BLEAKLEY, JONATHAN REIJGERS et JAMES M. SMOLIGA, se sont donnés pour mission de réaliser une étude pour estimer le FPR des RCT de haute qualité en physiothérapie sportive. leurs objectifs secondaires étaient d'examiner la relation entre le FPR et les valeurs de P déclarées en quantifiant le nombre d'études avec un FPR supérieur à 5%, et de déterminer comment le FPR a changé en fonction d'hypothèses sur la probabilité d'effet antérieure. Leur étude vient d'être publiée dans le JOSPT le 2 février 2020.
Je vous en propose une synthèse traduction.
Arnaud BRUCHARD
A RETENIR :
- 1 essai sur 10 dans le domaine de la physiothérapie sportive a faussement conclu à un effet du traitement.
- Bon nombre des conclusions positives statistiquement significatives des RCT de haute qualité en physiothérapie sportive ne sont probablement que des suggestions.
- Aucun essai n'a rapporté d'effets négatifs ou néfastes d'une intervention en physiothérapie du sport
- Un seul résultat significatif ne doit pas être considéré comme un « fait scientifique »
- Seulement 29% des essais de physiothérapie sportive ont un protocole d'étude enregistré avant la réalisation.
- Les lacunes méthodologiques peuvent être à l'origine de la perte de conclusions de chercheurs en médecine sportive et en physiothérapie du sport et influencer négativement la pratique factuelle.
MÉTHODES
- Les essais proviennent de la Physiotherapy Evidence Database (PEDro), une base de données librement accessible pour « guider les utilisateurs vers des essais qui sont plus susceptibles d'être valides » et « guider la pratique clinique » . En plus de servir de base de données pour essais cliniques, PEDro comprend une échelle de 10 éléments quantifiant la qualité de l'étude.
- Les auteurs ont identifié tous les RCT dont le score est supérieur à 6/10 et classés dans la sous-catégorie des « sports », définis par PEDro comme « des documents qui mentionnent spécifiquement les blessures sportives ainsi que les conditions qui affectent généralement les sportifs. Les RCT éligibles doivent avoir utilisé des null-hypothesis significance testing pour déterminer la preuve de l'effet et a utilisé une conception de groupe parallèle. Aucune restriction n'a été imposée sur la pathologie, le type d'intervention ou la date de publication.
- Les essais ont été regroupé comme étant soit (1) positifs, rapportant un seuil dichotomique de signification statistique (P <0,05) dans au moins 1 résultat ; ou (2) nul, ne signalant aucune preuve d'effet (P> .05).
- Pour tous les essais qui ont rapporté des preuves d'effet (études positives), les auteurs ont extrait des données supplémentaires. Ils ont extrait les détails des comparaisons entre les groupes, sans aucune restriction sur la construction des résultats ou le temps de suivi. S'il y avait une comparaison entre les groupes avec un résultat positif statistiquement significatif, la valeur P a été extrait et le nombre de participants dans chaque groupe et, lorsque cela était possible, calculé la taille d'effet correspondante). Si un essai a rapporté un seuil de P <0,05, plutôt qu'une valeur P exacte, les auteurs ont supposé que la valeur P était un centième en dessous de la valeur seuil (par exemple, 0,049).
RÉSULTATS
Risque de faux positifs
- 122 RCT identifiés avec un score supérieur à 6/10 sur l'échelle PEDro ont été inclus.
- Sur les 122 RCT, 49% (n = 60) ont rapporté un résultat nul et 51% (n = 62) ont signalé des effets positifs d'au moins 1 résultat.
- Il y avait peu de différences entre les sous-groupes (positifs ou nuls) dans les diagnostics primaires et les interventions de traitement.
- La majorité des RCT incluaient des participants souffrant de tendinopathie (47 études), de douleurs musculo-squelettiques (19 études) ou de problèmes ligamentaires / articulaires (21 études).
- Les agents électrophysiques (48 études), la réhabilitation (37 études) et la thérapie manuelle (17 études) étaient les interventions les plus courantes.
Risque de faux positifs
- Parmi les essais avec effets positifs (n = 62), 67% ont comparé 2 approches physiothérapiques différentes et 33% ont utilisé des témoins fictifs ou des témoins placebo.
- La taille moyenne ± SD de l'échantillon était de 57,3 ± 35,2 (intervalle, 16-172).
- 29% des essais (18/62) ont été enregistrés prospectivement et 64% (40/62) ont déclaré utiliser un calcul a priori de la taille de l'échantillon.
- La majorité des estimations de la taille de l'échantillon incluaient des niveaux alpha (erreur de type I) et bêta (erreur de type II) de 5% et 20%, respectivement, et la taille d'effet a priori prévue utilisée était de 0,9 ± 0,4
- Le FPR n’a pas pu être calculé dans 18 essais en raison de données manquantes.
- Dans les 44 essais restants, les auteurs ont calculé la FPR associée à 189 comparaisons entre les groupes présentés comme statistiquement significatif.
- Des valeurs de P plus faibles étaient associées à un FPR plus faible.
- La moyenne ± SD FPR (basée sur une probabilité antérieure de 0,5) était de 25,2% ± 34,3%.
- 63% des valeurs de P déclarées (119/189) étaient associées à des FPR supérieurs à 5% et 18% (35/189) avaient un FPR supérieur à 50%.
- En utilisant une approche bayésienne inversée, 57% (68/119) des résultats statistiquement significatifs (résultats primaires ou secondaires) nécessiteraient des probabilités antérieures supérieures à 0,8 si des FPR de 5% devaient être atteints.
- Les profils de risque faussement positifs étaient similaires lors de l'examen des résultats primaires uniquement, avec des FPR moyens et médians de 22,9% ± 36,1% et 5% respectivement.
- Le FPR le plus bas s'est produit lorsque la probabilité d'effet antérieure était supposée être de 0,8, avec un risque médian de 2%.
- Le risque de faux positifs augmentait lorsque l'on supposait des probabilités antérieures de 0,2.
DISCUSSION
63% des résultats statistiquement significatifs (P <0,05) dans la littérature de physiothérapie sportive a généré des FPR supérieurs à 5%.
Des simulations répétées de tests t suggèrent que si l'on utilise P = .05 pour conclure une découverte, on se trompera au moins 30% du temps.
Les fausses découvertes (affirmer qu'un effet du traitement est réel alors qu'il ne l'est pas) peuvent être minimisées grâce à une meilleure compréhension des FPR. C'est la première fois que la littérature sur les soins de santé est vérifiée pour déterminer le FPR à l'aide de données primaires extraites de recherches expérimentales cliniques de meilleure qualité.
Le FPR moyen était de 9% (25e-75e centile, 2% -24%), ce qui suggère qu'environ 1 essai sur 10 dans le domaine de la physiothérapie sportive a faussement conclu à un effet du traitement.
Il y a eu un éventail de propositions pour aider à minimiser les allégations non fondées d'efficacité dans la recherche. Une option a été de réduire les seuils de valeur P à P≤.001 pour maintenir les taux de fausses découvertes à un niveau inférieur à 5%. Récemment, l'American Statistical Association a publié un certain nombre de recommandations visant à améliorer l'utilisation null-hypothesis significance testing. L'objectif principal de l'American Statistical Association est de faire progresser la recherche au-delà des tests d'hypothèse «tout ou rien», ce qui peut être particulièrement important si les prédictions théoriques d'une étude sont faibles.
Les décisions cliniques ne devraient pas être prises uniquement sur une valeur de P. Bon nombre des conclusions positives statistiquement significatives des RCT de haute qualité en physiothérapie sportive ne sont probablement que des suggestions.
Les chercheurs doivent également comprendre que null-hypothesis significance testing ne sont conçus que pour fonctionner efficacement dans le contexte de tests répétés à long terme (réplication exacte). Un seul résultat significatif ne doit pas être considéré comme un « fait scientifique ». Le résultat devrait être interprété comme quelque chose qui mérite une enquête plus approfondie, en particulier s'il est dérivé d'un résultat secondaire.
Il n'y a pas de consensus sur la meilleure façon de communiquer les résultats des tests d'hypothèses scientifiques.
Les essais avec des résultats positifs sont publiés plus souvent et plus rapidement que les essais avec des résultats négatifs. La proportion de résultats positifs dans la littérature scientifique publiée peut atteindre 86%. Dans l’analyse des RCT de haute qualité de cette étude en physiothérapie du sport, les auteurs ont trouvé un rapport égal d'essais rapportant des effets positifs et nuls. Bien que cela puisse suggérer que le biais de publication n'est pas un problème dans le domaine de la physiothérapie sportive, aucun essai n'a rapporté d'effets négatifs ou néfastes d'une intervention. Il peut également y avoir un biais de publication dans les études de moindre qualité. Seulement 29% des essais de physiothérapie sportive étaient prospectivement enregistrés, c’est-à-dire que le protocole a été enregistré avant le début de l'essai clinique (c.-à-d. avant que les participants soient recrutés). Il est important que ce chiffre finisse par atteindre 100%.
La base de données probantes pour l'orthopédie et la médecine du sport a été critiquée pour la sélection inappropriée des participants et le risque élevé de biais. Des problèmes liés aux critères d'évaluation primaires non définis et aux comparaisons multiples ont été critiqué dans la littérature, mais leur pertinence a été difficile à quantifier. Les résultats de cette étude suggèrent que les lacunes méthodologiques peuvent être à l'origine de la perte de conclusions de chercheurs en médecine sportive et en physiothérapie du sport et influencer négativement la pratique factuelle.
63% des résultats statistiquement significatifs (P <0,05) dans la littérature de physiothérapie sportive a généré des FPR supérieurs à 5%.
Des simulations répétées de tests t suggèrent que si l'on utilise P = .05 pour conclure une découverte, on se trompera au moins 30% du temps.
Les fausses découvertes (affirmer qu'un effet du traitement est réel alors qu'il ne l'est pas) peuvent être minimisées grâce à une meilleure compréhension des FPR. C'est la première fois que la littérature sur les soins de santé est vérifiée pour déterminer le FPR à l'aide de données primaires extraites de recherches expérimentales cliniques de meilleure qualité.
Le FPR moyen était de 9% (25e-75e centile, 2% -24%), ce qui suggère qu'environ 1 essai sur 10 dans le domaine de la physiothérapie sportive a faussement conclu à un effet du traitement.
Il y a eu un éventail de propositions pour aider à minimiser les allégations non fondées d'efficacité dans la recherche. Une option a été de réduire les seuils de valeur P à P≤.001 pour maintenir les taux de fausses découvertes à un niveau inférieur à 5%. Récemment, l'American Statistical Association a publié un certain nombre de recommandations visant à améliorer l'utilisation null-hypothesis significance testing. L'objectif principal de l'American Statistical Association est de faire progresser la recherche au-delà des tests d'hypothèse «tout ou rien», ce qui peut être particulièrement important si les prédictions théoriques d'une étude sont faibles.
Les décisions cliniques ne devraient pas être prises uniquement sur une valeur de P. Bon nombre des conclusions positives statistiquement significatives des RCT de haute qualité en physiothérapie sportive ne sont probablement que des suggestions.
Les chercheurs doivent également comprendre que null-hypothesis significance testing ne sont conçus que pour fonctionner efficacement dans le contexte de tests répétés à long terme (réplication exacte). Un seul résultat significatif ne doit pas être considéré comme un « fait scientifique ». Le résultat devrait être interprété comme quelque chose qui mérite une enquête plus approfondie, en particulier s'il est dérivé d'un résultat secondaire.
Il n'y a pas de consensus sur la meilleure façon de communiquer les résultats des tests d'hypothèses scientifiques.
Les essais avec des résultats positifs sont publiés plus souvent et plus rapidement que les essais avec des résultats négatifs. La proportion de résultats positifs dans la littérature scientifique publiée peut atteindre 86%. Dans l’analyse des RCT de haute qualité de cette étude en physiothérapie du sport, les auteurs ont trouvé un rapport égal d'essais rapportant des effets positifs et nuls. Bien que cela puisse suggérer que le biais de publication n'est pas un problème dans le domaine de la physiothérapie sportive, aucun essai n'a rapporté d'effets négatifs ou néfastes d'une intervention. Il peut également y avoir un biais de publication dans les études de moindre qualité. Seulement 29% des essais de physiothérapie sportive étaient prospectivement enregistrés, c’est-à-dire que le protocole a été enregistré avant le début de l'essai clinique (c.-à-d. avant que les participants soient recrutés). Il est important que ce chiffre finisse par atteindre 100%.
La base de données probantes pour l'orthopédie et la médecine du sport a été critiquée pour la sélection inappropriée des participants et le risque élevé de biais. Des problèmes liés aux critères d'évaluation primaires non définis et aux comparaisons multiples ont été critiqué dans la littérature, mais leur pertinence a été difficile à quantifier. Les résultats de cette étude suggèrent que les lacunes méthodologiques peuvent être à l'origine de la perte de conclusions de chercheurs en médecine sportive et en physiothérapie du sport et influencer négativement la pratique factuelle.
CONCLUSION
- Les conclusions de la recherche ne devraient pas être basées uniquement sur des null-hypothesis significance testing et des valeurs de P.
- Plus de 60% des résultats statistiquement significatifs (P <0,05) rapportés dans la littérature sur la physiothérapie du sport portaient des FPR supérieurs à 5%, et le FPR médian était de 9% (en supposant une probabilité antérieure de 0,5).
- Bon nombre des conclusions positives statistiquement significatives des essais contrôlés randomisés de haute qualité en physiothérapie sportive ne sont probablement que suggestives. Les aureurs estiment que le risque médian de faux positifs dans ce domaine est de 9% (25e-75e centile, 2% -24%).
L'étude
Many High-Quality Randomized Controlled Trials in Sports Physical Therapy Are Making False-Positive Claims of Treatment Effect: A Systematic Survey. CHRIS BLEAKLEY, JONATHAN REIJGERS, JAMES M. SMOLIGA. J Orthop Sports Phys Ther 2020.50:104-109
Many High-Quality Randomized Controlled Trials in Sports Physical Therapy Are Making False-Positive Claims of Treatment Effect: A Systematic Survey. CHRIS BLEAKLEY, JONATHAN REIJGERS, JAMES M. SMOLIGA. J Orthop Sports Phys Ther 2020.50:104-109