key: cord-0069678-rwt3xz8n authors: Stengel, Dirk; Mutschler, Wolf; Dubs, Luzi; Kirschner, Stephan; Renkawitz, Tobias title: Klinische Studien in Unfallchirurgie und Orthopädie: lesen, interpretieren und umsetzen date: 2021-11-10 journal: Unfallchirurg DOI: 10.1007/s00113-021-01101-8 sha: c89192c68e3b3faf2b7b2be73e5933df5f891161 doc_id: 69678 cord_uid: rwt3xz8n Informative, participatory clinical decision-making needs to combine both skills and expertise as well as current scientific evidence. The flood of digital information makes it difficult in everyday clinical practice to keep up to date with the latest publications. This article provides assistance for coping with this problem. A basic understanding of prior and posterior probabilities as well as systematic error (bias) makes it easier to weigh up the benefits and risks, e.g. of a (surgical) intervention compared to a nonsurgical treatment. Randomized controlled trials (RCT, with all modern modifications) deliver undistorted results but in orthopedic and trauma surgery can lead to a heavily selected nonrepresentative sample and the results must be confirmed or refuted by further, independent RCTs. Large-scale observational data (e.g. from registries) can be modelled in a quasi-experimental manner and accompany RCTs in health technology assessment. Für eine informierte, partizipative ärztliche Entscheidungsfindung müssen Sie neben Ihrem Erfahrungswissen aktuelle wissenschaftliche Daten berücksichtigen. Die digitale Informationsflut macht es im klinischen Alltag allerdings schwer, immer auf dem Stand des Wissens zu bleiben. Der Beitrag bietet einige Hilfen an, wie mit diesem Problem umgegangen werden kann. Ein grundlegendes Verständnis über Vor-und Nachwahrscheinlichkeiten sowie systematische Fehler (Bias) erleichtert die Abwägung zwischen Nutzen und Risiko z. B. einer (chirurgischen) Intervention im Vergleich zu einer nichtoperativen Therapie. Randomisierte Studien ("randomized controlled trials", RCT, mit allen modernen Modifikationen) liefern unverzerrte Ergebnisse, führen in Orthopädie und Unfallchirurgie evtl. zu einer stark selektierten, nichtrepräsentativen Stichprobe, und ihre Resultate müssen durch weitere, unabhängige RCT bestätigt oder widerlegt werden. Große beobachtende Datenmengen (z. B. aus Registern) können quasiexperimentell modelliert werden und RCT in der Gesundheitstechnologiebewertung flankieren. Informative, participatory clinical decision-making needs to combine both skills and expertise as well as current scientific evidence. The flood of digital information makes it difficult in everyday clinical practice to keep up to date with the latest publications. This article provides assistance for coping with this problem. A basic understanding of prior and posterior probabilities as well as systematic error (bias) makes it easier to weigh up the benefits and risks, e.g. of a (surgical) intervention compared to a nonsurgical treatment. Randomized controlled trials (RCT, with all modern modifications) deliver undistorted results but in orthopedic and trauma surgery can lead to a heavily selected nonrepresentative sample and the results must be confirmed or refuted by further, independent RCTs. Large-scale observational data (e.g. from registries) can be modelled in a quasi-experimental manner and accompany RCTs in health technology assessment. Randomized controlled trial · Probability · Confidence intervals · Bias · Scientific misconduct -Empfehlungen j des Committee on Publication Ethics (COPE), j des International Committee of Medical Journal Editors (ICMJE) und j des Enhancing the Quality and Transparency of Health Research (EQUATOR) Network. Propädeutische Serien in Zeitschriften wie Journal of the American Medical Association (JAMA, [10] ) und Deutsches Ärzteblatt [11] , semiquantitative Instrumente zur Bestimmung des Risikos für systematische Fehler wie das Cochrane Risk-of-Bias Tool Version 2.0 (RoB-2) und Grading of Recommendations Assessment, Development and Evaluation (GRADE) können Kliniker(innen) und Methodiker(innen) unterstützen, um die wissenschaftliche Informationsflut zu strukturieren. . Datenfabrikationen lassen sich leicht aufdecken -Menschen sind schlechte Zufallsgeneratoren [15] . Wenn z. B. Mittelwerte aus kategoriellen Daten abgeleitet werden, zeigt das verblüffende Prinzip der Granularity-Related Inconsistency of Means (GRIM), dass es schlichtweg unmögliche Nachkommastellen gibt [16] . Fragen Sie z. B. 7 Proband(inn)en nach der Anzahl ihrer Kinder, können Mittelwerte wie 1,51 oder 2,02 nicht auftreten. Die unabhängige, verblindete Begutachtung wissenschaftlicher Manuskripte ("peer review") durch internationale Expert(inn)en sichert Qualität. Die Vorabveröffentlichung von Beiträgen auf Preprint-Servern wie medRxiv erwies sich im Zuge der COVID-19-Pandemie als Fluch und Segen zugleich [17] . Einerseits konnten so Forschungsergebnisse frühzeitig der wissenschaftlichen Gemeinschaft barrierefrei zur Verfügung gestellt werden. Andererseits drangen auch ungesicherte Informationen zu den Medien und in die sozialen Netzwerke. Nehmen Sie an, dass Sie nachts aufwachen und vor Ihrem Fenster ein blaues, blinkendes Licht wahrnehmen. Je nach Ihrer individu-CME Posterior P(θ|y) Abb. 1 Ein einzelnes noch so beeindruckendes Studienergebnis macht (wie die berühmte Schwalbe) noch keinen Sommer Sie treffen als Ärztin oder Arzt jeden Tag Entscheidungen auf der Basis Ihrer Intuition. Dies bezeichnet man auch als Heuristik (Bauchentscheidung, [19] ). In den chirurgischen Fächern führt die Konfrontation mit einer Akutsituation oder einem intraoperativen Situs zu einer oftmals nichterklärbaren (manuellen) Handlung [20] . Je größer die Erfahrung und das handwerkliche Geschick, umso eher wird die unbewusste Reaktion selbst auf eine unerwartete Gegebenheit zu einem günstigen Behandlungsergebnis beitragen. Erfahrungswissen unterliegt jedoch der Apoptose und wird oftmals durch neue wissenschaftliche Fakten entkräftet -mit anderen Worten: Die Expertise ist relativ und kurzlebig. In der randomisierten Studie Open reduction and internal fixation versus casting for highly comminuted and intra-articular fractures of the distal radius (ORCHID) wurden vor einigen Jahren das funktionelle Outcome und die Lebensqualität nach der Versorgung einer intraartikulären Fraktur des distalen Radius (AO/OTA-Typ 23C) bei Patient(inn)en ≥65 Jahren untersucht. Es wurde gezeigt, dass die in Deutschland vorwiegend stationär durchgeführte volare winkelstabile Plattenosteosynthese ("open reduction and internal fixation", ORIF) 12 Monate nach dem Unfallereignis nicht zu einem besseren Outcome als eine geschlossene Reposition und ambulante Ausbehandlung im Gipsverband führt [21] . Aufgrund der Häufigkeit der Verletzung in der alternden Bevölkerung ist es wichtig, Betroffenen und ihren Angehörigen darzulegen, dass CME der Verzicht auf eine invasivere Therapie nicht notwendigerweise schlechtere Behandlungsergebnisse im Mittel-und im Langzeitverlauf mit sich bringt. Eine bewusste und gezielte nichtoperative Behandlung und Rehabilitation häufiger Verletzungen können zu ähnlich guten Ergebnissen wie eine operative Therapie führenbeide Modalitäten können sich im klinischen Alltag und in der nationalen Gesundheitsversorgung behaupten, solange sie qualitätsgesichert trainiert und umgesetzt werden. Die Studie ORCHID musste aufgrund schleppender Rekrutierung vor Erreichung der Zielfallzahl von 252 Teilnehmer(inne)n abgebrochen werden und schloss in der "Intention-to-treat"(ITT)-Analyse (also der Population, in der Teilnehmer so ausgewertet werden, wie sie randomisiert wurden -egal, ob sie tatsächlich die per Zufall zugeloste Therapie erhielten oder nicht) 149 Patient(inn)en ein. Die Ergebnisse wurden in der deutschen klinisch-wissenschaftlichen Gemeinschaft kontrovers aufgenommen -international lieferten sie u. a. die Grundlage für die unten erörterte Combined randomised and observational study of surgery for fractures in the distal radius in the elderly (CROSSFIRE, [22] ). Eine winkelstabile Plattenosteosynthese hatte sich im britischen Distal radius acute fracture fixation (DRAFFT) trial mit 461 Teilnehmenden gegenüber der Kirschner-Draht-Osteosynthese als nichtüberlegen erwiesen [23] . Es lag also nah, die chirurgischen Extremvarianten (d. h., ORIF vs. geschlossene Reposition und Gipsstabilisierung) per Zufallszuteilung zu untersuchen -dies war ethisch gerechtfertigt, da zum Zeitpunkt der Studieninitiierung in Ermangelung wissenschaftlicher Daten therapeutische Unsicherheit (Equipoise) vorlag. Eine klinische, insbesondere eine randomisierte Studie erfordert häufig eine Abstraktion sowohl bei der Definition der interessierenden Erkrankung bzw. Verletzung, den Ein-und Ausschlusskriterien, der Intervention, aber auch den Endpunkten. Im ORCHID-Szenario bedeutete dies, dass zwar eine generelle Aussage über die Wirksamkeit und den Nutzen biologisch sehr unterschiedlicher Behandlungsprinzipien (und deren Effektstärken) getroffen werden konnte, diese Informationen aber nicht so tief reichten, um beispielsweise zu entscheiden, welches Implantat welches Herstellers für eine spezielle Frakturmorphologie ausgewählt werden sollte. Im März 2021 wurden die Ergebnisse der australischen CROSSFIRE("Combined Randomised and Observational Study of Surgery for Fractures in the Distal Radius in the Elderly")-Studie veröffentlicht, die die exakt gleichen Fragen wie ORCHID untersuchte [22] . Der wesentliche Unterschied war, dass in CROSSFIRE lediglich ein Drittel der Patient(inn)en intraartikuläre Frakturen aufwies. Nichtrandomisierte Teilnehmende wurden in einer Beobachtungskohorte nachuntersucht ("comprehensive cohort design", [24] ). Die randomisierte Stichprobe war mit 166 Teilnehmenden mit ORCHID vergleichbar und zeigte auch ein ähnliches Basisprofil. Die in ORCHID beobachteten funktionellen und Lebensqualitätsmessungen nach 12 Monaten wurden durch CROSSFIRE nahezu punktgenau bestätigt (Abb. 2). Nach der derzeitigen besten wissenschaftlichen Evidenz gibt es keine Unterschiede in funktionellen und Lebensqualitätsindikatoren 3 und 12 Monate nach einer volaren Plattenosteosynthese und einer Gipsbehandlung bei distalen Radiusfrakturen bei Patient(inn)en ≥65 Jahren. Sie dürfen Margaret M. unter Abwägung verschiedener Faktoren (der Prämisse der Wiederherstellung ihrer physischen Aktivität, ihrem Wunsch nach ambulanter Behandlung) und Verweis auf die Ergebnisse aus ORCHID und CROSSFIRE ein gutes funktionelles Ergebnis nach primärer nichtoperativer Ausbehandlung ihrer distalen Radiusfraktur in Aussicht stellen. Natürlich haben Sie es nicht jeden Tag mit älteren Patient(inn)en mit der beschriebenen Verletzung zu tun, die körperlich aktiv sind, eine hohe Gesundheitskompetenz ("health literacy") aufweisen, sich der Wichtigkeit kontrollierter klinischer Studien bewusst sind oder danach fragen. Als Kliniker(in) werden Sie einwenden, dass Wenn Sie Mittelwerte und Mittelwertdifferenzen zwischen verschiedenen Untersuchungen aggregieren und gleichzeitig Aussagen über die klinische Relevanz von Beobachtungen treffen wollen, bietet es sich an, Effektstärken zu berechnen [25] . Die Effektstärke ist in etwa die Mittelwertdifferenz in einem Score oder einer sonstigen stetigen Messgröße, geteilt durch die gemeinsame Standardabweichung (in erster Näherung auch durch die Standardabweichung in der Kontrollgruppe). Effektstärken um 0,2 gelten als klinisch wenig relevant, um 0,5 als moderat, ab 0,8 als stark [26] . Die Ergebnisse von ORCHID und CROSSFIRE im Forest-Plot-Format illustriert Abb. 3. Hierbei wiederum gilt -je näher die Punktschätzer (illustriert durch Quadrate, Kreise oder Rauten) am Wert Null (bei Mittelwert-oder absoluten Risikodifferenzen) bzw. dem Wert Eins (bei relativen Risikomaßen wie "risk ratio" bzw. relativem Risiko, "odds ratio", "hazard ratio" usw.) liegen, umso geringer der Therapieeffekt. Nach Erfahrungswerten funktioniert die zufällige Balancierung der Ausgangsrisiken ab etwa 100 Studienteilnehmern/Gruppe zuverlässig. Die meisten randomisierten Studien in Orthopädie und Unfallchirurgie weisen eher kleinere Stichprobengrößen (<100 Teilnehmende) auf -Differenzenvon 10 %inkategoriellenoder binären Größen (z. B. Geschlechtsverteilung, Häufigkeit intraartikulärer oder offener Frakturen, Anteil von Rauchern oder Menschen mit Diabetes etc.) oder 10 Punkten in stetigen Größen (z. B. Alter, Body-Mass-Index etc.) sind nicht selten. Grundsätzlich ist es kein Problem, wenn derartige Unterschiede einem Zufallsmuster folgenalso z. B. Risikofaktoren in der einen oder anderen Gruppe stärker vertreten sind. Wenn sich jedoch alle Risikofaktoren in einer Therapiegruppe häufen, kann ein systematischer Fehler, der die Ergebnisse verzerren kann, nicht ausgeschlossen werden (Tab. 1). In nichtrandomisierten bzw. Beobachtungsstudien müssen Unterschiede im Basisprofil mithilfe statistischer Verfahren (Matching, multivariate Regression etc.) korrigiert werden. Ein weit verbreitetes und etabliertes Verfahren ist das sog. Propensity Score Matching, das auch als "Pseudorandomisierung" bezeichnet wird [30, 31] . Hierbei wird z. B. in einem Register zunächst die Wahrscheinlichkeit ermittelt, warum Patient(inn)en mit einem bestimmten Frakturtyp die eine oder andere Behandlung erhielten. Endpunkte werden zwischen denjenigen Patient(inn)en verglichen, die die gleiche Wahrscheinlichkeit hatten, die eine oder andere Behandlung zu erhalten. Das Propensity Score Matching kommt bei der Gleichverteilung von Ausgangsrisiken nahe an das Ideal der Randomisierung heran, wenngleich nur bekannte Risikofaktoren berücksichtigt werden können und die Stichprobe einer Stichprobe analysiert wird. Die Methode ist daher v. a. für sehr große Datensätze geeignet [32] . So konnte z. B. in einer kombinierten Analyse von Datensätzen der ADAC Luftrettung und des TraumaRegister DGU ® (AUC -Akademie der Unfallchirurgie GmbH, München, Deutschland) mithilfe des Propensity Score Matching die im Clinical randomisation of an CME antifibrinolytic in significant haemorrhage 2 trial (CRASH-2, [33] ) beobachtete Reduktion der Sterblichkeit Schwerverletzter durch eine präklinische Gabe von Tranexamsäure bestätigt werden [34] . BG Kliniken -Klinikverbund der gesetzlichen Unfallversicherung gGmbH, Leipziger Pl. 1, 10117 Berlin (seit Februar 2019). | Rubrikherausgeber Der Unfallchirurg, Gutachter BMBF, klinische Studien mit hoher Relevanz für die Patientenversorgung/"systematic reviews" | Mitgliedschaften Probability and uncertainty in clinical and forensic medicine Clinical and radiological outcomes in robotic-assisted total knee arthroplasty: a systematic review and meta-analysis Navigated total knee replacement. A meta-analysis Robot-assisted and conventional freehand pedicle screw placement: a systematic review and meta-analysis of randomized controlled trials Biomechanical and clinical effect of patientspecific or customized knee implants: a review Consensus statement for perioperative care in total hip replacement and total knee replacement surgery: Enhanced Recovery After Surgery (ERAS ® ) Society recommendations Interventions for increasing the use of shared decision making by healthcare professionals Implementing large-system, value-based healthcare initiatives: a realist study protocol for seven natural experiments Prevalence, severity, and nature of preventable patient harm across medical care settings: systematic review and meta-analysis Users' guides to the medical literature Critical appraisal of scientific articles: part 1 of a series on evaluation of scientific publications The changing landscape of product development and randomized trials Leitlinien zur Sicherung guter wissenschaftlicher Praxis. Kodex. Deutsche Forschungsgemeinschaft, Bonn 14. Retraction watch The role of biostatistics in the prevention, detection and treatment of fraud in clinical trials The GRIM test: a simple technique detects numerous anomalies in the reporting of results in psychology The evolving role of preprints in the dissemination of COVID-19 research and their impact on the science communication landscape Understanding statistics and probability with star wars, LEGO, and rubber ducks Heuristic decision making Surgical heuristics The treatment of displaced intra-articular distal radius fractures in elderly patients Surgical plating vs closed reduction for fractures in the distal radius in older patients: a randomized clinical trial Percutaneous fixation with Kirschner wiresversusvolarlockingplatefixationinadults with dorsally displaced fracture of distal radius: randomised controlled trial Are the results of randomized trials influenced by preferenceeffects? PartII. WhycurrentstudiesoftenfailtoAnswerthisquestion The meaningfulness of effect sizes in psychological research: differences between sub-disciplines and the impact of potential biases An effect size primer: A guide for clinicians and researchers Statistical methods for research workers The Proposal to Lower P Value Thresholds to .005 What have we (not) learnt from millions of scientific papers with P values? Propensityscoremethodsinhealth technology assessment: principles, extended applications, and recent advances Propensity score matching: a statistical method Association between wait time and 30-day mortality in adults undergoing hip fracture surgery Effects of tranexamic acid on death, vascular occlusive events, and blood transfusion in trauma patients with significant haemorrhage (CRASH-2): a randomised, placebo-controlled trial Prehospital administration of tranexamic acid in trauma patients Fachzeitschrift und e.Med-Abonnenten. -Abonnenten von "Der Orthopäde" oder "Der Unfallchirurg" können kostenlos an CME-Kursen beider Zeitschriften teilnehmen. ? Wofür steht das "PICOT-Schema"? ◯ "Prior probability, incidence, computation, outcome, time" ◯ "Preference, intellectual property, compliance, testing" ◯ "Particular interests, contracts and testimonies" ◯ "Patients, incidence, co-morbidity, treatment" ◯ "Patient and problem, intervention, control, outcome, time"? Welche nationale und internationa-