Der personelle, logistische und finanzielle Aufwand für die Durchführung randomisierter kontrollierter Studien („Randomized Controlled Trials“ = RCTs) ist in den vergangenen Jahrzehnten aufgrund verschiedener Faktoren stark gewachsen; von klassischen Forschungseinrichtungen ist er ohne Sponsoring durch die Industrie schon lange kaum noch zu leisten. Vor einem Jahr haben wir über eine gemeinsame Stellungnahme von vier großen kardiologischen Fachgesellschaften zu diesem Problem berichtet, in der auch Lösungsvorschläge präsentiert wurden [1]. Einer davon ist die vermehrte Nutzung von Patientendaten, die von nationalen Registern und Versicherungen routinemäßig in Datenbanken erhoben werden.
Eine kürzlich publizierte Arbeit der Harvard-Universität untersuchte nun, ob mittels nicht-randomisierter, retrospektiver Kohortenstudien („Data Bank Studies“ = DBS), die in großen Datenbanken „eingebettet“ sind, die Ergebnisse von RCTs simuliert werden können [2]; die Resultate waren eher ernüchternd. Die Autoren sind Teil der durch die US-amerikanische Zulassungsbehörde „Food and Drug Administration“ (FDA) finanzierten „RCT-DUPLICATE“-Initiative, die sich der Erforschung dieses Themas widmet [3].
Methodik: Die PICOT-Parameter („Population, Intervention, Comparison, Outcome, Time“) von 32 RCT aus den Jahren 2017 bis 2022 zu unterschiedlichen Arzneimitteln wurden mittels paarweise zugeordneter Daten („Propensity-Score-Matching“) aus drei großen US-amerikanischen Versicherungsregistern retrospektiv simuliert und die Ergebnisse der jeweiligen primären Endpunkte verglichen. Themen der Studien waren Antidiabetika (9-mal), Plättchenhemmer (3-mal), Direkte Orale Antikoagulanzien (8-mal), Antihypertensiva (2-mal), Osteoporosetherapie (2-mal), Asthma/COPD (5-mal), Herzinsuffizienz (1-mal), chronische Niereninsuffizienz (1-mal) und Prostatakarzinom (1-mal). Die Korrelationen zwischen RCT und DBS wurden anhand verschiedener Kennwerte quantifiziert (Pearson-Koeffizient (r), Maximum 1,0; statistische Signifikanz = SS; „Estimate Agreement“ = EA; „Standardized Difference Agreement“ = SDA, Maximum jeweils 100%).
Ergebnisse: Die Übereinstimmung aller 32 untersuchten RCTs mit den DBS-Simulationen war insgesamt nur mäßig (r = 0,82; 95%-Konfidenzintervall = CI: 0,64-091; S: 75%; EA: 66%; SDA: 75%). Nach Auswahl von 16 RCTs, bei denen eine verhältnismäßig nahe Simulation mittels DBS möglich war, verbesserten sich die Werte deutlich (r: 0,93; CI: 0,79-0,97; SS: 94%; EA: 88%; SDA: 88%), während die 16 RCTs, die sich weniger gut mittels DBS simulieren ließen, eine entsprechend schlechtere Übereinstimmung zeigten (r: 0,53; CI: 0,00-0,83; SS: 56%; EA: 50%; SDA: 69%).
Diskussion: Die Autoren interpretieren die Ergebnisse ihrer Analyse sehr zurückhaltend. Obwohl sie nur hochselektierte RCTs herangezogen hatten, war eine Simulation mittels DBS (und mit entsprechenden Ergebnissen) nur eingeschränkt und nur unter idealen Bedingungen möglich. Die Basischarakteristika der RCTs (PICOT, s.o.) müssen in einer Datenbank optimal simuliert werden können. Dies sei aber schwierig zu erreichen. Zufälle und verborgene Störfaktoren seien kaum zu vermeiden. Manche integrale Charakteristika von RCTs (z.B. Plazebo, Absetzen von zuvor angewendeten Arzneimitteln, Dosisanpassungen) seien in DBS nicht zu simulieren bzw. können nur im Sinne einer „Standardbehandlung“ angenommen werden.
Die Analyse hat verschiedene Einschränkungen. RCTs wurden als Goldstandard und somit als intern und extern valide vorausgesetzt. Es ist theoretisch möglich (wenn auch unwahrscheinlich), dass die fehlende Übereinstimmung Ausdruck einer besseren Validität von DBS im Vergleich zu RCTs ist. Eine aktuelle Analyse der Universitätsklinik Graz, Österreich, untersuchte, inwieweit ihre „Real-World“-Patienten Einschluss- und Ausschlusskriterien von sechs großen RCT zum Thema Herzinsuffizienz erfüllen würden [4]. Die Forscher stellten fest, dass – je nach RCT – nur 28% bis 88% ihrer Patienten mit Herzinsuffizienz an diesen RCT hätten teilnehmen können. Häufige Ausschlusskriterien wie schwere Niereninsuffizienz, COPD und begleitende Herzklappenerkrankungen waren zudem mit einer signifikant höheren Mortalität assoziiert.
Die RCT-DUPLICATE-Autoren weisen außerdem darauf hin, dass Vergleiche unterschiedlicher Studien immer problematisch sind – auch dann, wenn zwei RCTs mit weitgehend identischem Design miteinander verglichen werden. Sogar wenn dieselbe RCT unabhängig zweimal analysiert wird, ergeben sich häufig beträchtliche Diskrepanzen, wie systematische Untersuchungen gezeigt haben [5].
Trotz dieser systemimmanenten Einschränkungen sind RCTs im Sinne der „best attainable version of the truth“ [6] vorerst weiterhin als „Goldstandard“ zur Beurteilung von Nutzen und Risiken von Arzneimitteln (und Medizinprodukten) anzusehen. Dies trifft insbesondere auf Bewertungen mit dem Ziel der Marktzulassung zu (Phase-III-Studien). DBS sind hier nicht als adäquater Ersatz anzusehen. Einen hohen Stellenwert haben DBS hingegen bei der Beurteilung bereits zugelassener und vermarkteter Arzneimittel (Phase-IV-Studien, Postmarketingstudien, „Real-World-Evidence“). RCTs werden in dieser Phase aufgrund fehlender Anreize für (Industrie-)Sponsoren häufig nicht durch- bzw. zu Ende geführt. Dies betrifft z.B. direkte Vergleiche zweier Arzneimittel, Studien zur Kombination zweier Arzneimittel unterschiedlicher Hersteller, Studien bei demographischen oder sozialen Randgruppen (sehr alte, sehr junge, sozioökonomisch Benachteiligte, diverse Patientengruppen etc.) sowie das Aufspüren sehr seltener UAW. Sorgfältige DBS können hier wertvolle zusätzliche Erkenntnisse zu RCTs bringen.