Randomisierte kontrollierte Studie
Die randomisierte kontrollierte Studie (RCT, von englisch randomized controlled trial) ist in der medizinischen Forschung das nachgewiesen beste Studiendesign, um bei einer eindeutigen Fragestellung eine eindeutige Aussage zu erhalten und die Kausalität zu belegen. Deshalb wird auch vom „Goldstandard“ der Studienplanung bzw. des Forschungsdesigns gesprochen. Daneben werden RCTs unter anderem auch in der psychologischen und ökonomischen Forschung eingesetzt.
Die Evidenzbasierte Medizin betont die Wichtigkeit von RCTs als beste Grundlage zum empirischen Nachweis der Wirksamkeit medizinischer Behandlungen, um patientenorientierte Entscheidungen zu treffen.
RCTs sind eine Art von Experiment („eine methodisch angelegte Untersuchung zur empirischen Gewinnung von Information (Daten)“).
Begriffsklärungen
Randomisierung
Randomisierung bedeutet, dass die Zuordnung zu einer Behandlungsgruppe (etwa Medikament A oder B) nach dem Zufallsprinzip erfolgt. Zweck der Randomisierung ist
- die Einflussnahme des Untersuchers (Befangenheit) auf die Zuordnung einer Behandlung und dadurch auf die Studienergebnisse auszuschließen und
- die gleichmäßige Verteilung von bekannten und nicht bekannten Einflussfaktoren auf alle Gruppen sicherzustellen. Dazu muss die Anzahl der zu untersuchenden Personen ausreichend groß sein.
Form und Durchführung der Randomisierung müssen in der Studie angeführt werden.
In manchen Fällen muss aus ethischen Gründen (z. B. Unzumutbarkeit einer Placebo-Behandlung bei schwerer Erkrankung) auf eine Randomisierung verzichtet werden.[1]
Kontrollierte Studie
Kontrolliert heißt die Studie, weil die Ergebnisse in der Studiengruppe mit denen der Kontrollgruppe (der Gruppe mit einem Referenzwert) ohne Intervention oder einer Kontrollintervention verglichen werden. Die Kontrollintervention ist die bisher wirksamste Maßnahme, neben der Scheinintervention (bei Medikamenten: Placebo).
Werden als Kontrollgruppe die Daten von früheren Fällen herangezogen, z. B. die Kontrollgruppe einer früheren Studie, spricht man von einer historisch kontrollierten Studie.[2][3] Ihnen wird jedoch keine hohe Evidenz zugerechnet.[1]
Die Studiengruppe wird auch Prüf-, Interventions- oder Verumgruppe genannt (lateinisch Verum, „das Wahre“; im Gegensatz zum Placebo die echte Behandlungsform, z. B. das wirkstoffhaltige Medikament). Die Kontrollgruppe wird auch als Vergleichs- oder Placebogruppe (sofern Placebos eingesetzt werden) bezeichnet.
Eine Erweiterung stellt der sogenannte cross-over-Versuchsplan dar. Hier werden Interventions- und Kontrollgruppe zur Studienmitte gewechselt.
Beispiel
In einer armen indischen Region, in der bis dahin kaum geimpft worden war, baute der indische Staat ein Impfsystem auf. In jedem Dorf gab es eine Impfschwester. Gleichwohl brachten nur wenige Prozent der Eltern ihr Kind fünf Mal zum Impfen (erst nach der fünften Impfung war der Impfschutz komplett). Mit einer RCT untersuchten Forscher die Wirksamkeit von Maßnahmen gegen diese Impfmüdigkeit. Zugleich testeten sie damit die Hypothesen, warum die Armen ihre Babys nicht impfen ließen:
- Vielleicht verstanden sie den Nutzen nicht. Kinder, die gegen Masern geimpft sind, können weiterhin an Malaria erkranken oder Durchfall bekommen.
- Vielleicht hielten Eltern die Impfung für wirkungslos.
- Vielleicht war auch ein Aberglaube schuld: Kinder könnten sich den bösen Blick einfangen (deshalb werden Babys bis zum ersten Geburtstag kaum mit nach draußen genommen).
- Gegen solche Überzeugungen sei jedes Impfprogramm machtlos, glaubten viele Helfer.
Per Zufallsgenerator teilten die Forscher 134 Dörfer in drei Gruppen ein:
- In 74 Dörfern blieb alles beim Alten.
- In 30 Dörfern wurde einmal im Monat eine Krankenstation aufgebaut, in der eine Krankenschwester kostenlos die Kinder impfte.
- In den 30 übrigen Dörfern gab es nicht nur das monatliche Impfcamp, sondern die Eltern erhielten auch zwei Pfund Linsen, wenn sie ihr Kind zur Impfung brachten. Zum Abschluss der fünften Impfung schenkte man den Eltern außerdem zwei Teller.
Nach eineinhalb Jahren zogen die Forscher Bilanz: In den Dörfern mit Linsen und Tellern als Lockmittel hatten 38 Prozent aller Kinder fünf Impfungen bekommen. In den Dörfern mit regelmäßigen Impfterminen waren 17 Prozent aller Kinder durchgeimpft, in den 74 übrigen Dörfern waren es nur 6 Prozent.
Damit war bewiesen: Der Aberglaube (so er denn bei Eltern bestand) war offensichtlich nicht stark genug, der Verlockung von ein paar Pfund Linsen zu widerstehen.[4]
RCTs können also
- untersuchen, wie effizient Maßnahmen sind bzw.
- die Effizienz mehrerer alternativer Maßnahmen vergleichen.
Beispiel: eine Institution steht vor der Wahl, mit Geld entweder Grundnahrungsmittel zu subventionieren (eine Maßnahme, von der alle Käufer profitieren) oder Schwangeren, jungen Müttern und Kindern kostenlos Lebensmittel und Vitamine zu geben. RCTs zeigen, dass letzteres die deutlich effizientere Maßnahme ist: der Nutzen pro ausgegebenem Euro ist deutlich höher.[5]
Entwicklung
Seit Jahrhunderten wurden klinische Studien mit Vergleichsgruppen durchgeführt. So veröffentlichte James Lind schon 1753 in Großbritannien die Ergebnisse seines Versuchs, Skorbut mit Orangen und Zitronen zu behandeln. Im deutschsprachigen Bereich kommt dem in Wien tätigen, ungarischen Arzt Ignaz Semmelweis (1818–1865) die Erstautorenschaft für die Einführung der „systematischen klinischen Beobachtung“ in die medizinische Forschung zu (1848). Aber erst am Ende des 19. Jahrhunderts wurde man sich der Verzerrungen (Bias) bewusst, die eine nicht-zufällige Zuordnung zu den Therapiegruppen mit sich bringen konnte. Anfang des 20. Jahrhunderts wurden daher alternate assignement trials populär, bei denen die Patienten abwechselnd den Therapiearmen zugeordnet wurden.
Die randomisierte klinische Studie wurde dann in den 1940er Jahren durch Austin Bradford Hill, einem Pionier der medizinischen Statistik und Epidemiologie, als Begriff etabliert und standardisiert, der dabei die Unterstützung des britischen Medical Research Councils besaß. So war er auch der Statistiker im Medical Research Council Streptomycin in Tuberculosis Trials Committee. Dessen Studie zur Behandlung der Tuberkulose mit Streptomycin wird allgemein als die erste randomisierte klinische Studie angesehen.[6]
Anfangs waren die ethischen Bedenken gegen solche Studien erheblich, da der Kontrollgruppe die neue vielversprechende Therapie vorenthalten wurde. Erst durch den Contergan-Skandal kam es zu einem Umdenken und die Amerikaner waren die ersten, die im Kefauver-Harris Drug Amendment 1962 nun für die Zulassung neuer Arzneimittel verlangten, dass deren Wirksamkeit in „adäquaten und gut kontrollierten Untersuchungen“ (adequate and well-controlled investigations) nachgewiesen sein musste. 1970 wurde dann noch einmal explizit klargestellt, dass damit randomisierte klinische Studien gemeint sind. Alle anderen westlichen Länder folgten der Food and Drug Administration und erließen ähnliche Verordnungen. Hierdurch trat die randomisierte klinische Studie ihren Siegeszug an.
In der Folgezeit wurde die pharmazeutische Industrie der Hauptsponsor der randomisierten klinischen Studien, noch vor staatlichen Förderprogrammen und Universitäten, und in den 1980er Jahren galten sie als der Goldstandard der medizinischen Wissenschaft. Bei der hierarchischen Strukturierung der Studienarten im Rahmen der Evidenzbasierten Medizin finden sich randomisierte klinische Studien an der Spitze der Wertordnung.
Auch in der Chirurgie wurden früh randomisierte klinische Studien durchgeführt, und bereits 1959 erschien die erste Studie mit einem Kontrollarm, bei dem eine Scheinoperation (sham surgery) eingesetzt wurde, um eine Doppelverblindung zu gewährleisten. Dabei zeigte sich eine wesentlich höhere Mortalität bei Patienten mit Angina Pectoris, bei denen die damals geschätzte Ligatur der Arteria mammaria interna durchgeführt wurde, als in der Kontrollgruppe. Hierdurch rettete diese Studie viele Herz-Patienten vor einer unsinnigen und gefährlichen Operation, die kurz darauf völlig von der Tagesordnung verschwand.[7]
Allerdings wurde immer wieder vor einer „sklavischen Studiengläubigkeit“ gewarnt und vielfach setzen sich Ergebnisse nur durch, wenn dies auch physiologisch nachvollziehbar ist. Trotzdem finden sich auch viele randomisierte klinische Studien, deren Ergebnisse keinen oder erst sehr späten Einfluss auf die angewandte Medizin erlangt haben. Auch wurden wenige Studien massiv gefälscht, und manchmal kommen Ergebnisse erst, wenn die Studientherapie schon überholt und durch andere innovativere Verfahren abgelöst ist.
Zudem limitiert die Forderung nach multizentrischen randomisierten klinischen Studien heute die wissenschaftliche Fortentwicklung. Studien bedürfen eines massiven bürokratischen und institutionellen Aufwands, und eine Phase-III-Zulassungsstudie kostet zu Beginn des 21. Jahrhunderts im Mittel 30 Millionen Dollar. Entsprechend präsentieren randomisierte klinische Studien disproportional die westliche Medizin und die pharmazeutische Forschung, während andere Verfahren mangels Sponsoren oftmals nicht in randomisierten klinischen Studien untersucht werden.
Mit Unternehmen, die im Auftrag klinische Studien durchführen (contract research organizations, CRO), ist inzwischen ein Wirtschaftszweig mit 25 Milliarden Dollar Jahresumsatz entstanden. So haben randomisierte klinischen Studien wenig Public-Health-Wirkungen, aber ein hohes Marketingpotenzial für neue Medikamente in einkommensstarken Ländern.[8]
Nachteile
Wenngleich die randomisierte kontrollierte Studie (RCT) der Gold-Standard in der Entwicklung und Einführung neuer Medikamente ist, trifft das nicht auf allen anderen medizinischen Gebieten uneingeschränkt zu, und es gibt einige Nachteile und Grenzen der RCTs, die aber mit anderen Studiendesigns ausgeglichen werden können:[9]
- Hohe Kosten und lange Studiendauer: Durch die voranschreitende Regulierung ist die Durchführung eines RCT zu einem zeitintensiven und kostspieligen Unternehmen geworden. Von der Planung und Genehmigung über die Durchführung bis zur Analyse vergehen viele Jahre, was Innovationen hemmen kann. Durch neue Entwicklungen kann es dazu kommen, dass die Ergebnisse eines RCT zum Zeitpunkt der Studienanalyse schon durch andere Innovationen überholt sind.
- Kein Notfallinstrument: Bei einer neu auftretenden Epidemie müssen schnelle Public-Health-Maßnahmen bei manchmal wenig bekannten Erregern getroffen werden, so dass nicht vorab eine RCT durchgeführt werden kann. Auch beispielsweise die jährliche Zusammensetzung des Grippeimpfstoffes kann nicht vorab im RCT überprüft werden. Deren Wirkung kann nur in prospektiv erhobenen Daten ermittelt werden und dann die Zusammensetzung ggf. für die Folgesaison angepasst werden.
- Keine individuellen Effekte messbar: Hängen Therapieergebnisse in hohem Maße von individuellen Effekten ab, können RCTs hierdurch gestört werden und deren Ergebnisse sind fehleranfällig. Dies trifft z. B. auf Studien in der Chirurgie zu, bei denen ein wesentlicher Einflussfaktor die chirurgische Technik und Leistung ist.
- Seltene Krankheiten: Bei seltenen Krankheiten fehlen oft die notwendigen Patientenzahlen, die für eine RCT notwendig wären.
- Problem der externen Validität: Durch die Ausschluss- und Einschluss-Kriterien werden im RCT oft stark selektionierte Patienten untersucht, und eine Übertragung auf andere Populationen ist manchmal nicht möglich. Um etwa ausreichend „Endpunkte“ zu erhalten und die Studiengröße zu beschränken, bietet es sich in RCTs an, sie auf Hochrisikopatienten zu beschränken, dann ist aber die Übertragbarkeit auf Patienten mit mittlerem oder niedrigem Risiko fraglich.
- Surrogatparameter werden manchmal eingesetzt, um ebenfalls Kosten und Dauer der Studie zu reduzieren, korrelieren aber nicht immer mit dem eigentlichen Studienziel. So wurden in der Therapie der Osteoporose bis zur Einführung der Aminobisphosphonate und dem zur Zulassung von Alendronat führenden „FIT-Trial“ oft Knochendichteveränderungen als Surrogat genommen, die bei einigen Medikamenten, besonders bei Fluor eine signifikante Erhöhung brachten, aber das Knochenbruchrisiko nicht reduzierten und heute nicht mehr eingesetzt werden.
- Problem der kurzen Studiendauer: Die Dauer einer RCT ist beschränkt, aber bei den oft chronisch einzunehmenden Medikamenten bleibt offen, ob der Effekt später, nach Jahren nachlässt, oder sich andere unerwünschte Nebenwirkungen über die Zeit akkumulieren. Besonders bei Impfstoffen besteht oft nach Jahren ein Nachlassen der Wirksamkeit (waning), weshalb bei vielen Impfungen Auffrischungen notwendig sind, was sich aber nicht im RCT erfassen lässt.
- bevölkerungsweite Analysen können oft auch nicht im RCT kontrolliert werden. So gilt es aufgrund großer Beobachtungsstudien als gesichert, dass eine erhöhte Natrium-Zufuhr mit einem erhöhten Risiko für Bluthochdruck und Folgekrankheiten einhergeht, es gibt auch RCTs, die zeigen, dass eine Natriumreduktion den Blutdruck senkt. Aber bevölkerungsweite Public-Health-Maßnahmen lassen sich kaum in RCTs studieren, da sie sehr lange laufen müssten, sehr viele Patienten einschließen müssten und es zahlreiche Möglichkeiten einer Verzerrung (Bias) gäbe.
Vergleich zu Beobachtungsstudien
Eine Studie ohne Randomisierung gilt als „Beobachtungsstudie“, da nicht in die Wahl der Behandlung eingegriffen wird. Dazu zählen neben einfachen klinischen Fallserien auch Fall-Kontroll-Studien und Kohortenstudien. Durch die nicht vorhandene Randomisierung kann es zu zahlreichen unbewussten Verfälschungen (englisch biases) kommen, die die Ergebnisse verzerren können. Allerdings konnte die Cochrane Collaboration, die sich mit der Methodologie von klinischen Studien beschäftigt und die Evidenzbasierte Medizin mitentwickelt hat, in einer groß angelegten Übersichtsstudie 2014 zeigen[10], dass gut angelegte Beobachtungsstudien im Vergleich zu randomisierten kontrollierten Studien in der Regel gut abschneiden und keinen signifikanten Unterschied aufweisen. Dabei wurden vierzehn methodologische systematische Übersichtsarbeiten (Reviews) eingeschlossen, die die Ergebnisse von randomisierten kontrollierten Studien mit denen von Beobachtungsstudien mit derselben Fragestellung verglichen: in elf Fällen bestand kein signifikanter statistischer Unterschied, und das gepoolte und gewichtete Chancenverhältnis betrug über alle Studien 1,04 mit einem 95-%-Konfidenzintervall von 0,89–1,21. Dieses deutet aber bereits auf die hohe Heterogenität und Inkonsistenz zwischen den verglichenen Studien hin, die sich auch im Heterogenitätsschätzer zeigt, der bei I2 = 68 % sehr hoch ist. Vor allem aber unterscheiden sich die Ergebnisse signifikant in drei Reviews, die damit genau die Probleme in der Bewertung von Beobachtungsstudien aufzeigten. Trotzdem sollten aber bei der Bewertung von Studien die besonderen Umstände jeder einzelnen Studie genau beachtet werden, statt sich ausschließlich an Pauschalurteilen zu Studientypen zu orientieren.
Literatur
- David Moher, Kenneth F. Schulz, Douglas G. Altman; für die CONSORT Gruppe: Überarbeitete Empfehlungen zur Qualitätsverbesserung von Reports randomisierter Studien im Parallel-Design. In: Deutsche Medizinische Wochenschrift. Jg. 129, 2004, S. T16–T20.
- Stefan N. Willich: Randomisierte kontrollierte Studien: Pragmatische Ansätze erforderlich. In: Deutsches Ärzteblatt. Jg. 103, Nr. 39, Deutscher Ärzte-Verlag Köln, 29. September 2006, S. A-2524 / B-2185 / C-2107.
- Jürgen Windeler, Gerd Antes, Johann Behrens, Norbert Donner-Banzhoff, Monika Lelgemann: Randomisierte kontrollierte Studien: Kritische Evaluation ist ein Wesensmerkmal ärztlichen Handelns. In: Deutsches Ärzteblatt. Jg. 105, Nr. 11, Deutscher Ärzte-Verlag, Köln, 14. März 2008, S. A-565.
Einzelnachweise
- ↑ a b Deutscher Ärzteverlag GmbH, Redaktion Deutsches Ärzteblatt: Seltene Erkrankungen: Randomisierte kontrollierte Studien auch hier der Goldstandard. 20. Februar 2015, abgerufen am 4. Februar 2019.
- ↑ Evidence-based Public Health. Abgerufen am 4. Februar 2019.
- ↑ klinische Prüfungendesigns. 23. November 2015, abgerufen am 4. Februar 2019 (deutsch).
- ↑ Abhijit Vinayak Banerjee, Esther Duflo, Rachel Glennerster, Dhruva Kothari: Improving immunisation coverage in rural India: clustered randomised controlled evaluation of immunisation campaigns with and without incentives. In: British Medical Journal. Band 340, 2010, S. c2220 (bmj.com).
- ↑ Max Rauner: Was wirklich hilft. – Zwei Wirtschaftswissenschaftler mischen die Entwicklungspolitik auf. Sie vergleichen verschiedene Strategien in einem Experiment – und finden Verblüffendes heraus. In: Zeit online. 1. September 2011, aus: Die Zeit. Nr. 36/2011.
- ↑ Medical Research Council Streptomycin in Tuberculosis Trials Committee: Streptomycin treatment of pulmonary tuberculosis. In: British Medical Journal. Band 2, 1948, S. 769–783.
- ↑ L. A. Cobb, G. I. Thomas, D. H. Dillard, K. A. Merendino, R. A. Bruxe: An Evaluation of internal-mammary-artery ligation by a double-blind technic. In: New England Journal of Medicine. Band 260, 1959, S. 1115–1118.
- ↑ Laura E. Rothwell, Jeremy A. Greene, Scott H. Podolsky, David S. Jones: Assessing the Gold Standard - lessons from the history of RCTs. In: New England Journal of Medicine. Band 374, Ausgabe 22, 2. Juni 2016, S. 2175–2181. doi:10.1056/NEJMms1604593.
- ↑ Thomas R. Frieden: Evidence for Health Decision Making — Beyond Randomized, Controlled Trials. New England Journal of Medicine 2017, Band 377, Ausgabe 5 vom 3. August 2017, Seiten 465–475, [DOI: 10.1056/NEJMra1614394].
- ↑ A. Anglemyer, H. T. Horvath, L. Bero: Healthcare outcomes assessed with observational study designs compared with those assessed in randomized trials. In: The Cochrane database of systematic reviews. Nummer 4, April 2014, S. MR000034, Modul:Vorlage:Handle * library URIutil invalid, PMID 24782322 (freier Volltext) (Review)