Randomisierung und Verblindung

Bildquelle: Hans Braxmeier – Pixabay

Der Artikel gibt eine kurze Einführung in das Thema „Randomisierung in klinischen Studien“. Er erklärt die wichtigsten Begriffe und sehr kurz einige der gängigen Randomisierungsverfahren. Diese unterscheiden sich in ihrer Eignung für z. B. große oder kleine Studien und in dem Maß, in dem sie die Vorhersagbarkeit der jeweils nächsten Randomisierungsentscheidung begrenzen und andererseits eine gute Balance in der Besetzung der Studienarme gewährleisten.

Inhaltsverzeichnis

1 Randomisierung
2 Verblindung
3 Zwei grundlegende Vorgehensweisen
4 Einfache Randomisierungsverfahren
5 Blockrandomisierung
6 Stratifizierte Randomisierung
7 Minimierungsmethode
8 Unzureichende Verblindung und allmähliche automatische Entblindung

In prospektiven^{[B 1]} klinischen Vergleichsstudien sind Verblindung und Randomisierung zwei Seiten derselben Medaille: Ohne einander ergeben sie bei diesen Studienarten keinen Sinn, weshalb in der üblichen englischen Bezeichnung Randomised Controlled Trial (RCT) die Verblindung gar nicht separat genannt wird. In retrospektiven^{[B 2]} Studien spielen Randomisierung und Verblindung keine Rolle. Andere Studiendesigns, die offen oder nicht verblindbar sein können, werden hier nicht betrachtet.

Randomisierung

Randomisierung (von engl. random: zufällig) bedeutet, dass die Studienteilnehmer zufällig, also mit gleicher Wahrscheinlichkeit einer der Gruppen zugeteilt werden. Das ist wichtig, damit sich evtl. prognostische Faktoren (siehe unten) und unbekannte Störfaktoren gleichmäßig auf die Gruppen verteilen, um den Einfluss (engl. bias: Neigung, Verzerrung) auf die späteren Ergebnisse zu minimieren. Störfaktoren zum Beispiel in Medikamentenstudien können Lebensalter, Vorerkrankungen, Unverträglichkeiten u. a. sein.^{[B 3]} Eine korrekte Randomisierung ist eine notwendige, aber für sich allein noch keine hinreichende Voraussetzung für die Validität^{[B 4]} aller späteren statistischen Auswertungen, sofern hinterher geprüft wird, ob sich auch wirklich eine ausgeglichene Verteilung ergeben hat. Dazu gehört, dass die Zuweisung durch ein technisches Verfahren (z. B. Münzwurf) durchgeführt und nicht etwa von Empathie, Mitleid oder dem Interesse des Studienpersonals an „guten“ Ergebnissen beeinflusst wird.^{[B 5]} Bevorzugt wird die Randomisierung mit Computerhilfe, um die Auditierbarkeit (nachträgliche Überprüfbarkeit) und die korrekte Anwendung des gewählten Verfahrens zu gewährleisten.

Balanciertheit ist zunächst die Eigenschaft, dass allen Studienarmen gleichviele Probanden zugewiesen werden. Bei stratifizierenden Verfahren (siehe unten) gilt dies auch für weitere Merkmale, z. B. das Geschlecht, die ebenfalls gleichverteilt werden sollen. Das Balanceverhalten eines Verfahrens bezeichnet, wie gut es dieses Ziel bei der Endauswertung und evtl. Zwischenauswertungen gewährleistet. So gibt es sogenannte adaptive Verfahren, die bei drohenden Schieflagen die Wahrscheinlichkeit anpassen, mit der ein neuer Kandidat einer der Gruppen zugewiesen wird. So versucht man, die Unwucht allmählich auszugleichen, ohne die Unvorhersehbarkeit der nächsten Entscheidung ganz aufzugeben. Dies ist besonders bei kleinen Studien von Bedeutung, weil dort kleine Ungleichgewichte stärker auf die Ergebnisse durchschlagen.

Verblindung

Der deutsche Begriff Verblindung bezeichnet genaugenommen zwei verschiedene Anforderungen:^[1] Zum einen das Application Sequence Concealment, also die Geheimhaltung der einzelnen Randomisierungsentscheidungen vor Beginn der Behandlung, was mit jedem Verfahren gewährleistet werden kann, und zum anderen das Blinding nach Beginn der Behandlung.

Dieser zweite Teil der Verblindung soll dafür sorgen, dass möglichst niemand weiß, welcher Proband in welcher Gruppe (etwa Verum oder Placebo) ist, wiederum um Bias etwa durch Placebo-Effekte und Nocebo-Effekte zu vermeiden, der eintreten kann, wenn Patienten wissen, in welcher Gruppe sie sind. Als Minimum muss man also den Probanden und den Therapeuten (weil sich anderenfalls ihr Verhalten gegenüber den Patienten ändern kann) dieses Wissen vorenthalten. Dies wird „doppelt verblindet“ genannt. Ideal ist, wenn auch die Studienleitung, das Hilfspersonal und die Statistiker/Auswerter nicht Bescheid wissen. Diese Verblindung ist nicht in allen Fällen bis Studienende durchzuhalten.

Zwei grundlegende Vorgehensweisen

Grundsätzlich besteht (außer bei adaptiven Verfahren) die Wahl, mit Randomisierungslisten oder mit Adhoc-Entscheidungen zu arbeiten. Ersterenfalls werden alle Zuweisungsentscheidungen vorab getroffen (im einfachsten Fall durch realen oder digitalen Münzwurf) und in eine Liste geschrieben. Die Probanden werden dann der Reihe nach den vorher festgelegten Studienarmen zugewiesen, wobei die Liste und die einzelnen Entscheidungen natürlich geheim bleiben müssen. Randomisierungslisten können zu Studienbeginn ohne Computerhilfe angelegt werden, erleichtern die Vorabkontrolle der korrekten Anwendung des gewählten Verfahrens und erlauben die Vorhersage der Balance zu jedem Zeitpunkt. Eine Randomisierung mit Computerhilfe gewährleistet die Auditierbarkeit ebenso, erlaubt aber auch komplexe adaptive Verfahren.

Bei der Auswahl des Randomisierungsverfahrens muss man unter anderem abwägen zwischen Vorhersagbarkeit (unerwünscht) und Balance (erwünscht). Die nachfolgenden Ausführungen unterstellen, dass die Probanden nicht alle auf einmal in eine Studie aufgenommen werden, sondern – eher dem medizinischen Forschungsalltag entsprechend – der Reihe nach mit gewissen zeitlichen Abständen.

Einfache Randomisierungsverfahren

Eine Randomisierung mit zufälliger Zuteilung des ersten Probanden und anschließend abwechselnder Zuteilung erreicht zwar jederzeit eine gute Gleichverteilung, ist aber leicht vorhersehbar. Ein Münzwurf bei jedem neuen Probanden (genannt vollständige Randomisierung) ist sicherer, garantiert aber gerade bei kleinen Probandenzahlen oft keine gute Balance: Denn bei z. B. 10 Probanden kommt man nur über ein 5:4 zu einem 5:5, nach 5:4 ist aber ein 5:5 genauso wahrscheinlich wie ein 6:4. Wenn im Studiendesign Zwischenauswertungen vorgesehen sind, etwa um absehbaren Misserfolg der Studie frühzeitig zu erkennen, ist sogar jederzeit ein gutes Balanceverhalten wichtig, nicht nur am Studienende.
Ein mögliches Verfahren, das wie oben geschildert bei sich abzeichnenden Ungleichgewichten zwischen den Gruppen in die Zuteilungswahrscheinlichkeit eingreift, heißt Biased Coin Randomisation – „biased“, weil sich die Wahrscheinlichkeit des Münzwurfs der aktuell schwächeren Gruppe zuneigt. Beispielsweise würde man bei zwei Gruppen wie beim Münzwurf mit einer 50:50-Wahrscheinlichkeit starten. Wenn sich dann im Verlauf zufällig trotzdem ein Missverhältnis der Gruppengrößen einstellt, könnte man die Wahrscheinlichkeit z. B. auf 60:40 zugunsten der kleineren Gruppe ändern, um die Gruppengröße allmählich auszugleichen, ohne den jeweils nächsten Wurf allzu vorhersehbar zu machen. Natürlich müssen auch diese Adhoc-Anpassungen der Münzwurfwahrscheinlichkeiten im Sinne des „Allocation Sequence Concealment“ im Verborgenen stattfinden, das Studienpersonal darf davon nichts wissen. Die Biased Coin Randomisation ist ein Beispiel für „adaptive“ Verfahren, die im Interesse der Balance adhoc auf den bisherigen Verlauf der Zuweisungen reagieren können.

Blockrandomisierung

Eine Blockrandomisierung fasst neue Probanden in „Blöcke“ von z. B. vier Personen zusammen, die in sich balanciert werden, um sie gleichmäßig auf die (in diesem Fall zwei) Studienarme zu verteilen. Die ersten beiden Zuweisungen in einem Viererblock erfolgen auf jeden Fall durch Münzwurf (im Computer durch eine Zufallszahl), während die Zuweisungs-Wahrscheinlichkeiten der dritten Entscheidung vom Ergebnis der beiden vorherigen abhängen. Die letzte Entscheidung steht dann immer schon vorher fest. Die Blockgröße muss ein Vielfaches der Anzahl der Studienarme sein. Bei kleinen Blockgrößen erreicht man jederzeit eine gute Balance, erkauft sich diese aber durch die Vorhersehbarkeit der letzten ein bis zwei Zuteilungen pro Gruppe. Wenn als Beispiel die beiden Gruppen A und B heißen und in einem Viererblock schon zwei Probanden der Gruppe A zugewiesen wurden, weiß die für die Randomisierung zuständige Person, dass nun zweimal B folgen muss. Dieses Problem lässt sich durch variable Blockgrößen mildern, wobei diese bei jedem neuen Block zufällig gewählt wird. Dies hat einen kleinen negativen Einfluss auf die Balance.

Falls eine Randomisierungsliste angelegt werden soll, wählt man die Variante permutierte Blockrandomisierung. Bei beispielsweise zwei Studienarmen und Blockgröße 4 gibt es sechs Möglichkeiten, in denen die Entscheidungen A und B auftreten können: AABB, ABAB, ABBA usw. Diese sechs Permutationen schreibt man in Zufallsreihenfolge hintereinander in die Liste und kann auf diese Weise 24 Probanden verteilen. Das Problem der Vorhersagbarkeit mindestens jeder vierten Entscheidung ist hierbei dasselbe.

Bei multizentrischen Studien, an denen also mehrere Kliniken teilnehmen, tritt bei zentral durchgeführter Blockrandomisierung das Problem der Vorhersagbarkeit kaum auf, denn die örtlichen Studienleiter wissen ja nicht, in welcher zeitlichen Reihenfolge die Probanden an den verschiedenen Orten in die Studie aufgenommen wurden. Dafür können in jeder einzelnen Klinik sehr ungleiche Verteilungen auftreten, was ein neues Biasrisiko bewirkt, denn die Häuser können sich hinsichtlich Ausstattung, Qualifikation des Personals usw. voneinander unterscheiden. Bei lokal durchgeführter Blockrandomisierung tritt das entgegengesetzte Problem ein: Die lokale Balance wird verbessert, die Gesamtbalance durch mehr unvollständige Blöcke jedoch beeinträchtigt, insbesondere falls „stratifiziert“ wird.

Stratifizierte Randomisierung

Eine stratifizierte Randomisierung erlaubt es, bestimmte Merkmale der Probanden nicht rein zufällig, sondern gezielt gleichmäßig auf die Studienarme zu verteilen – wenn man also in jeder Gruppe nicht nur gleichviele Probanden, sondern jeweils zum Beispiel gleichviele Männer und Frauen haben will. In diesem Beispiel wäre das Geschlecht ein Stratifizierungskriterium. Man sagt dann, die Randomisierung sei „nach Geschlecht stratifiziert“, und es gibt zwei „Strata“: Männer und Frauen. Wenn für eine bestimmte Studie auch andere Faktoren stratifiziert werden sollen, kann man zusätzliche Kriterien definieren; etwa die Altersgruppe, bestimmte Vorerkrankungen usw. Die Anzahl der Strata ist dann das Produkt der jeweiligen Anzahl der Ausprägungen je Kriterium (Männer < 45, Frauen < 45, Männer > 45 usw.). Dabei wird die Zahl der Strata sehr schnell sehr groß. Diese sollte also in einem praktikablen Verhältnis zur gesamten Anzahl der Probanden stehen.

Stratifizierungskriterien wählt man, um sicherzustellen, dass alle Studienarme nicht nur zufällig, sondern absichtsvoll möglichst repräsentativ für die Grundgesamtheit sind, z. B. hinsichtlich der Altersverteilung, oder weil es Patientenmerkmale gibt (so genannte prognostische Faktoren), die den Behandlungserfolg beeinflussen und die man deshalb unbedingt gleichverteilen muss (etwa bestimmte Vorerkrankungen oder eine genetische Disposition).

Stratifizierung kann mit verschiedenen Randomisierungsverfahren kombiniert werden. Eine stratifizierte Blockrandomisierung wird so durchgeführt, dass es für jedes Stratum einen Block von z. B. vier Probanden (bei zwei Studienarmen) gibt, um die Gleichverteilung aller auftretenden Merkmale zu erreichen. Man erkennt, dass dies bei vielen Strata und wenigen Probanden scheitern kann, wenn viele Blöcke angefangen, aber nicht vollständig besetzt werden. Je öfter dies passiert, desto zufälliger wird die Balance, die man doch eigentlich kontrollieren wollte.

Problematisch ist in der Praxis auch die Stratifikation des Behandlungsortes (des Zentrums). Theoretisch kann man anstreben, in jeder Klinik gleichviele Probanden zu behandeln und jeweils auch gleichviele Männer bzw. Frauen und vielleicht auch jeweils gleichviele Raucher und Nichtraucher usw. In der Praxis liegen die Kliniken aber oft geographisch weit auseinander, so dass der Behandlungsort nicht variabel steuerbar ist. Wie zuvor geschildert, ist dann entweder die lokale oder die Gesamtbalance nicht gewährleistet, und das damit verbundene Biasrisiko kann nicht ausgeschlossen werden.

Minimierungsmethode

Verschiedene weiterentwickelte Methoden versuchen, die möglichst jederzeitige Balanciertheit zu verbessern, ohne im Gegenzug die Vorhersagbarkeit zu erhöhen, darunter die Minimierungsmethode. Das sind Verfahren, die zutreffender „Mangelminimierung“ heißen sollten. Sie arbeiten nicht mit Strata, sondern ermitteln vor jeder Randomisierungsentscheidung, welche Merkmalsausprägungen in welcher Gruppe in welchem Grad unterrepräsentiert sind und berechnen daraus einen aktuellen Mangel an Balance (Gesamtfehler). Dann wird jede aktuell mögliche Randomisierungsentscheidung daraufhin geprüft, wie sehr sie den Gesamtfehler senkt und daraus eine Wahrscheinlichkeit ermittelt, mit der diese Entscheidung tatsächlich getroffen werden sollte. Die Summe dieser Einzelwahrscheinlichkeiten ist natürlich 1. Varianten dieser Methode unterscheiden sich in Berechnungsdetails. Insbesondere bei größeren Studienpopulationen, mehr als zwei Gruppen und mehreren prognostischen Faktoren erzielen diese Verfahren gute Ergebnisse hinsichtlich Vorhersehbarkeit und Balance.

Unzureichende Verblindung und allmähliche automatische Entblindung

Das Problem der Vorhersehbarkeit der jeweils nächsten Randomisierungsentscheidung besteht bei allen Verfahren natürlich vor allem bei unzureichender Verblindung, d. h. wenn etwa ein an der eigentlichen Therapie zwar nicht beteiligter Studienleiter im Sinne des Erfolgs seiner Studie ein Interesse an der Zuweisung bestimmter Probanden (wegen ihrer Merkmalsausprägungen) an bestimmte Studienarme hat. Wenn er die jeweils letzten Zuweisungen kennt oder erraten kann, kann er hier gestaltend eingreifen, was aber natürlich als wissenschaftliches Fehlverhalten zu werten ist und bei Entlarvung zur Retraction der Studie (das Journal zieht die Veröffentlichung zurück) und zu erheblichem Reputationsverlust führen könnte.

Nahezu unlösbar ist ein Problem, das man „allmähliche automatische Entblindung“ nennen könnte. Hat man etwa einen Medikamententest mit Placebovergleich und ist darauf angewiesen, dass sich im Laufe der Zeit genügend Patienten mit der gesuchten Indikation melden, und wenn das Medikament besonders gut oder besonders schädlich ist, weiß man natürlich nach einiger Zeit, wer in welcher Gruppe ist, was unerwünscht, aber unvermeidlich ist.

^[2] ^[3]

Verwendete Quellen

↑ Abschnitt „Bias arising from the randomization process“ auf Trainingsseiten der Cochrane Collaboration (Link, aufgerufen am 20.05.2021)
↑ Friedrich Pahlke, lnke R. König, Andreas Ziegler: „Randomization In Treatment Arms (RITA): Ein Randomisierungs-Programm für klinische Studien“, Informatik, Biometrie und Epidemiologie in Medizin und Biologie 35/1 (2004), 1-22 (PDF, aufgerufen am 07.04.2021)
↑ Zelen, M.: „The randomization and stratification of patients to clinical trials“, J. Chronic. Dis. 1974 Vol. 27, 365- 75. (PDF, aufgerufen am 07.04.2021)

Anmerkungen

↑ In prospektiven Studien müssen die Daten, die man zur Prüfung einer Hypothese benötigt, erst noch erhoben werden.
↑ In retrospektiven Studien wertet man Daten aus früheren Studien, Experimenten oder sonstiger Literatur aus.
↑ Beispiele für die Entwertung von Studienergebnissen durch unzureichende Berücksichtigung von Störfaktoren in Randomisierung und Datenauswertung geben die Studien von Jennifer Jacobs über Homöopathie gegen Durchfallerkrankungen bei Kindern (hier eine Kritik in der Homöopedia).
↑ Die Validität ist ein Qualitätskriterium für Mess- und Testverfahren, hier also für eine klinische Studie. Sie ist valide, wenn die Stichprobe (die Probanden) hinreichend repräsentativ für die Grundgesamtheit (z. B. die Bevölkerung eines Landes oder alle Patienten mit derselben Symptomatik) ist, wenn das Messverfahren (hier das Studiendesign) zum Test der zur prüfenden Hypothese geeignet ist, und wenn die aus den erhobenen Daten gezogenen Schlussfolgerungen gültig und hinreichend robust sind.
↑ Beispiele für unzureichende, interessengeleitete oder schlecht verblindete Randomisierungen liefert der Artikel „Randomisation Methods“ von Martin Bland, University of York (Link, aufgerufen am 07.04.2021)

[6] Abschnitt „Bias arising from the randomization process“ auf Trainingsseiten der Cochrane Collaboration (Link, aufgerufen am 20.05.2021)

[7] Friedrich Pahlke, lnke R. König, Andreas Ziegler: „Randomization In Treatment Arms (RITA): Ein Randomisierungs-Programm für klinische Studien“, Informatik, Biometrie und Epidemiologie in Medizin und Biologie 35/1 (2004), 1-22 (PDF, aufgerufen am 07.04.2021)

[8] Zelen, M.: „The randomization and stratification of patients to clinical trials“, J. Chronic. Dis. 1974 Vol. 27, 365- 75. (PDF, aufgerufen am 07.04.2021)

[1] In prospektiven Studien müssen die Daten, die man zur Prüfung einer Hypothese benötigt, erst noch erhoben werden.

[2] In retrospektiven Studien wertet man Daten aus früheren Studien, Experimenten oder sonstiger Literatur aus.

[3] Beispiele für die Entwertung von Studienergebnissen durch unzureichende Berücksichtigung von Störfaktoren in Randomisierung und Datenauswertung geben die Studien von Jennifer Jacobs über Homöopathie gegen Durchfallerkrankungen bei Kindern (hier eine Kritik in der Homöopedia).

[4] Die Validität ist ein Qualitätskriterium für Mess- und Testverfahren, hier also für eine klinische Studie. Sie ist valide, wenn die Stichprobe (die Probanden) hinreichend repräsentativ für die Grundgesamtheit (z. B. die Bevölkerung eines Landes oder alle Patienten mit derselben Symptomatik) ist, wenn das Messverfahren (hier das Studiendesign) zum Test der zur prüfenden Hypothese geeignet ist, und wenn die aus den erhobenen Daten gezogenen Schlussfolgerungen gültig und hinreichend robust sind.

[5] Beispiele für unzureichende, interessengeleitete oder schlecht verblindete Randomisierungen liefert der Artikel „Randomisation Methods“ von Martin Bland, University of York (Link, aufgerufen am 07.04.2021)

[B 1]

[B 2]

[B 3]

[B 4]

[B 5]

[1]

[2]

[3]