News Corner

„Es ist also nicht alles Gold, was signifikant glänzt“

Interview von Dr. Steffen Jakobs

Medizinische und klinische Studien werden häufig ausschließlich daran gemessen, ob ihre Ergebnisse statistisch signifikant sind. Manche Medizinstatistiker sprechen in diesem Zusammenhang sogar von der „Tyrannei der p-Werte“ [1]. Welche Fallstricke die einseitige Betrachtung statistischer Signifikanztests mit sich bringt und welche alternativen Maßzahlen es zur statistischen Signifikanz zu berücksichtigen gilt, erklärt Marcus Heise, Diplom-Soziologe und wissenschaftlicher Mitarbeiter am Institut für Allgemeinmedizin der MLU-Halle.

1. Herr Heise, können Sie kurz erklären, was man unter dem Begriff der statistischen Signifikanz versteht?

Ein Zusammenhang, der statistisch signifikant ist, wird auch als „überzufälliger Zusammenhang“ bezeichnet. Was damit gemeint ist, lässt sich anhand eines Gedankenexperimentes illustrieren: In einer Zufallsstichprobe, die aus einer Urne mit gleich vielen roten und grünen Bällen gezogen wird, würde man entsprechend gleich viele Bälle der beiden Farben erwarten. Zufallsbedingt kann aber auch eine ganz andere Verteilung zustande kommen – beispielsweise eine Stichprobe, die ausschließlich grüne Bälle beinhaltet. Der Grundgedanke statistischer Signifikanztests ist, dass solche extremen Abweichungen (von der Grundgesamtheit) umso unwahrscheinlicher werden, je größer die gezogene Stichprobe ist. Dieses Prinzip lässt sich auf klinische Studien übertragen. Statistisch signifikant ist ein Effekt (z.B. ein Mittelwertunterschied zwischen Versuchs- und Kontrollgruppe) dann, wenn er nicht durch Zufallsschwankungen erklärt werden kann. In diesem Sinne kann man statistische Signifikanz mit „Überzufälligkeit“ übersetzen.

Marcus Heise ist auf die Analyse von Studiendaten spezialisiert.

2. Können Sie anhand eines Beispiels erläutern, warum nicht jeder statistisch signifikante Zusammenhang auch gleichzeitig klinisch relevant ist?

Statistische Signifikanz wird gelegentlich fehlgedeutet als „Stärke“, „Relevanz“ oder „Evidenz“ eines Zusammenhangs. Auch wenn ein starker Zusammenhang eher zur Verwerfung der Nullhypothese führt als ein schwacher Zusammenhang, können auch andere Faktoren das Ergebnis eines Signifikanztest beeinflussen. Zum Beispiel erweist sich ein Zusammenhang in einer homogenen Stichprobe eher als signifikant als in einer Stichprobe, die hinsichtlich des primären Endpunktes eine hohe Streuung aufweist. 

Der ausschlaggebende Faktor der einen Signifikanztest beeinflusst, ist die Stichprobengröße. Exemplarisch lässt sich dies anhand einer Meta-Analyse von Schürks et al. (2010) [2] verdeutlichen. Darin wurden neun Studien analysiert, die den Zusammenhang zwischen einer Vitamin E-Supplementierung und dem Risiko für das Auftreten eines Schlaganfalls untersuchten. Ein wesentliches Ergebnis war, dass die Wahrscheinlichkeit eines ischämischen Schlaganfalls statistisch signifikant durch Vitamin E reduziert wird (p=0.02). Daraus kann man aber nicht zwangsläufig eine praktische (oder klinische) Bedeutsamkeit ableiten, da Signifikanztests in sehr großen Stichproben (Probanden in der Meta-Analyse: 118.000) kaum etwas über die Stärke eines Zusammenhanges aussagen. Betrachtet man zusätzlich die entsprechenden relativen Häufigkeiten, wird deutlich, dass sich das Risiko für einen ischämischen Schlaganfall durch Vitamin E um lediglich zwei Prozentpunkte verringert hat (von 21,5% auf 19,4%). Eine große klinische Bedeutung ist der Vitamin E-Supplementierung trotz statistischer Signifikanz schwerlich beizumessen.

 

 

„Solche Beispiele zeigen, dass Signifikanztests durch die Stichprobengröße beeinflusst werden und nicht immer Rückschlüsse auf die klinische Relevanz erlauben.“

 3. Welche statistischen Kennzahlen sollte man sich bei der Beurteilung von Ergebnissen klinischer Studien zusätzlich zur statistischen Signifikanz anschauen?

Grundsätzlich gilt, dass statistische Signifikanz eine notwendige, aber keine hinreichende Bedingung ist, um einen Effekt als bedeutsam einzustufen. Signifikanztests sind ausschließlich auf eine spezifische Frage gerichtet: Kann man den Effekt, den man in der Stichprobe identifiziert hat, in der Grundgesamtheit als von Null verschieden annehmen? Diese Frage ist zwar für die Forschung wichtig, weil sich daraus mitunter die Notwendigkeit ergibt, eine zunächst zu kleine Studie mit einem größeren Stichprobenumfang zu wiederholen – zum Beispiel bei einer Pilot-Studie mit nicht statistisch signifikanten Ergebnissen. Für den klinischen Kontext oder die praktische Anwendung sind jedoch andere Maßzahlen ausschlaggebend. In klinischen Studien werden häufig relative Risiken (siehe Infobox) angegeben, um die Stärke eines Zusammenhanges abzubilden. In der erwähnten Meta-Analyse reduzierte sich das relative Risiko (RR) für einen ischämischen Schlaganfall auf 90% in der Interventionsgruppe (Supplementierung mit Vitamin E) im Vergleich zur Kontrollgruppe (keine Supplementierung mit Vitamin E).
Allerdings sind relative Risiken meist wenig eingängig. Ob eine Reduktion des Risikos auf 90% praktisch relevant ist, lässt sich anhand dieser alleinigen Maßzahl schwer beantworten. Anschaulicher sind dagegen absolute Wahrscheinlichkeiten, die sich leichter interpretieren lassen. In der Meta-Analyse führte die Vitamin E-Supplementierung zu einer Senkung des Schlaganfallrisikos von 21,5% (Placebogruppe) auf 19,4% (Interventionsgruppe). Dieses Ergebnis lässt sich nun viel einfacher hinsichtlich seiner klinischen Relevanz bewerten, weil es den tatsächlichen Nutzen der Intervention beziffert.
Informativ sind ebenfalls sogenannte PRE-Maßzahlen (Proportional Reduction of Error) wie Eta². Diese geben an, wie groß der Anteil der Varianz in der abhängigen Variablen (im Beispiel: Auftreten eines Schlaganfalls) durch einen Prädiktor (im Beispiel: Vitamin-E-Gabe) erklärt werden kann. Mit PRE-Maßzahlen kann man also beurteilen, wie relevant ein Prädiktor bei der Beeinflussung eines Outcomes im Vergleich zu anderen Faktoren (im Beispiel: z.B. Rauchen oder Alter) oder Confoundern ist. Ab einem Anteil erklärter Varianz (siehe Infobox) von 14 % spricht man von einem großen oder starken Zusammenhang.

4. Herr Heise, welche Take-Home-Message können Sie allen, die die Ergebnisse von klinischen Studien beurteilen müssen, mit auf den Weg geben?

Nicht nur auf die Ergebnisse der statistischen Signifikanz zu schauen, sondern auch alternative Maßzahlen wie relative Risiken, absolute Wahrscheinlichkeiten und PRE-Maßzahlen in die Beurteilung einzubeziehen.

Statistische Maßzahlen

p-Wert:

Empirische Irrtumswahrscheinlichkeit, die die Wahrscheinlichkeit für einen Fehler 1. Art angibt (wie hoch ist also die Irrtumswahrscheinlichkeit, die Nullhypothese eines Nicht Zusammenhanges zu Unrecht zurückzuweisen?). In vielen klinischen Studien wird ein kritischer Testwert von 0.05 (alpha) verwendet.

Relatives Risiko (RR):

Das Verhältnis aus Ereignis zur Gesamtstichprobe (etwa: Anteil an Patienten mit Schlaganfall) bezeichnet man als „Risiko“. Das relative Risiko gibt an, um welchen Faktor sich dieses Risiko zwischen zwei Populationen voneinander unterscheidet. Zum Beispiel bedeutet ein relatives Risiko von 1,5, dass sich das Risiko in einer Gruppe für ein bestimmtes Ereignis (zum Beispiel: Risiko einen Schlaganfall zu erleiden) um den Faktor 1,5 unterscheidet.

Erklärte Varianz:

Eine Maßzahl, die angibt, wie gut die unabhängigen Variablen (im Beispiel: Vitamin E-Supplementierung) dazu geeignet sind, die Varianz der abhängigen Variablen (im Beispiel: Auftreten eines Schlaganfalls) zu erklären. Die erklärte Varianz gibt an, wie bedeutsam ein Prädiktor in Bezug zu anderen (einschließlich nicht gemessenen) Confoundern ist.

Literatur:

[1] Barnett, M.L., Mathisen, A.(1997). Tyranny of the p-value: the conflict between statistical significance and common sense. J Dent Res, Vol. 76, 534.

[2] Schürks, M., Glynn, R. J., Rist, P. M., Tzourio, C., & Kurth, T. (2010). Effects of vitamin E on stroke subtypes: meta-analysis of randomised controlled trials. BMJ (Clinical research ed.), Vol. 341, c5702. doi:10.1136/bmj.c5702.