zur Navigation zum Inhalt
 
Wissenschaft & Lehre 30. Oktober 2007

Der heilige Gral „p < 0,05“

Eine Studie zu planen, ist alles andere als eine leichte Aufgabe. Bei der Jahrestagung 2007 der Österreichischen Gesellschaft für Pneumologie (ÖGP) widmeten sich drei Experten dem Thema „Evidenz und Relevanz klinischer Studien“. Der p-Wert von 0,05 sollte nicht zu apodiktisch gesehen werden, da er stark von der Stichprobengröße abhängt, so der Konsens. Ein besserer Parameter ist die Number Needed to Treat (NNT).

Gleich zu Beginn seines Vortrags zitiert Dr. Ralf Zwick, I. Interne Lungenabteilung des SMZ-West, Wien, seine – nach eigener Aus-sage – Lieblingsstudie von Gordon Smith aus dem BMJ (2003; 327:1459-1461). Smith stellt fest, dass die Effektivität von Fallschirmen in der Prävention von Verletzungen und Tod noch in keiner randomisierten, kontrollierten Studie untersucht wurde, und zieht den Schluss: „Die Befürworter der Evidenzbasierten Medizin kritisierten wiederholt die Anwendung von Eingriffen, deren Evaluation nur auf Beobachtungen beruht. Unserer Meinung nach würden alle profitieren, wenn die radikalsten Verfechter der Evidenzbasierten Medizin eine doppelblinde, randomisierte, placebokontrollierte Studie zum Fallschirm organisierten und an ihr teilnähmen.“
Dennoch wird niemand den Sinn guter Studien anzweifeln. Aber was können sie aussagen? Zunächst wurde die Evidenz zu einem wichtigen Kriterium und zum Beispiel von der Weltgesundheitsorganisation (WHO), aber auch von anderen Organisationen eingeführt. Es gibt verschiedene Evidenzgrade, von großen Studien mit umfangreichen Analysen bis hin zum Konsensuspapier mit dem niedrigsten Evidenzgrad reicht die Palette. Ein hoher Evidenzgrad besagt, dass die Resultate keine Zufallsergebnisse sind.

Aussagekraft des p-Werts

Der p-Wert von 0,05 sollte dabei aber nicht zu apodiktisch gesehen werden. „p = 0,05 heißt nichts anderes, als dass es eine Irrtumswahrscheinlichkeit von fünf Prozent gibt“, erklärt Prim. Prof. Dr. Josef Riedler, Krankenhaus Schwarzach, Salzburg. Oder anders ausgedrückt: von 20 Messungen ist eine dem Zufall überlassen. Die Grenze von 0,05 ist eine künstliche. Tatsächlich ist der Unterschied zwischen p = 0,045 und p = 0,055 nicht wirklich groß. Und der p-Wert hängt stark von der Stichprobengröße ab. „Wenn zwei pharmazeutische Produkte verglichen werden, sind die Stichproben oft riesig. Denn dann können schon sehr kleine Unterschiede statistisch signifikant werden. Ob sie auch klinisch relevant sind, ist nicht gesagt“, so Riedler.

Zielführendere Parameter

Zwick nennt als besseren Parameter die NNT (number needed to treat). Das ist der Kehrwert der absoluten Risikoreduktion, oder anders gesagt: die Zahl der Patienten, die behandelt werden müssen, um bei einem von ihnen einen Benefit zu erreichen. Ein Beispiel: Eine Intervention erreicht eine relative Risikoreduktion von 50 Prozent und ist (vielleicht aufgrund der großen Teilnehmerzahl) statistisch signifikant (p < 0.05). Tatsächlich sinkt das Risiko aber in dem Beispiel von 0,2 Prozent auf 0,1 Prozent. Die absolute Reduktion beträgt 0,1 Prozent, der Kehrwert, der NNT, ist 1.000. Es müssen also 1.000 Patienten behandelt werden, um bei einem von ihnen einen Benefit zu erreichen. Zwick: „Das ist etwas, was ein vernünftiger Mensch nicht machen würde. Nur das schreibt keiner in seine Studie hinein.“
Statt auf den p-Wert sollte daher auf die Konfidenzintervalle, statt auf den Mittelwert auf den Median geachtet werden. Letzterer wird von „Ausreißern“ wenig bis gar nicht beeinflusst.
Ein anderer klinisch relevanter Wert ist der MID (Minimal Important Difference, auch MIC: Minimal Important Change oder MCID: Minimal Clinically Important Difference). Riedler: „Der ist aber meist schon subjektiv. Denn schon bei der Berechnung der Stichprobengröße muss ich klarstellen, welcher Wert bzw. welche Änderung eines Wertes mir wichtig ist.“ Und es braucht daher auch einen erfahrenen Arzt, der diesen Wert festlegen kann.
Klinisch relevant ist auch der MMPI (Minimal Patient Perceivable Improvement), also die geringste Veränderung, die der Patient spürt. Aber der ist nicht immer erfassbar, etwa wenn die Patienten Kinder sind, naturgemäß subjektiv, und zudem sind die Veränderungen nicht immer sofort spürbar.

Livia Rohrmoser, Ärzte Woche 44/2007

Zu diesem Thema wurden noch keine Kommentare abgegeben.

Medizin heute

Aktuelle Printausgaben