zur Navigation zum Inhalt
© everythingpossible / fotolia.com
 
Forschung 29. Dezember 2015

Vom Wert und Unwert des p-Werts

Die Statistik spielt bei medizinischen Studien eine große Rolle. Ein Verständnis über die Begrifflichkeiten ist aber nicht nur für Forscher unabdingbar, auch die Leser dieser Ergebnisse sollten die Aussagen verstehen können.

„Die meisten publizierten Forschungsergebnisse sind falsch.“ Mit provokanten Thesen wie dieser hat sich in den vergangenen Jahren der Epidemiologe John Ioannidis immer wieder zu Wort gemeldet. Seine Argumente sind bedenkenswert – und auch seine Vorschläge, wie die Situation zu verbessern wäre.

Anfang dieses Jahres erschien ein Umbrella-Review, eine Art Metaanalyse von Metaanalysen, zu einem viel beforschten Thema: dem Zusammenhang zwischen Diabetes und Krebsrisiko beziehungsweise dem Risiko, an Krebs zu sterben (Tsilidis KK et al. BMJ. 2015; 350: g7607). 27 Metaanalysen von 474 Studien zu 20 verschiedenen Krebsentitäten gingen in die Auswertung ein.

Fast alle (93 %) ergaben ein signifikant höheres Risiko für Diabetiker als für Nichtdiabetiker. Aber nur sieben Analysen hatten sich mit mehr als 1.000 Fällen befasst, hochsignifikante Resultate zutage gefördert und keine Anzeichen für eine Überschätzung der Signifikanz gezeigt. Nur sechs Studien waren ausreichend homogen gewesen. Die Extrapolation auf künftige Beobachtungen schloss einen Nulleffekt nur bei vier Studien aus. Von den 20 untersuchten Krebsarten blieben am Ende vier, die hinreichend aussagekräftig mit Diabetes vergesellschaftet waren: Brustkrebs, intrahepatisches Gallengangskarzinom, Kolorektal- und Endometriumkrebs.

„Obwohl Typ-2-Diabetes in Studien ausgiebig mit Bezug auf Krebsrisiko und -sterblichkeit untersucht worden ist, und obwohl für die meisten untersuchten Assoziationen starke Signifikanzbehauptungen aufgestellt worden sind, gibt es nur für eine Minderheit dieser Beziehungen belastbare Belege“, resümieren die Umbrella-Autoren ihre Erkenntnisse. Dieses Fazit erstaunt wenig, liest man den Namen des Seniorautors: Prof. Dr. John Ioannidis von der Stanford University.

Viel Aufwand, relativ wenig Ertrag, so lautet schon seit Langem dessen Credo zu den Resultaten medizinischer Forschung. Dabei geht es ihm nicht nur darum, dass Studien schlampig ausgeführt oder fehlerhaft ausgewertet würden. Vielmehr gilt sein Anliegen prinzipiellen Problemen, selbst mit handwerklich soliden Untersuchungen zu verlässlichen Aussagen zu gelangen.

Ioannidis, 1965 in New York geboren und in Athen aufgewachsen, ist vermutlich am treffendsten als Metawissenschaftler zu bezeichnen. Nicht von ungefähr bekleidet er den Posten eines Direktors am Meta-Research Innovation Center der kalifornischen Stanford-Universität. Furore macht er seit über zehn Jahren – sein Essay „Why Most Published Research Findings Are False“ zählt zu den meistgelesenen in der medizinischen Fachliteratur (Ioannidis JP. PLoS Med. 2005; 2: e124)

Die Frage, die sich Ioannidis vorlegt, ist simpel: Wie wahrscheinlich ist es, dass das Ergebnis einer Studie der Realität entspricht, also naiv gesprochen wahr ist? Im Fachjargon ist das die Frage nach dem positiven Vorhersagewert eines Resultates, nach der Post-Test-Wahrscheinlichkeit seiner Korrektheit. Dieser Vorhersagewert drückt weit mehr aus als der p-Wert der Signifikanz. Dieser gibt letztlich die Wahrscheinlichkeit eines Resultats unter der Voraussetzung an, dass die Nullhypothese – die eigentlich verworfen werden soll – wahr ist. „Der p-Wert ist keineswegs der geeignetste Repräsentant von Forschungsarbeit, und er fasst sie auch nicht am besten zusammen“, schreibt Ioannidis in seinem Essay. „Aber unglücklicherweise ist die Vorstellung, medizinische Forschung auf der Basis von p-Werten zu interpretieren, weit verbreitet.“

Signifikanz versus Relevanz

Als Ausweis der Signifikanz gilt meist ein p-Wert kleiner 0,05, oft interpretiert als 5 %-ige Irrtumswahrscheinlichkeit. Aber Signifikanz ist nicht mit Relevanz gleichzusetzen. Ioannidis glaubt, dies mit mathematischer Strenge beweisen zu können. Es mag sein, dass seine Berechnungen und Folgerungen nicht im strengen Sinn als Beweis anzusehen sind. Doch seine Argumentation ist schlüssig.

Wichtig für die Relevanz ist zum einen die Prä-Test-Wahrscheinlichkeit einer untersuchten Hypothese. Sie hängt ab vom Verhältnis der richtigen zu den falschen Annahmen über ein Forschungsgebiet und lässt sich zumindest grob anhand früherer Forschungen schätzen, falls es solche gibt. Zum anderen spielt die Teststärke (Sensitivität) einer Methode eine Rolle. Das ist die Fähigkeit, tatsächlich wahre Annahmen auch als solche zu erkennen. Nur wenn die Zahl der auf diese Weise zu erzielenden richtig positiven Ergebnisse jene der falsch positiven Resultate übersteigt, ist ein Forschungsresultat mit höherer Wahrscheinlichkeit wahr als falsch und der positive Vorhersagewert höher als 50 Prozent.

Beispiele für Studientypen

Hinzu kommen Verzerrungen (Bias), die in Studienergebnisse einfließen und zu Publikationen führen, die besser unterblieben wären. Ein Beispiel dafür ist das selektive Auswerten von Daten. Alle diese Faktoren fasst Ioannidis in Formeln zusammen, um anschließend für bestimmte Studientypen die positiven Vorhersagewerte zu berechnen. Einige Beispiele:

• randomisierte und kontrollierte Studie: geringes Bias, Teststärke 80 %, Prä-Test-Wahrscheinlichkeit für das Zutreffen des gefundenen Zusammenhangs von 50 % – positiver Vorhersagewert eines signifikanten Ergebnisses: 85 %

• Metaanalyse kleiner, nicht schlüssiger Studien: mäßiges Bias, Teststärke 80 %, Prä-Test-Wahrscheinlichkeit 33 % – positiver Vorhersagewert: 41 %

• randomisiert-kontrollierte Studie der Phase I/II: geringes Bias, Teststärke 20 %, Prä-Test-Wahrscheinlichkeit 20 % – positiver Vorhersagewert: 23 %

• explorierende epidemiologische Studie: mäßiges Bias, Teststärke 80 %, Prä-Test-Wahrscheinlichkeit 10 % – positiver Vorhersagewert: 20 %

• explorierende Forschung mit massiver Testung: geringes Bias, Teststärke 20 %, Prä-Test-Wahrscheinlichkeit 0,1 % – positiver Vorhersagewert: 0,15 %.

Das letztgenannte Beispiel ist durchaus nicht an den Haaren, eher an den Genen herbeigezogen. Es spiegelt Verhältnisse wie in der Molekularbiologie wider, wo beispielsweise 10.000 Gene untersucht werden, von denen zehn relevant sind; dies ergibt eine Prä-Test-Wahrscheinlichkeit von 0,1 %.

50-Prozent-Hürde ist schwer zu nehmen

Im klinischen Studienalltag, dies verdeutlichen solche Betrachtungen, ist es schwer, die Post-Test-Wahrscheinlichkeit für die Wahrheit eines gefundenen Resultats über die Schwelle von 50 Prozent zu heben. Insofern wären tatsächlich die meisten publizierten Forschungsergebnisse falsch.

Gegen Ioannidis Methoden wurden zwar manche Einwände erhoben, darunter von Prof. Dr. Steven Goodman von der Johns Hopkins School of Medicine in Baltimore, MA/USA und Prof. Dr. Sander Greenland von der University of California in Los Angeles, CA/USA (Goodman S, Greenland S. PLoS Med. 2007; 4: e168). Ein Punkt dabei ist die gewisse Willkür, die in der Taxierung der Prä-Test-Wahrscheinlichkeit liegt. Sie birgt die Gefahr, bereits vorauszusetzen, was erst noch zu beweisen wäre. Doch seinen Folgerungen stimmten auch die Kritiker weitgehend zu.

Untermauert hat Ioannidis seine Einsichten mit einer Analyse einiger der meistzitierten und einflussreichsten Studien der jüngeren Medizingeschichte (Ioannidis JP. JAMA. 2005; 294: 218–28). Er konnte zeigen, dass die Resultate von 16 Prozent der untersuchten Studien später widerlegt wurden – darunter Schwergewichte wie die Nurses‘ Health Study zur Prävention der koronaren Herzkrankheit (KHK) durch Hormonersatz in der Postmenopause oder die Health Professionals Follow-Up Study über die KHK-Reduktion mit Vitamin E.

Bei 16 Prozent wurden schwächere Effekte gefunden als die berichteten, 24 Prozent der Studien wurden nicht überprüft, die übrigen 44 Prozent ließen sich bestätigen.

Quantität nicht vor Qualität

„Gegenwärtig sind viele Befunde der Forschung unzutreffend oder übertrieben, und schätzungsweise 85 Prozent der Ressourcen für die Forschung werden verschwendet“, schreibt Ioannidis in einem jüngst erschienen Artikel und fasst damit die Lage zusammen (Ioannidis JP. PLoS Med 2014; 11: e1001747). Im Anschluss formuliert er einige Vorschläge, wie sie zu verbessern sei. Zusammenarbeit von Forschern, eine Kultur des Reproduzierens von Ergebnissen, verbesserte wissenschaftliche Ausbildung und stringente Schwellen für Erfolgsmeldungen gehören dazu, aber auch das Begrenzen des Einflusses von Sponsoren und Autoren mit Interessenkonflikten. Zudem regt Ioannidis an, das Belohnungssystem der Wissenschaft zu ändern und nicht länger Quantität über Qualität zu stellen.

Bis all dies umgesetzt sein wird, wenn je, dürfte es einige Zeit dauern. Bis dahin sollte sich der Leser klinischer Studien in Skepsis üben und im p-Wert nicht das Siegel der Wahrheit erblicken. Helfen würde es, wenn die Autoren grundsätzlich die Konfidenzintervalle für ihre Befunde benennen. Zudem sollten sie für die entdeckten Zusammenhänge eine Effektstärke angeben, also sagen, ob die festgestellte Wirkung als klein, mittel oder groß einzustufen ist. Das würde es ermöglichen, neben der Signifikanz auch die praktische Relevanz eines Resultats zuverlässiger zu deuten.

Glossar

Bias:Systematischer Fehler, der die Ergebnisse einer Studie verzerrt. Das Selektionsbias ist ein Beispiel, bei dem Personen mit bestimmten Merkmalen mit höherer Wahrscheinlichkeit für eine Studienteilnahme ausgewählt werden.

Effektstärke: ist eine statistische Maßzahl zur Kennzeichnung der Größe eines festgestellten Effekts. Je nach Berechnungsmethode stehen unterschiedliche numerische Werte für einen kleinen, mittleren oder großen Effekt, wie z. B. der Mittelwertunterschiede zwischen zwei Gruppen.

Konfidenzintervall: Bereich, in den bei ständiger Wiederholung von Zufallsexperimenten der tatsächliche Wert eines Parameters mit einer bestimmten Häufigkeit fällt bzw. fallen würde. Ein oft verwendeter Bereich ist das 95 %-Konfidenzintervall. Die Intervalle erlauben eine Aussage über die Genauigkeit der Schätzung.

Nullhypothese: Annahme über die Wahrscheinlichkeitsverteilung einer Zufallsgröße. In Studien steht die Nullhypothese oft für die Annahme, dass es keinen Unterschied zwischen den untersuchten Gruppen gibt. Diese Annahme soll widerlegt und die Alternativhypothese gestützt werden, wonach eine Differenz existiert.

Positiver Vorhersagewert (PPV): Post-Test-Wahrscheinlichkeit oder Wahrscheinlichkeit a posteriori dafür, dass ein gefundenes Resultat der Realität entspricht. Der PPV eines Tests auf eine Krankheit gibt z. B. an, wie wahrscheinlich eine Person, bei der dieser Test positiv ausgefallen ist, tatsächlich an der Krankheit leidet. Rechnerisch entspricht der PPV dem Quotienten aus der Anzahl der richtig positiven und der Zahl aller (richtig und falsch) positiven Ergebnisse.

Prä-Test-Wahrscheinlichkeit:Wahrscheinlichkeit a priori. Schätzung der Wahrscheinlichkeit für den Nachweis eines Zusammenhangs vor Durchführung einer Studie oder eines Experiments, etwa auf der Grundlage bereits vorliegender Daten. Bei Ioannidis entspricht die Prä-Test-Wahrscheinlichkeit für die Wahrheit einer Hypothese dem Quotienten aus den zutreffenden zu allen (zutreffenden und nicht zutreffenden) Hypothesen über ein Forschungsgebiet.

p-Wert: Maß für die Wahrscheinlichkeit, das beobachtete Ergebnis zu erreichen, falls die Nullhypothese zutrifft.

Signifikanz: Das Erreichen von p-Werten unterhalb einer definierten Schwelle. Oft wird diese Schwelle bei 5 % verortet: Signifikant ist ein Ergebnis demnach, wenn die Wahrscheinlichkeit dafür, eine zutreffende Nullhypothese irrtümlich zu verwerfen, unter 5 % liegt.

 

Der gleichnamige Originalartikel ist erschienen in „hautnah dermatologie“ 9/2015, DOI 10.1007/s15012-015-1929-2, © Urban & Vogel

Robert Bublak, Ärzte Woche 47/2015

Zu diesem Thema wurden noch keine Kommentare abgegeben.

Mehr zum Thema

<< Seite 1 >>

Medizin heute

Aktuelle Printausgaben