(Kraft-)Sport Studien verstehen lernen | Was ist ein P-Value?

(Kraft-)Sport Studien verstehen lernen | Was ist ein P-Value?
(Zuletzt aktualisiert am: 2. Juni 2018 )

Von Anoop Balachandran | Benötigte Lesezeit: 8 Minuten |


Der P-Value („P-Wert“) ist einer der wichtigsten Werte in der wissenschaftlichen Forschung, jedoch ein recht schwierig zu verstehendes Konzept, sofern du nicht gerade ein paar Kurse in Statistik belegt hast.

In diesem Artikel werde ich eine selbsterklärende Herangehensweise – am Beispiel des Gewichtsverlustes – verwenden, um den P-Value zu erläutern.

Natürlich habe ich dabei die Details und technischen Begrifflichkeiten außenvorgelassen, damit wir uns auf das große Ganze konzentrieren können.

Hinweis: Dieser Artikel ist Teil einer Reihe, die sich mit Statistik für (Kraft-)Sportler beschäftigt. Sinn und Zweck besteht darin Interessierten das notwendige Rüstzeug an die Hand zu geben, damit diese Experimente und Studien eigenständig interpretieren und verstehen können.

Bisher sind folgende Teile erschienen:

(Kraft-)Sport Studien verstehen lernen | Was ist ein P-Value?

Was steckt wirklich hinter dem P-Value?

Der P-Value oder “probability value” (Wahrscheinlichkeitswert) ist zweifelsohne einer der wichtigsten Parameter in der Wissenschaft. Ob du es glaubst oder nicht: Die Zulassung von Medikamenten bzw. Behandlungsmöglichkeiten im Wert von Millionen (oder Milliarden) Dollar, die tausenden das Leben gerettet haben und immer noch retten, kommt letztendlich immer auf diesen kleinen Wert zurück. Man findet ihn für gewöhnlich im Abstract oder dem Ergebnissteil einer jeden Studie (oftmals angegeben als (p< 0,05)).

Das untere Bild zeigt die Ergebnisse einer berühmten Studie von Doll und Hill aus dem Jahre 1956 (1). Die Studie zeigte, dass Rauchen tatsächlich Lungenkrebs verursacht und konnte damit Millionen von Menschen das Leben retten. 

(Kraft-)Sport Studien verstehen lernen | Was ist ein P-Value?

Der P-Value (auch als Signifikanzniveau bekannt) ist eine wichtige statistische Größe, die aus der Welt der Forschung und Wissenschaft nicht wegzudenken ist. (Bildquelle: Doll & Hill, 1956)

Wofür brauchen wir den P-Wert?

Jetzt weist du, wie wichtig der P-Value tatsächlich ist, aber wofür brauchen wir ihn wirklich?

Lass‘ uns eine fiktive Beispielstudie nehmen, bei der die Forscher das Durchschnittsgewicht der Bewohner des Planeten Mars herausfinden wollen. Lass uns weiterhin annehmen, die gesamte Bevölkerung dieses Planeten besteht aus 10 Personen und das Durchschnittsgewicht der Bevölkerung sei 70 kg.

Man wählt zufällig 3 Personen aus.

  1. Der Forscher erhält einen Durchschnitt von 61 kg. Er behauptet, dass das Durchschnittsgewicht der Marsbewohner 61 kg sei.
  2. Um die erste Studie zu bestätigen, nimmt er weitere 3 Personen aus den 10 und erhält ein nun Durchschnittsgewicht von 63 kg.
  3. Er nimmt nochmal 3 zufällig ausgewählte Personen, die jetzt im Schnitt 68 kg schwer sind. Der Forscher ist nun sehr verunsichert. Warum erhält er so unterschiedliche Zahlen? Ist die Wissenschaft verrückt geworden?

Stichprobenfehler

Diese unterschiedlichen oder schwankenden Zahlen kommen durch die Auswahl verschiedener Stichproben zustande und wird deshalb „sample error“ (Stichprobenfehler) genannt. Error heißt auf Latein „Fehler“. Die Frage ist also, wie wir mit Sicherheit sagen können, dass die Ergebnisse einer Studie – aufgrund unserer Intervention und nicht aufgrund eines Stichprobenfehlers – zustande kamen?

Oder mit anderen Worten: Wie können wir sicher sein, dass es kein Zufall ist?

Und genau da kommt der P-Value ins Spiel. Wir wollen wissen, ob unsere Ergebnisse wirklich aussagekräftig sind und nicht zufällig oder aufgrund eines Stichprobenfehlers zu Stande kamen. Im Grunde genommen ist der P-Value eine Methode, um das Problem der Stichprobenfehler anzugehen, wenn wir den Versuch unternehmen, um etwas über eine Population sagen zu können. Wenn du also mal was vom P-Value hörst, dann denke an den Stichprobenfehler.

Und wie funktioniert nun dieser P-Value?

Und hier kommt die Millionen Dollar Frage: Aber wie um alles in der Welt weiß der P-Value, ob unsere Ergebnisse aufgrund eines Stichprobenfehlers zu Stande gekommen sind?

Lass‘ uns ein persönliches Gewichtsverlustbeispiel wählen:

Denke dir, dass du versuchst Gewicht zu verlieren. Eines Morgens steigst du auf die Waage und sie sagt dir, dass du 0,5 kg (1 lb.) verloren hast … und du machst so weiter wie bisher! Ein paar Wochen später steigst du wieder auf die Waage und sie sagt dir diesmal, dass du ein weiteres Kilogramm (2 lb.) verloren hast … und du machst wieder weiter. Noch ein paar Wochen später steigst du erneut auf die Waage und jetzt hast du sogar satte 2 kg verloren! Wow… jetzt bist du so begeistert, dass du deinen Freunden erzählst, dass deine Diät funktioniert!

Die Frage ist nun, warum du über den Verlust dieser 2 kg (5 lb.) so begeistert bist, während dich die Abnahme der 0,5 – 1 kg überhaupt nicht tangiert hat. Warum? Die Antwort ist, dass du deinen eigenen P-Value verwendest hast, bei der du deine Ergebnisse unwillkürlich mit einer persönlichen Verteilungskurve vergleichst, die du im Kopf mit dir herumträgst. Also was ist diese persönliche Verteilungskurve?

Persönliche Verteilungskurve

Diese Kurve reflektiert die Wahrscheinlichkeit deiner persönlichen Gewichtsschwankungen. Es gibt drei Hauptpunkte dieser Kurve, die sehr wichtig sind und die du dir merken solltest:

  1. Keine Diät: Diese Kurve basiert auf deiner Gewichtsmessungen, wenn du gerade nicht auf Diät bist und nicht versuchst dein Gewicht zu verändern. Daher ist dies dein Ausgangsgewicht oder auch „Normalgewicht“. Diese Gewichtsveränderungen könnten aufgrund des Auslassens von Mahlzeiten, zu viel Nahrung, Wasserschwankungen, Messfehlern, Krankheit, zu viel Arbeit, usw. hervorgerufen werden.
  2. Hoher Wahrscheinlichkeitsbereich: Der Bereich mit hoher Wahrscheinlichkeit (dargestellt in grüner Farbe auf dem Bild unten) repräsentiert die Mitte der Kurve. In den meisten Fällen bewegt sich dein Gewicht innerhalb von ±1,5 kg (ca. 4 lbs). Diese Gewichtsschwankungen in diesem Bereich könnten nur Wasserschwankungen oder Messfehler sein – oder das Auslassen von Mahlzeiten, usw.
  3. Geringer Wahrscheinlichkeitsbereich: Der Bereich mit geringer Wahrscheinlichkeit (im unteren Bild mit rot dargestellt) repräsentiert die beiden Enden der Kurve. Wie du sehen kannst, schwankt dein Gewicht nur selten im Leben so stark. Das bedeutet, dass die Wahrscheinlichkeit gering ist, dass du 2 kg (ca. 5 lbs.) oder mehr zu- oder abnimmst. Das sind die Umstände, wenn du z.B. krank bist oder im Urlaub ein bisschen zunimmst etc.. 

(Kraft-)Sport Studien verstehen lernen | Was ist ein P-Value?

(Bildquelle: Anoop Balachandran)

Nun zurück zu unserer 2 kg Abnahme: Da der Gewichtsverlust von 2 kg (5 lb.) an das Ende der Kurve (oder den geringen Wahrscheinlichkeitsbereich) fällt, weißt du, dass die Wahrscheinlichkeit, dass die Ergebnisse Zufall sind (bedeutet Wasserschwankungen, Auslassen von Mahlzeiten, Krankheit) gering ist. Daher bist du davon überzeugt, dass die Ergebnisse durch deine Diät kommen – und daher bist du zurecht begeistert.

Läge der Verlust jedoch nur bei 1-1,5 kg, dann würde er in der Mitte der Kurve liegen bze. in dem Bereich der hohen Wahrscheinlichkeit. Und da der Punkt dort gelegen hätte, wäre die Wahrscheinlichkeit, dass er durch Fehler wie Wasserschwankungen, Messfehler, Auslassen von Mahlzeiten, usw. ausgelöst worden wäre, recht hoch.

Und das ist genau das Konzept wie der P-Value funktioniert. Der Wahrscheinlichkeitswert in diesem Beispiel ist ganz einfach der P-Value.

Und was ist mit Studien?

Warte mal… aber in Studien ist der P-Value die Wahrscheinlichkeit eines Messfehlers, richtig? Wie erhalten wir eine Kurve des Messfehlers?

Studien-Verteilungs-Kurve

Ja, in einer Studie haben wir, statt der persönlichen Verteilungskurve, eine Ergebnisverteilungskurve. Anders als die individuellen Gewichtsschwankungen, repräsentiert jeder Kreis ein Durchschnittsgewicht einer zufälligen Stichprobe. Und anstatt des Fehlers bei den Wasserschwankungen, Auslassen von Mahlzeiten, usw. haben wir Fehler bei der Stichprobenauswahl.

Erinnerst du dich an den Teil, wo wir über die Körpergewichtsverteilung der Personen auf dem Planeten Mars gesprochen haben?

Und jetzt rate mal. Genau, wie deine eigenen Kurven, so gibt es auch hier Bereiche mit hoher und niedriger Wahrscheinlichkeit. Die Enden der Kurve oder Bereiche geringer Wahrscheinlichkeit repräsentieren vielleicht 5%. Jedes Mal, wenn die Ergebnisse am Ende der Kurve liegen, wissen wir, dass die Wahrscheinlichkeit dafür 5% oder niedriger ist.

Wenn die Ergebnisse genau wie bei der persönlichen Verteilungskurve an eines der Enden oder die Bereiche geringer Wahrscheinlichkeit fallen, dann wissen wir, dass der P-Value weniger als 5% beträgt. Damit ist die Wahrscheinlichkeit, dass die Ergebnisse auf Zufall beruhen, in diesem Fall dem Stichprobenfehler, sehr gering. Daher sagen wir, dass der Gewichtsverlust aufgrund der Diät oder dem Medikament oder der Intervention herbeigeführt wird. Oder wir sagen, dass die Ergebnisse statistisch signifikant sind. Und das ist alles, was es über den P-Value zu wissen gibt.

Häufig gestellten Fragen

Du kannst diesen Teil überspringen, wenn du willst.

1. Wie erhalten wir die Verteilung der Stichprobe in einer Studie?

Gute Frage. Der offizielle Name dieser Kurve ist “Stichprobenverteilung”, da es die Stichprobenfehler repräsentiert. Wie du jetzt weist, gäbe es keine Möglichkeit den P-Value ohne diese Kurve herauszufinden.

Stelle dir die Studie zum Gewichtsverlust vor, über die wir geredet haben – wobei der Forscher drei von zehn Personen ausgewählt hat. Wenn man theoretisch hunderte Proben je 3 Personen nimmt, erhalten wir eine Kurve, die genauso aussieht, wie die Kurve der persönlichen Verteilung mit Bereichen hoher und niedriger Wahrscheinlichkeiten. Alles, was wir jetzt brauchen, ist der Abstand zwischen dem Mittelpunkt und den Endpunkten, richtig?

Um diesen Abstand zu bekommen, nutzen wir die einzigen beiden Informationen, die wir haben: Den Durchschnitt unserer Stichproben und die Zahl der Personen (auch Stichprobenumfang genannt). Setzt man diese in die Gleichung ein und verwendet bestimmte statistische Annahmen, erhalten wir den Abstand.

Der Haken hierbei ist, dass mit zunehmendem Stichprobenumfang, der Abstand zwischen dem Mittelpunkt und den Endpunkten kürzer wird. Daher wird es leichter für unsere Ergebnisse an eines der Enden zu fallen je größer der Stichprobenumfang wird. Daher hängt der P-Value vom Umfang unserer Ergebnisse UND dem Stichprobenumfang ab.

2. Okay. Warum hast du 5% als Grenze gewählt und nicht 10%? Und wie um alles in der Welt weißt du, ob der Endbereich bei 5% Wahrscheinlichkeit liegt?

Ich bin froh, dass du fragst. Die 5% sind eine willkürliche Grenze. Wir benutzen sie immer noch aus dem Zwang der Einheitlichkeit. In manchen Forschungsfeldern liegt sie aber bei 0,003 (0,3%).

Wenn wir körperliche Messwerte, wie Größe, Blutdruck, usw. von tausenden von Menschen aufzeichnen, wird die Kurve wie eine Glocke aussehen. Man nennt das auch Glockenkurve. Und ein paar sehr kluge Leute haben ausgerechnet, dass 95% der Werte in den mittleren Bereich fallen werden und 5% an die Enden. Daher wissen wir, dass die Endbereiche bei etwa 5% liegen. 

3. Die Definition des P-Values besagt: “Der P-Value ist die Wahrscheinlichkeit, dass die gemessenen Ergebnisse (oder extremere Ergebnisse) richtig sind, solange die Nullhypothese wahr ist”.

Was ist die Nullhypothese und warum brauchen wir sie?

Eine Nullhypothese bedeutet, dass wir annehmen, dass es keine Unterschiede zwischen unseren beiden Gruppen gibt (z.B. Interventionsgruppe und Placebogruppe). In Wahrheit führen wir eine Studie durch, weil wir denken, dass es einen Unterschied gibt und wollen zeigen, dass es ihn gibt. Zu behaupten, dass es vor der Studie keinen Unterschied gibt, ist also ein bisschen komisch.

Warum brauchen wir also diese komische Festlegung? Erinnere dich an den ersten, wichtigen Punkt bei unserem Gewichtsverlust-Bespiel: Meine persönliche Verteilung ist meine normale Gewichtsschwankung, wenn ich NICHT versuche Gewicht zu verlieren oder wenn ich NICHT auf Diät bin.

Würde die Kurve den Gewichtsverlust durch die Diät beinhalten, hättest du keine Ahnung mehr, ob die -2,5 kg aufgrund von Wasserschwankungen, Messfehlern oder der Diät verursacht wurden, richtig? Daher hängt der P-Value absolut von der Nullhypothese ab.

4. Ist der P-Value also die Wahrscheinlichkeit ein Ergebnis durch Zufall zu erhalten?

Strenggenommen: Nein.

Alles, was wir gemacht haben, war nur die 2,5 kg Abnahme zu nehmen und sie über unsere Kurve der persönlichen Verteilung zu legen. Das Ergebnis könnte dennoch purer Zufall sein.

Ein gutes Beispiel wäre das Gewinnen im Lotto: Auch wenn das Gewinnen im Lotto sehr unwahrscheinlich ist und sehr gut in den Endbereich oder Bereich der geringen Wahrscheinlichkeit fallen würde, würde niemand dich beschuldigen durch Trickserei gewonnen zu haben, anstatt durch Zufall, weil der P-Value geringer als 5% ist, richtig?

5. Wenn der P-Value nun geringer als 5% is, können wir dann sagen, dass die Ergebnisse glaubwürdig sind?

Behalte immer im Hinterkopf, dass der P-Value eine Messgröße des Stichprobenfehlers ist (oder eine Messgröße der statistischen Unsicherheit). Aufgrund seines geringen Wertes (5%) nennen wir die Ergebnisse also “statistisch signifikant” oder “statistisch wichtig”.

Die Studie könnte einen sehr geringen P-Wert haben, aber immer noch aufgrund einer schlechten Methodik, den verwendeten Instrumenten, fehlender Randomisierung, keine Kontrollgruppe, usw. fehlerhaft sein. Leider werden diese Probleme nur zu gerne übersehen und sich nur blind auf den P-Valu verlassen.

       

Schlussfolgerungen

Ich hoffe wirklich, dass du nach diesem Artikel ein besseres Verständnis über den P-Value hast. Ich habe die Details, wie Standardabweichung, alternierende Hypothese, Normalkurve und sowas außenvorgelassen und mich nur auf einen Überblick konzentriert.

Ich glaube, dass es ohne das Beispiel mit dem Gewichtsverlust, schwierig zu erläutern gewesen wäre und ich habe so gut wie jedes zweite Buch oder Herangehensweise über Statistik gelesen um den P-Value zu erklären.

Das nächste Mal wenn jemand über den P-Value redet:

  • Versuche dir das persönliche Beispiel oder das der Ergebnisverteilung ins Gedächtnis zu rufen, wenn die Intervention KEINEN Effekt hat
  • Und dann übertrage die Studienergebnisse auf diese Kurve.
  • Wenn die Ergebnisse in die Endbereiche oder Bereiche der geringen Wahrscheinlichkeit fallen, dann ist der P-Value geringer als 5% und die Studie damit statistisch signifikant.

Du fandest den Artikel informativ? Dann wäre es schön, wenn du ihn mit Freunden und Bekannten teilst (sharing is caring), oder uns in Form eines Kommentars deine Meinung sagst.

Werde Patron, schalte weitere exklusive Artikel & Studien Reviews frei!


Opt In Image
Werde zum Fitness- & Ernährungsexperten!
Schlanker, stärker, ästhetischer, gesünder!

Abonniere unseren Newsletter und erhalte - neben weiteren hochwertigen und einzigartigen Infos rund um Fitness, Gesundheit & Ernährung - regelmäßige Updates und Neuigkeiten rund um Aesir Sports.

 


          

Über Anoop Balachandran

Anoop Balachandran verfügt über einen PhD in Exercise Physiology, einen Masterabschluss in Human Performance und ist ein ACE und NSCA zertifizierter Personal Trainer und Kraftcoach.

Fitness ist seine leidenschaftliche Passion. Auf seiner Seite ExerciseBiology.com lässt sich Anoop zu einer Vielzahl von Themen aus, die sich um Kraftsport, Leistungssteigerung, Ernährung und eine Verbesserung der Körperkomposition drehen.

Mehr über den Autor erfahren
Alle Beiträge ansehen


          

Quellen & Referenzen

(1) Doll, R. / Hill, AB. (1956): Lung Cancer and Other Causes of Death in Relation to Smoking. In: Br J Med. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2035864/.


Bildquelle Titelbild: Fotolia / chombosan