(Kraftsport-) Studien verstehen lernen | Was ist die Teststärke (Statistical Power)?

  • von
  • 2996
  • 0
(Kraftsport-) Studien verstehen lernen | Was ist die Teststärke (Statistical Power)?

Von Menno Henselmans | Benötigte Lesezeit: 7 Minuten |


Nein, im heutigen Artikel wird es nicht darum gehen wie du 200 kg auf der Bank drückst, stattdessen werden wir uns mit einem Thema beschäftigen – nämlich die Teststärke (engl. „statistical power“) von Studienergebnissen.

Wieso sollte ich mich mit Statistik beschäftigen?

Die Teststärke (statistische Aussagekraft einer Studie) ist ein überaus wichtiges Konzept für all jene, die wissenschaftliche Studien interpretieren möchten. Es ist die Basis aller wissenschaftlicher Ergebnisse. Wenn du keine Ahnung von Statistik hast, dann kannst du Studien auch nicht verstehen und vor allem nicht korrekt interpretieren.

Vielen Wissenschaftlern zur Folge ist das Unwissen im statistischen Bereich das Äquivalent zum Analphabetentum im 21. Jahrhundert.

Bevor ich weitermache, habe ich hier einen kleinen Test für dich:

Nehmen wir einmal an, dass vor wenigen Tagen eine brandneue Studie im Journal of Strength and Condition Research veröffentlicht wurde. Darin verglichen die Forscher zwei Gruppen, die Widerstandstraining absolviert haben, wobei eine Gruppe mit Kurzhanteln und die andere mit Kettlebells trainiert hat. Ansonsten waren beide Gruppen identisch.

Unglücklicherweise hatte die Gruppe von Wissenschaftlern nur geringe Mengen an Forschungsgeldern zur Verfügung, insofern mussten sie sich mit nur 5 Probanden (=Studienteilnehmer) arrangieren.

Am Ende des Experiments stellte man fest, dass die Kettlebellgruppe eine signifikante Menge an Muskelmasse aufgebaut hatte (im Vergleich zur Kurzhantelgruppe). Bedeutet das automatisch, dass das Training mit Kettlebells in Sachen Muskelaufbau effektiver ist, als das Training mit Kurzhanteln?

Lies weiter und du wirst die Antwort in den nachfolgenden Abschnitten erfahren, während ich parallel dazu das Konzept der Teststärke erläutere.

(Kraftsport-) Studien verstehen lernen | Was ist die Teststärke (Statistical Power)?

Was ist die Teststärke (Statistical Power / Statistische Aussagekraft)?

Formal definiert, handelt es sich bei der Teststärke um die Wahrscheinlichkeit, dass der Test die Null Hypothese ablehnen wird, sofern sich die Null Hypothese als falsch erweist. Es ist die identische Wahrscheinlichkeit keinen Typ 2 Fehler zu begehen (= es zu versäumen eine falsche Null-Hypothese abzulehnen).

Für all diejenigen unter unseren Lesern die keine Ahnung vom statistischen Jargon haben, folgt nun die simplere Antwort: Die Teststärke ist die Fähigkeit einen Effekt zu finden, wenn er auch wirklich existiert. Es ist die Sensitivität eines Tests (Sensitivität ist in dem Fall die intuitive als auch fachlich richtige Terminologie).

Um das Ganze besser verständlich zu machen, möchte ich es an einem Beispiel erklären.

Stell dir vor, du würdest eine Studie durchführen, bei der es um die Effektivität von Supplement X geht. Es gibt zwei Aspekte, in denen sich das Nahrungsergänzungsmittel als effektiv erweisen kann:

  1. Der Effekt hat eine physische Realität (den du aber nicht kennst).
  2. Es gibt ein Ergebnis, welches du mittels deines statistischen Tests herausbekommst.

Nehmen wir weiter an, dass das Supplement der heilige Gral unter den Supplementen ist, wenn es um Muskelaufbau geht und daher jeden, der es einnimmt, innerhalb weniger Wochen in den unglaublichen Hulk transformiert. Wenn dein Test nun zu dem gleichen Ergebnis kommt, dann sind alle glücklich.

Wenn das Supplement allerdings wirkt und dein statistischer Test aussagt, dass es das nicht tut, dann hast du es versäumt eine Wirkung zu finden/identifizieren, die auch tatsächlich existiert. So einen Fehler nennt man in der Statistik „Typ 2 Fehler“ und er wird durch eine fehlende Teststärke hervorgerufen. Ein Test mit höherer Sensitivität hätte den Effekt gefunden.

Eine fehlende Teststärke ist ein Erklärung dafür, wieso verschiedene Studien zu unterschiedlichen Ergebnissen kommen können.

Was entscheidet über die Teststärke?

Eine Analyse mit voller Teststärke („full power analysis“) berücksichtigt eine Vielzahl von Dingen, darunter das Studiendesign, doch es gibt 3 Hauptfaktoren, die entscheidend sind.

1. Statistisches Signifikanzkriterium

Zuerst einmal gibt es ein statistisches Signifikanzkrieterium, das Alpha (α), doch darüber brauchst du dir keine Gedanken zu machen, weil man sich in der Praxis der wissenschaftlichen Literatur auf die Konvention festgelegt hat, dass auf einem Signifikanzlevel von 0,05 getestet wird (auch bekannt als “Signifikanzniveau”).

2. Größe der Stichprobe

Zweitens wird die Teststärke durch die Größe der Stichprobe (z.B. Anzahl der Teilnehmer) positiv beeinflusst. Je größer die Stichprobe der Studie, desto leichter wird es einen Effekt zu finden/identifizieren.

Auf unser Beispiel bezogen: Wenn die beiden Gruppen, welche Supplement X oder Placebo erhalten haben, aus tausenden von Personen bestünden, dann steigt die Wahrscheinlichkeit dass man am Ende der Studie Differenzen in den Gruppen findet, die durch Supplement X hervorgerufen wurden, da größere Stichproben zufällige Effekte ausgleichen und sicherstellen, dass die beobachteten Werte sehr nah an der tatsächlichen Bevölkerungsgruppe heranreichen (vorausgesetzt, die Gruppen waren randomisiert und die Studie gut kontrolliert).

Eine Stichprobengröße von einigen wenigen Teilnehmern (z.B. unter 10) verfügt über eine viel geringere Teststärke (=Aussagekraft des Ergebnisses), weil der Effekt von Supplement X durch zufällige Variationen oder Störungen verzerrt werden könnte. In so einer kleinen Stichprobe könnte eine Person, die z.B. unter Herzproblemen leidet, eventuell nicht auf die Wirkung von Supplement X ansprechen, so dass man durch einen Test zu dem Ergebnis kommt, dass Supplement X gar nicht wirkt.

3. Effektgröße

Wie der Name bereits vermuten lässt, handelt es sich hierbei um den Umfang des Effekts, nach dem du suchst.

In unserem Beispiel ist die Effektgröße von Supplement X unglaublich hoch, weil ich ja bereits gesagt habe, dass es dich binnen weniger Zeit zum unglaublichen Hulk macht. In so einem Fall benötigst du tatsächlich nur eine Stichprobe von 1 oder 2 um herauszufinden, dass Supplement X teh shit ist.

Wenn das Supplement jedoch nur milde Effekte besitzen würde, dann bräuchtest du eine viel größere Stichprobe, um die Effekte auszumachen.

Die Praktische Anwendung: Kettlebells oder Kurzhanteln?

Kommen wir nun zu der Frage zurück, die ich bereits am Anfang gestellt habe: Stützt das Studienergebnis die Aussage, dass Kettlebells weitaus effektiver als Kurzhanteln sind, wenn es um das Thema Muskelaufbau geht?

Die meisten von uns würden an dieser Stelle dazu tendieren und „Nein“ sagen, da die Stichprobengröße (das Sample) vergleichsweise klein ausgefallen ist. Wenn die Anzahl der Teilnehmer so gering ausfällt, dann schmälert dies auch die Teststärke der Studie, doch es wurde trotzdem ein Effekt gefunden/identifiziert. Dies lässt vermuten, dass die Studie ihre statistische Kraft durch einen anderen Faktor bezieht.

Gehen wir mal davon aus, dass es keine anderen relevanten Faktoren gegeben hat, dann würde das bedeuteten, dass die Effektgröße (oder auch die Differenz zwischen der Effektgröße vom Training mit Kurzhanteln und der Effektgröße vom Training mit Kettlebells) sehr groß gewesen sein muss.

Aus diesem Grund würde die Studie ein bevorzugtes Training mit Kettlebells unterstützen, da ein signifikanter Effekt trotz kleiner Samplegröße gefunden wurde.

Ein weiteres Beispiel: Beeinflusst die Höhe des Trainingsgewichtes den Muskelaufbau?

Vor nicht allzu langer Zeit haben Mitchell et al. eine Studie veröffentlicht, die unter dem Titel „Resistance exercise load does not determine training-mediated hypertrophic gains in young men” erschienen ist.

In diesem Experiment verglichen die Wissenschaftler 3 Gruppen, die Widerstandstraining betrieben haben:

  • Eine Gruppe trainierte mit 3 Sätzen bei 30% des One Repetition Maximums (1 RM).
  • Eine Gruppe trainierte mit 1 Satz bei 80% des 1 RM.
  • Eine Gruppe trainierte mit 3 Sätzen bei 80% des 1 RM.

Am Ende der Studie konnten die beteiligten Forscher keine signifikanten Unterschiede zwischen den Gruppen in Sachen Muskelmasse oder isometrischer Kraft ausfindig machen, doch die isotonische Kraft und das anabole Zellsignal fiel in den 80% Gruppen höher aus, als in der 30% Gruppe (unabhängig davon, ob nun 1 oder 3 Sätze bei 80% absolviert wurden).

Populäre Newsplattformen, wie etwa der Science Daily, titelten: „Weniger Gewicht für mehrere Wiederholungen ist genauso effektiv in Sachen Muskelaufbau, wie das Training mit schweren Gewichten – finden McMaster Wissenschaftler heraus, der konventionelle Empfehlung auf den Kopf stellt.“ Und diese Studie ist anschließend als Herald viral gegangen, der die Nachricht verkündet hat, dass weder Volumen noch Intensität für Hypertrophie entscheidend sind.

Demzufolge ist alles, worauf es bei Muskelaufbau ankommt, das Training bis zum Muskelversagen.

Das kommt dabei heraus, wenn Menschen ohne statistischen Hintergrund, die sich nicht mit der Literatur vertraut gemacht haben und – ich kann es mir nur vorstellen – selber nicht trainieren, anfangen den Leuten Ratschläge in Sachen Bodybuilding zu geben. Diese Studie verfügte über viel zu wenig Teststärke, um solche gewagten Behauptungen zu tätigen.

Woher ich das weiß?

Zuerst einmal fand diese Studie keinerlei Korrelation zwischen Phosphorylation (Aktivierung) von Signalproteinen und Hypertrophie, obwohl seit den 90ern bekannt ist (2)(3), dass die p70S6 kinase und mTOR für die Regulation der Proteinsynthese, Zellwachstum und Zellgröße verantwortlich sind.

Wenn man das verstanden hat und sich die Studie ansieht, findet man heraus, dass sich die Phosphorylation von p70S6 kinase nur in den 80% Gruppen erhöht hat, aber nicht in der 30% Gruppe – was impliziert, dass die höhere Intensität im Endeffekt doch zu einem stärkeren Muskelwachstum beitrug.

Aber das ist nicht das, was die Wissenschaftler herausgefunden haben. Es gab keine signifikante Differenz in Hypertrophie-Grad zwischen den Gruppen. Dennoch fand man eine prozentuale Erhöhung des Muskelvolumens, die sich um den Faktor 2 zwischen den Gruppen unterschied (z.B. 3,2% für die 1x 80% Gruppe Vs. 7,2% in der 3×80% Gruppe)! Wenn eine Studie einen zweifachen Anstieg in Sachen Hypertrophie nicht identifizieren kann, dann kann man mit Gewissheit sagen, dass hier (in Bezug auf die gestellte Hypothese) eindeutig eine mangelnde Teststärke vorliegt.

Die Tatsache, dass es keine signifikanten Differenzen zwischen dem 1-Satz- und dem 3-Satz-Protokoll gegeben hat, lässt gleichermaßen vermuten, dass der Studie an Aussagekraft fehlte. Vorherige Metastudien haben bereits gezeigt, dass mehrere Sätze in der Praxis zu einer stärkeren Hypertrophiereaktion führen, als Einzelsatztraining (4).

All diese Diskrepanzen, die mit der generellen Literatur kollidieren, können als ein Mangel an Teststärke verstanden werden. Meta-Analysen verfügen über eine größere Teststärke (=Aussagekraft), als Einzelstudien aufgrund der größeren Stichprobe. Die Aktivität von Signalproteinen ist entscheidender und es ist daher einfacher eine Erhöhung des Muskelvolumens auszumachen.

In dieser Studie beeinflussten einige weitere Faktoren die Teststärke im Speziellen, wie z.B. die Studiendauer. Je länger das Experiment, desto stärker werden die Unterschiede betont und desto höher wird die Teststärke.

Auch beim Studiendesign lässt sich sagen, dass dieses weit davon entfernt gewesen ist, um als optimal durchzugehen. Die Wissenschaftler steckten jeden Teilnehmer in 2 Gruppen: Eine für jedes Bein – vermutlich, weil sie mit 18 Personen eine zu geringe Stichprobe in dem Experiment hatten. Da unilaterales Training zu Kreuztraining-Effekten im anderen Gliedmaß führt (5), trägt dies zu Verzerrungen der Studienergebnisse bei, weil es unmöglich wird zwischen Effekten zu unterscheiden, die durch Kreuztraining zu Tage treten, welche vom jeweiligen Bein verursacht werden. Solche Verzerrungen reduzieren die Teststärke einer Studie.

Schließlich sei an dieser Stelle erwähnt, dass die Nutzung von MRI (Magnetresonanztomographie) fehleranfällig ist, wenn es um die Bestimmung des Muskelvolumens geht und das „eine gemessene Volumensveränderung von mindestens 6-17% erforderlich ist, um eine signifikante Differenz zu demonstrieren“ (6) – in Abhängigkeit der initialen Muskelgröße, was in dieser Studie nicht (oder bestenfalls kaum) der Fall gewesen ist.

Zusammengenommen fehlte dieser Studie die notwendige (Aussage-)Kraft, um die erforschten Fragen ausreichend zu beantworten und daher müssen die Studienergebnisse mit viel Vorsicht interpretiert werden, wenn überhaupt. Insbesondere dann, wenn diese von den bereits bekannten robusten Ergebnissen in der hiesigen Literatur abweichen.

Abschließende Worte

Die Teststärke (oder auch Sensitivität) ist die Fähigkeit jene Effekte zu finden, nach denen du suchst, sofern diese überhaupt existieren. Die Teststärke erhöht sich mit der Stichprobengröße und der Effektgröße.

Um Studienergebnisse richtig zu interpretieren, ist es überaus wichtig, dass man sich die Frage stellt, ob die Untersuchung die notwendige Teststärke besitzt, um die gestellten Fragen zu beantworten. Ein Mangel an Teststärke kann den Gehalt einer Studie entweder verstärken oder sie zerstören und das ist nicht in jedem Fall intuitiv. Jeder Broscientist kann eine Studie lesen, doch nur jene die sich auch in Statistik auskennen, können sie richtig interpretieren.

Nachdem du diesen Artikel gelesen hast, gehörst du zur zweiteren Kategorie. Und als zusätzlichen Bonus kannst du andere Autoren nun damit belästigen, indem du nach der Teststärke in ihren Studien Reviews fragst.

Du fandest diesen Beitrag zum Thema statistische Power (Teststärke) informativ & lesenswert – und würdest gerne mehr evidenzbasierte Informationen (Praxis & Theorie) lesen? Dann werde Leser unseres monatlich erscheinenden Magazins, der Metal Health Rx!

Quellen & Referenzen

(1) Mitchell, CJ., et al. (2012): Resistance exercise load does not determine training-mediated hypertrophic gains in young men. In: J Appl Physiol. URL: http://jap.physiology.org/content/early/2012/04/12/japplphysiol.00307.2012.

(2)  Ip, CK. / Wong, AS. (2012): p70 S6 kinase and actin dynamics: A perspective. In: Spermatogenesis. URL: https://www.ncbi.nlm.nih.gov/pubmed/22553489.

(3)  Sakamoto, K. / Goodyear, LJ. (2002): Invited review: intracellular signaling in contracting skeletal muscle. In: J Appl Physiol. URL:https://www.ncbi.nlm.nih.gov/pubmed/12070227.

(4) Krieger, JW. (2012): Single vs. multiple sets of resistance exercise for muscle hypertrophy: a meta-analysis. In: Strength Cond Res. URL: https://www.ncbi.nlm.nih.gov/pubmed/20300012.

(5) Lee, M. / Carroll, TJ. (2007): Cross education: possible mechanisms for the contralateral effects of unilateral resistance training. In: Sports Med. URL: https://www.ncbi.nlm.nih.gov/pubmed/17190532.

(6) Bijlsma, WR. / Mourits, MP. (2006): Radiologic measurement of extraocular muscle volumes in patients with Graves’ orbitopathy: a review and guideline. In: Orbit. URL: https://www.ncbi.nlm.nih.gov/labs/articles/16754214/.



Bildquelle Titelbild: Pixabay / geralt ; CC Lizenz


Über

Online Physique Coach, Fitnessmodell und wissenschaftlicher Autor – Menno Henselmans hilft Trainierenden, die es Ernst meinen, dabei ihre ideale Physique zu erreichen, indem er auf Bayes’sche Methoden zurückgreift. Folge Ihm auf Facebook, Twitter und check seine persönliche Website für weitere frei verfügbare Artikel ab.

Mehr über den Autor erfahren
Alle Beiträge ansehen
Opt In Image
Werde zum Fitness- & Ernährungsexperten!
Schlanker, stärker, ästhetischer, gesünder!

Abonniere unseren Newsletter und erhalte - neben weiteren hochwertigen und einzigartigen Infos rund um Fitness, Gesundheit & Ernährung - regelmäßige Updates und Neuigkeiten rund um Aesir Sports.

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert