Dieser Artikel taucht tief in die „Evidenzpyramide“ ein – ein entscheidendes Werkzeug, um die wissenschaftliche Aussagekraft von Forschung zu bewerten. Du erfährst, warum eine Meta-Analyse, die viele Studien bündelt, an der Spitze steht, während ein einzelner Fallbericht die Basis bildet. Wir erklären, was eine randomisierte kontrollierte Studie (RCT) zum „Goldstandard“ für den Nachweis von Ursache und Wirkung macht und warum Beobachtungsstudien zwar Muster aufzeigen, aber anfälliger für Verzerrungen sind. Darüber hinaus geht der Artikel über das starre Modell hinaus und stellt moderne Ansätze wie das GRADE-System vor. Dieses bewertet die Vertrauenswürdigkeit von Evidenz flexibel und zeigt, dass eine exzellent durchgeführte Beobachtungsstudie manchmal mehr wert sein kann als eine mangelhafte RCT. Dieser Wegweiser rüstet dich mit dem nötigen Wissen aus, um Gesundheitsnachrichten kritisch zu hinterfragen und fundierte Entscheidungen zu treffen, weil du verstehst: Nicht jede Studie wiegt gleich viel.

In einem früheren Artikel haben wir die Grundlagen der evidenzbasierten Medizin (EBM) als einen „dreibeinigen Hocker“ kennengelernt, der auf wissenschaftlicher Evidenz, ärztlicher Erfahrung und den Werten des Patienten ruht. Wir haben auch kurz die Evidenzpyramide als Werkzeug zur Bewertung der wissenschaftlichen Säule gestreift. Doch um im Dschungel widersprüchlicher Gesundheitsnachrichten wirklich navigieren zu können, müssen wir tiefer graben. Warum verkündet eine „Studie“ diese Woche, dass Kaffee schadet, während eine andere ihn nächste Woche als Wundermittel preist?

Die Antwort darauf ist vielfältig. Ergebnisse, die auf den ersten Blick unterschiedlich erscheinen, beruhen möglicherweise erstmal auf leicht unterschiedlichen Forschungsfragen der jeweiligen Untersuchungen. Aber auch die methodische Qualität der Forschung kann sich unterscheiden. Nicht jede Studie ist gleich aufgebaut, und daher ist nicht jede Schlussfolgerung gleich vertrauenswürdig. Dieser Artikel baut auf unserem Grundverständnis von EBM auf und dient als detaillierter Wegweiser durch die Hierarchie der medizinisch-wissenschaftlichen Beweiskraft. Wir werden die Pyramide Stufe für Stufe durchgehen, um zu verstehen, warum Meta-Analysen und Systematic Reviews an der Spitze zu finden sind und ein einzelner Fallbericht oder eine Expertenmeinung weiter unten zu finden sind.

Die Logik der Evidenzpyramide

Ein Kampf gegen den Zufall und die Verzerrung

Die klassiche Evidenzpyramide ist ein visueller Wegweiser, der verschiedene Studientypen nach ihrer methodischen Strenge und damit ihrer Aussagekraft ordnet. Das Grundprinzip ist einfach: Je höher man in der Pyramide aufsteigt, desto robuster ist das Studiendesign und desto geringer das Risiko, dass Ergebnisse durch systematische Fehler verzerrt werden. Gleichzeitig nimmt die Anzahl verfügbarer Studien von unten nach oben ab – es gibt unzählige Expertenmeinungen, aber nur vergleichsweise wenige aufwendig durchgeführte RCTs oder qualitativ hochwertige systematische Reviews und Meta-Analysen.¹

Wer die Evidenzstufen versteht, legt eine wichtige Grundlage für das Verständnis von evidenzbasierter Medizin generell. Diese Hierarchien helfen Ärzt:innen und Forschenden dabei, gezielt nach hochwertiger wissenschaftlicher Literatur zu suchen, indem sie Studien mit dem besten Design bevorzugt berücksichtigen.1

Für diesen Artikel orientieren wir uns an der hier abgebildeten Version der Evidenzpyramide, die sich an einer klassischen Evidenzpyramide, wie in Murad et al. (2016)2 dargestellt, anlehnt.

An anderer Stelle werden die Evidenzstufen auch etwas anders bezeichnet.

  • Chen & Chi (2023)1 verwenden eine vereinfachte numerische Einteilung in Level 1 bis 5, wobei z. B. Stufe 1b (RCTs) als Level 2 geführt wird, Stufe 2 (Beobachtungsstudien) als Level 3 usw.
  • Tenny et al. (2024) differenzieren feiner nach methodischer Qualität und unterteilen in 1a, 1b, 2a, 2b, 3 und 4. Dabei steht: 2a für gut gemachte Studien mit Kontrollgruppe, aber ohne Randomisierung und 2b für sorgfältig designte Beobachtungsstudien ohne Kontrollgruppe
Quality of Evidence
Je höher eine Evidenzstufe in der Pyramide, desto größer ihre Aussagekraft. Die Farben signalisieren die Evidenzstärke: Rot = gering, Gelb = mittel, Grün = hoch. Stufen: 1a = z. B. Meta-Analysen von RCTs 1b = z. B. Randomisierte kontrollierte Studien (RCTs) 2 = Beobachtungsstudien 3 = Nicht-experimentelle Studien 4 = z. B. Expertenmeinungen Hinweis: Andere Klassifikationen verwenden abweichende Stufenbezeichnungen (z. B. Chen & Chi, 2023; Tenny et al., 2024). Erstellt mit Canva. [vgl. Murad et al., 2016]

Die Stufen der Evidenz im Detail

Von der Idee zur Synthese

Um die Logik der Pyramide zu verstehen, betrachten wir die Stufen von unten nach oben. Man könnte sich vorstellen, dass jede Stufe versucht, die methodischen Schwächen der darunterliegenden Ebene zu überwinden.

Level 4 - Ideen, Expertenmeinungen und Laborforschung

Ganz unten, als Fundament, finden sich Expertenmeinungen sowie die Grundlagenforschung, z. B. zur Untersuchung von biochemischen Vorgängen, pathophysiologischen Prozessen oder Arzneimittelwirkung.1 Stufe 4 kann aber auch In-vitro-Studien („im Reagenzglas“) und Tierversuche umfassen.1

Ein wesentlicher Nachteil von Evidenzstufe 4 besteht darin, dass die Aussagekraft für die Anwendung beim Menschen oft gering ist.1 Man spricht von niedriger externer Validität.1

Stärke: Hilft neue Ideen zu generieren und grundlegende Mechanismen zu verstehen.2 Expertenmeinungen können auch in Bereichen wertvoll sein, in denen es noch keine eindeutigen wissenschaftlichen Ergebnisse gibt.2

Schwäche: Die Ergebnisse von In-vitro- oder Tierversuchen sind nicht direkt auf den komplexen menschlichen Organismus übertragbar.1 Expertenmeinungen sind wertvoll, wenn andere Evidenz fehlt, aber sie sind anfällig für persönliche Voreingenommenheit.2

Beispiel: Laborexperimente (in vitro) zeigten, dass Ivermectin (ein Mittel gegen Parasiten) die Vermehrung des Coronavirus SARS-CoV-2 in frühen Infektionsstadien hemmen kann. Doch eine aktuelle Cochrane*-Übersichtsarbeit, die hochwertige klinische Studien (RCTs) auswertet, fand keinen Nutzen von Ivermectin bei COVID-19-Patient:innen – weder im Krankenhaus noch im ambulanten Bereich.1

*Cochrane ist eine internationale Organisation, die unabhängige, systematische Übersichtsarbeiten zu medizinischen Fragestellungen erstellt. Ziel ist es, verlässliche und aktuelle wissenschaftliche Evidenz bereitzustellen, damit Ärzt:innen, Patient:innen und Entscheidungsträger fundierte Entscheidungen treffen können. Kurz gesagt: Cochrane steht für hochwertige, evidenzbasierte Medizin.

Level 3 - Erste Beobachtungen am Menschen

Fallberichte, Fallserien und "Case-Control-Studies"

Die nächste Stufe beschreibt detaillierte Berichte über einen einzelnen Patienten (Fallbericht)2 oder eine kleine Gruppe von Patienten (Fallserie).1 Sie sind oft der Ausgangspunkt, der zukünftige Verfahren einleitet.2 Fallberichte oder -serien können auch entscheidend sein, um seltene Krankheiten oder unerwartete Nebenwirkungen zu identifizieren.1

Stärke: Gut zur Hypothesenbildung und zur Beschreibung seltener Phänomene.2

Schwäche: Man weiß nicht, ob die Stichprobe (also der Proband oder das Kollektiv an Probanden) repräsentativ ist (Verzerrung bzgl. der Probandenauswahl,“Selection bias“).1,2 Das Fehlen einer Vergleichsgruppe ist die fundamentale Schwäche.2 Man kann nicht wissen, ob ein Ereignis nicht ohnehin eingetreten wäre. Eine Ursache-Wirkungs-Beziehung (Kausalität) lässt sich hieraus unmöglich ableiten.

Beispiel: Frühe Hinweise auf die schädliche Wirkung von Thalidomid in der Schwangerschaft stammen aus einer Fallserie: Bei Frauen, die das Medikament gegen Übelkeit einnahmen, traten bei ihren Neugeborenen deutlich häufiger Fehlbildungen (Phokomelie) auf – etwa 20 % im Vergleich zu den üblichen 1,5 %. Da umfangreiche Studien Jahre gedauert hätten und weitere Kinder gefährdet gewesen wären, reichte dieser Sicherheitshinweis aus Evidenzstufe 3 aus, um Thalidomid vom Markt zu nehmen.1

Neben Case-Reports (Fallberichten) und Case-Serien (Fallserien) gibt es auch Case-Control-Studies.1 Diese Studienform schaut rückblickend auf zwei Gruppen: Beispielsweise eine Gruppe mit einer bestimmten Krankheit oder einem bestimmten Zustand (Fallgruppe) und eine Gruppe ohne (Kontrollgruppe). Ziel ist es, herauszufinden, ob bestimmte Risikofaktoren in der Vergangenheit häufiger bei den Erkrankten vorkamen.
Fall-Kontroll-Studien sind besonders hilfreich, wenn es um seltene Erkrankungen geht und frühere Einflüsse gut messbar sind.1

Beispiel: Eine wegweisende Fall-Kontroll-Studie aus dem Jahr 1950 zeigte erstmals einen Zusammenhang zwischen Rauchen und Lungenkrebs. Die Studie ergab, dass starkes und langfristiges Rauchen deutlich häufiger bei Lungenkrebspatient:innen vorkam als bei Personen ohne Krebs.1

Ein Nachteil: Die Ergebnisse können durch Erinnerungsverzerrungen (Recall Bias) oder eine verzerrte Auswahl der Teilnehmenden (Selection Bias) beeinflusst werden. Außerdem zeigen sie nur Zusammenhänge – keine Ursache-Wirkungs-Beziehungen.1

Level 2 - Muster erkennen

Kohortenstudien

Eine Kohortenstudie ist eine Beobachtungsstudie, bei der eine klar definierte Gruppe von Menschen (die „Kohorte“) über einen längeren Zeitraum begleitet wird. Ziel ist es, herauszufinden, ob bestimmte Einflüsse (z. B. Medikamente, Lebensstil, Umweltfaktoren) mit bestimmten gesundheitlichen Ergebnissen zusammenhängen.1

Wie funktioniert das?

Man vergleicht innerhalb der Kohorte Personen, die einem bestimmten Einfluss ausgesetzt waren, mit denen, die nicht (oder unterschiedlich stark) exponiert waren. Da die Exposition vor dem Ergebnis liegt, kann man zeitliche Zusammenhänge erkennen. Das ist ein wichtiger Schritt, um Hinweise auf mögliche Ursachen zu identifizieren.1

Wie prüft man auf Hinweise für mögliche Kausalität bei Kohortenstudien?

Dafür gibt es die sogenannten Hill-Kriterien, z. B.:1

  • Stärke und Konsistenz des Zusammenhangs
  • Zeitliche Reihenfolge
  • Biologische Plausibilität
  • Dosis-Wirkungs-Beziehung
  • Übereinstimmung mit anderen Studien

Welche Arten von Kohortenstudien gibt es?

1. Prospektive Kohortenstudie
Die Teilnehmenden werden aktiv ausgewählt und über Jahre hinweg beobachtet.1

  • Vorteil: Sehr genaue Datenerhebung.1
  • Nachteil: Teuer, zeitaufwendig, viele Teilnehmende brechen ab.1

Beispiel: Die „British Doctors’ Study“ begleitete über 50 Jahre lang mehr als 34.000 britische Ärzte. Ergebnis: Raucher hatten ein deutlich höheres Risiko für Krebs, Atemwegs- und Herz-Kreislauf-Erkrankungen. Das klingt nach einem relativ vernünftigen Beleg für mögliche gesundheitsschädliche Folgen des Rauchens.1 Randomisierte oder auch nicht randomisierte kontrollierte Studien zur Untersuchung, ob Rauchen schädlich ist, bei denen eine Gruppe raucht und die andere nicht, wären nicht ethisch (eigene Anmerkung).

2. Retrospektive Kohortenstudie
Hier nutzt man bereits vorhandene Daten (z. B. aus Krankenakten) und analysiert rückblickend, was passiert ist.1

  • Vorteil: Schnell und kostengünstig.1
  • Nachteil: Daten können unvollständig oder fehlerhaft sein.1

Beispiel: Eine Studie in Taiwan untersuchte über einen Betrachtungszeitraum von 12 Jahren das Risiko für Augenentzündungen (Uveitis) bei Menschen mit schwerer Schuppenflechte. Ergebnis: Patient:innen mit schwerer Schuppenflechte hatten ein höheres Risiko als die Kontrollgruppe ohne.1

Level 1b - Hohe Evidenz

RCTs | Ausnahmsweise aber auch Beobachtungsstudien mit wirklich starkem Effekt

Randomisierte kontrollierte Studien (RCTs) gelten als Evidenzstufe 1b und stellen den Goldstandard dar, doch in Ausnahmefällen können auch Beobachtungsstudien diesem Level zugeordnet werden, wenn sie einen außergewöhnlich starken Effekt nachweisen.

Ein RCT (engl. Randomized Controlled Trial), also eine randomisierte, kontrollierte Studie ist eine experimentelle Studie, bei der Teilnehmende per Zufall verschiedenen Behandlungsgruppen zugeteilt werden, z. B. einer neuen Therapie, einer Standardbehandlung oder einem Placebo.1

Vorteil: Die zufällige Zuteilung sorgt dafür, dass bekannte und unbekannte Störfaktoren halt zufällig über die Gruppen verteilt werden. Die Aussagekraft ist dadurch höher als bei anderen Studienformen.1

Grenzen von RCTs:1

  • Sie bilden die reale Versorgung nur näherungsweise ab.
  • Strenge Ein- und Ausschlusskriterien können die Übertragbarkeit einschränken.
  • Manche Fragestellungen sind aus ethischen Gründen nicht randomisierbar.

Beispiel: In der VOYAGE-1-Studie wurden Patient:innen mit mittelschwerer bis schwerer Schuppenflechte zufällig in drei Gruppen eingeteilt: Zwei Gruppen bekamen Medikamente (eine Guselkumab und die andere Adalimumab) und eine Gruppe bekam ein Placebo. Ergebnis: Guselkumab war wirksamer als Adalimumab. Beide waren auch laut ärztlicher und patientenbezogener Bewertung vergleichbar sicher.1

☝️Ausnahme: Beobachtungsstudien mit wirklich starkem Effekt

Auch gut gemachte Beobachtungsstudien können als Evidenzstufe 1b gelten. Vorausgesetzt, der Effekt ist außergewöhnlich stark. Das zeigt sich z. B. in sehr hohen oder niedrigen Risiko-Kennzahlen (Odds Ratio, Hazard Ratio etc.).1

Beispiel: Eine große retrospektive Kohortenstudie aus Korea hat gezeigt, dass starke Raucher mit über 22,5 „Packungsjahren“ (1 Packung pro Tag über 22,5 Jahre*) ein von 11,1 bis zu 13,5-fach höheres Risiko für Lungenkrebs hatten als Nichtraucher, je nach Geschlecht und histologischem Krebs-Typ.1

Level 1a - Die Spitze

Systematic Reviews, Meta-Analysen & n-of-1 Trials

Zur höchsten Evidenzstufe zählen systematische Reviews, Meta-Analysen und n-of-1 Trials. Sie gelten als besonders aussagekräftig, weil sie entweder viele hochwertige Studien zusammenfassen (SR/MAs) oder gezielt die beste Therapie für eine einzelne Person ermitteln (n-of-1 Trials). Beide Ansätze minimieren Verzerrungen und liefern verlässliche Ergebnisse – entweder für Gruppen oder für individuelle Entscheidungen.1

Systematische Reviews und Meta-Analysen sammeln und bewerten viele einzelne Studien zu einer bestimmten Fragestellung und fassen die Ergebnisse zusammen. So entsteht ein besonders zuverlässiges Gesamtbild. Häufig werden beide Methoden gemeinsam in einer wissenschaftlichen Arbeit eingesetzt.1

  • Eine systematische Review sucht und bewertet alle passenden Studien zu einem Thema oder einer konkreten Forschungsfrage nach festen methodischen Kriterien.1
  • Eine Meta-Analyse berechnet aus den Ergebnissen dieser Studien eine gemeinsame Kennzahl. Zum Beispiel, wie stark eine bestimmte Behandlung wirkt.1
  • Beispiel: Eine systematische Review mit Meta-Analyse, basierend auf 16 Studien zu Patient:innen mit moderater bis schwerer Hidradenitis suppurativa (einer chronisch-entzündlichen Erkrankung der Haarfollikel), zeigte, dass zwei Medikamente – Adalimumab und Bimekizumab – besonders wirksam sind. Beide verbesserten die Symptome deutlich, ohne das Risiko schwerer Nebenwirkungen zu erhöhen.

    Daher werden sie empfohlen, wenn herkömmliche Erstlinien-Therapien mit Antibiotika bei moderater bis schwerer Erkrankung nicht ausreichend wirken.1

n-of-1 Trials sind Studien mit nur einer Person, also „Einzelpersonen-Studien“. Diese bekommt verschiedene Behandlungen in zufälliger Reihenfolge, und man schaut, was bei ihr am besten wirkt, quasi wie in randomisierten, kontrollierten Studien auf Individualebene.1

  • Diese Studien sind sinnvoll, wenn Menschen unterschiedlich auf Therapien reagieren.1
  • Beispiel: In einer Klinik wurden n-of-1 Trials mit Gabapentin und Placebo bei chronischen Nervenschmerzen durchgeführt. Nur 29 % der Teilnehmenden sprachen gut auf Gabapentin an. Das hat geholfen, die Therapie individuell anzupassen.1

Jenseits der klassichen Evidenz-Pyramide

Eine moderne, flexible Perspektive

Obwohl die klassische Pyramide schon ein hervorragendes didaktisches Werkzeug ist, hat die moderne Evidenzbasierte Medizin ihre Grenzen erkannt. Wie bereits im vorherigen Artikel angedeutet, ist die Qualität der Durchführung einer Studie oft wichtiger als ihr reines Design-Label.3 Eine schlampig durchgeführte RCT kann weniger aussagekräftig sein als eine exzellente Kohortenstudie.

New Evidence Pyramid
Neue Evidenzpyramide nach GRADE: Die Aussagekraft einer Studie hängt nicht nur vom Design ab, sondern auch von ihrer methodischen Qualität. Systematische Übersichtsarbeiten sind vom Rest losgelöst, weil dadurch die Vertrauenswürdigkeit der vorhandenen Evidenz beurteilt wird. Die Wellenlinien symbolisieren: Studien können je nach Verzerrung (Bias), Präzision und Konsistenz auf- oder abgewertet werden. [vgl. Murad et al., 2016; Kirmayr et al., 2021]. Erstellt mit Microsoft CoPilot und Canva Pro.

Der GRADE-Ansatz: Von der Studienart zur Vertrauenswürdigkeit

Um dieser Komplexität gerecht zu werden, wurde das GRADE-System (Grading of Recommendations Assessment, Development and Evaluation) entwickelt. Anstatt stur auf das Studiendesign zu blicken, bewertet GRADE die Vertrauenswürdigkeit der gesamten Evidenz zu einer Frage.⁴ Dabei kann die anfängliche Einstufung basierend auf dem Design angepasst werden:⁴

  • Herabstufen (Downgrading): Die Vertrauenswürdigkeit wird gesenkt, wenn Studien methodische Mängel aufweisen, ihre Ergebnisse sich widersprechen oder die Daten unpräzise sind.
  • Hochstufen (Upgrading): Die Vertrauenswürdigkeit von Beobachtungsstudien kann erhöht werden, wenn der beobachtete Effekt sehr groß ist oder eine klare Dosis-Wirkungs-Beziehung zeigt.

Diese flexible Bewertung spiegelt sich in einer modernen Darstellung der Evidenz-Pyramide wider, wie sie auch von Murad et al. (2016)2 oder Kirmayer et al. (2021)4 beschrieben wurde. Zwei Änderungen sind zentral:2,4

  • Wellenlinien statt starrer Grenzen: Die Linien zwischen den Studientypen werden gewellt dargestellt. Dies visualisiert, dass die Vertrauenswürdigkeit der Evidenz je nach Qualität der Durchführung auf- oder abgewertet werden kann.
  • Die Systematische Übersichtsarbeit/Meta-Analyse als Linse oder Lupe: Systematische Übersichtsarbeiten werden von der Spitze entfernt und stattdessen als eine Art Linse oder Lupe konzeptualisiert, durch die alle anderen Evidenzstufen betrachtet werden. Der Prozess der systematischen Übersicht ist das Werkzeug, das uns den klarsten Blick auf die verfügbare Evidenz ermöglicht. Dabei ist es egal, auf welcher Stufe der Pyramide sie sich befindet.
New Evidence Pyramid Lupe
Systematische Übersichtsarbeiten sind keine eigene Evidenzstufe, sondern eine „Lupe“, durch die die Vertrauenswürdigkeit der Studien kritisch bewertet wird. Die Aussagekraft hängt nicht nur vom Studiendesign ab, sondern auch von methodischer Qualität, Konsistenz und Präzision. [vgl. Murad et al., 2016; Kirmayr et al., 2021]. Erstellt mit Microsoft CoPilot und Canva Pro.

Wie sind Quasi-Experimente einzuordnen?

Während die moderne Darstellung der Evidenzpyramide bereits zeigt, dass die Grenzen zwischen den Stufen nicht starr verlaufen, lohnt es sich, auf eine Studienform hinzuweisen, die in vielen vereinfachten Übersichten zur Qualität der Evidenz oft nicht so richtig beachtet wird. Sie bilden eine Art Zwischenstufe zwischen klassischen Beobachtungsstudien und RCTs und erweitern das Verständnis der Evidenzhierarchie um eine wichtige Facette.

Erstmal werden unter dem Begriff non-randomised studies of interventions (NRSI) häufig alle Studien zusammengefasst, in denen die Zuteilung zur Intervention nicht durch Randomisierung erfolgt.⁵ Dazu gehören einerseits klassische Beobachtungsstudien wie Kohorten- oder Fall-Kontroll-Studien (die kennen wir schon, siehe oben), andererseits aber auch quasi-experimentelle Untersuchungen.⁵ Zu diesen zählen insbesondere nicht-randomisierte kontrollierte Studien (NRCTs), Vorher-Nachher-Studien, unterbrochene Zeitreihen sowie Studien mit historischen Kontrollen.⁵

Hier mal ein kurzer Überblick über mögliche quasi-experimentelle Designs [vgl. dazu Higgins et al. (2019)]

  • NRCTs: Hier werden Teilnehmende einer Interventions- oder Kontrollgruppe zugeteilt, aber nicht per Zufall. Die Zuteilung kann z. B. nach Geburtsdatum, Klinikzugehörigkeit oder Patientenpräferenz erfolgen. Es gibt also eine Vergleichsgruppe, aber die fehlende Randomisierung erhöht das Risiko für systematische Unterschiede zwischen den Gruppen.
  • Vorher-Nachher-Studien: In diesem Design wird eine einzige Gruppe von Teilnehmenden vor und nach Einführung einer Intervention untersucht. Man vergleicht also Messwerte „vorher“ mit Messwerten „nachher“.
    • Vorteil: Veränderungen lassen sich direkt beobachten.
    • Nachteil: Es fehlt eine parallele Kontrollgruppe, sodass andere Einflüsse (z. B. zeitliche Trends) die Ergebnisse verzerren können.
  • Unterbrochene Zeitreihen: Hier werden mehrere Messzeitpunkte vor und nach einer Intervention analysiert. Dadurch lässt sich nicht nur ein Vorher-Nachher-Vergleich ziehen, sondern auch prüfen, ob sich der Trend der Daten nach der Intervention verändert. Dieses Design gilt als besonders stark unter den quasi-experimentellen Ansätzen, weil es zeitliche Muster berücksichtigt.
  • Studien mit historischen Kontrollen: Bei diesem Ansatz wird eine aktuelle Interventionsgruppe mit einer früheren Patientengruppe verglichen, die die Intervention nicht erhalten hat. Die Kontrollgruppe stammt also aus der Vergangenheit.
    • Vorteil: Es gibt eine Vergleichsbasis.
    • Nachteil: Veränderungen in Versorgung, Diagnostik oder Patient:innenmerkmalen über die Zeit können die Ergebnisse verzerren.

Betrachtet man eine klassische Evidenzpyramide, werden solche Quasi-Experimente unterhalb der RCTs eingeordnet, da sie anfälliger für Verzerrungen (Bias) sind.⁵ Aber Achtung!☝️ Wir wissen, dass diese starre Hierarchie allein vermutlich nicht ausreicht: Entscheidend sind, neben Level und dem Risiko für Verzerrungen, weitere Faktoren, wie die methodische Qualität.2,4,5 

Fazit: Dein Rüstzeug fürs kritische Lesen

Die Evidenzpyramide ist mehr als eine akademische Übung; sie ist ein unverzichtbares Werkzeug für kritisches Denken. Sie lehrt uns, dass die methodische Qualität einer Studie der entscheidende Faktor für ihre Aussagekraft ist. Die moderne, flexible Sichtweise, verkörpert durch den GRADE-Ansatz und das „Linsen-Modell“, erinnert uns daran, dass wir über einfache Labels hinausschauen und die tatsächliche Vertrauenswürdigkeit einer wissenschaftlichen Aussage hinterfragen müssen.

Wenn du das nächste Mal auf eine „neue Studie“ stößt, nutze dieses Wissen als dein persönliches Rüstzeug und frage dich:

  • Wo auf der Pyramide steht diese Studie? Handelt es sich um eine unkontrollierte Beobachtung oder ein robustes Experiment?

  • Gab es eine Vergleichsgruppe? Womit wurde die neue Behandlung verglichen?

  • Wie wurde die Studie durchgeführt? Gibt es offensichtliche Schwächen, die das Ergebnis verzerren könnten (Bias)?

  • Ist dies das letzte Wort? Eine einzelne Studie ist immer nur ein Puzzleteil. Erst eine systematische Übersicht kann ein größeres Bild zeigen.

Referenzen zu "Evidenz-Pyramide"

  1. Chen, Y. N., & Chi, C. C. (2023). Levels of evidence and study designs: A brief introduction to dermato-epidemiologic research methodology. Dermatologica Sinica, 41(4), 199-205.
  2. Murad, M. H., Asi, N., Alsawas, M., & Alahdab, F. (2016). New evidence pyramid. BMJ Evidence-Based Medicine, 21(4), 125-127.
  3. Vatkar, A., Kale, S., Shyam, A., & Srivastava, S. (2025). Understanding the Levels of Evidence in Medical Research. Journal of orthopaedic case reports, 15(5), 6.
  4. Kirmayr, M., Quilodrán, C., Valente, B., Loezar, C., Garegnani, L., & Franco, J. V. A. (2021). The GRADE approach, Part 1: how to assess the certainty of the evidence. Medwave, 21(02).
  5. Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, Welch VA, editors. (2019). Cochrane Handbook for Systematic Reviews of Interventions. 2nd Edition. Chichester (UK): John Wiley & Sons

Weiterführende Referenzen

  • Tenny S, Varacallo MA. Evidence-Based Medicine. [Updated 2024 Sep 10]. In: StatPearls [Internet]. Treasure Island (FL): StatPearls Publishing; Available from: https://www.ncbi.nlm.nih.gov/books/NBK470182/
  • Netzwerk Evidenzbasierte Medizin e.V. Arbeitsmaterialien. EBM-Netzwerk. https://www.ebm-netzwerk.de/de/service-ressourcen/ebm-basics/arbeitsmaterialien
  • OpenMD. Levels of evidence in medical research. OpenMD. https://openmd.com/guide/levels-of-evidence

Bleib up to date

*erforderliches Feld

😎🔬 Frische Wissenschaft direkt zu Dir – Entdecke jeden Monat persönlich ausgewählte Erkenntnisse aus Sportwissenschaft, Sportmedizin, Ernährung oder verwandten Themengebieten. Du bekommst die neuesten wissenschaftlichen Artikel vor allen anderen, jeweils präsentiert als Zusammenfassung.

📬 Deine monatliche Dosis – Erhalte monatliche Erinnerungen zu unterschiedlichen Beiträgen.

Informationen zum Anmeldeverfahren, Versanddienstleister, statistischer Auswertung und Widerruf findest du in meinen Datenschutzbestimmungen

Um den Newsletter und die Beitragsbenachrichtigung für dich interessant zu gestalten, erfasse ich statistisch welche Links die Nutzer in dem Newsletter bzw. der Beitragsbenachrichtigung geklickt haben. Mit der Anmeldung erklärst du dich mit dieser statistischen Erfassung einverstanden.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Nach oben scrollen