Einsatz von Large Language Models in der Anästhesie und Intensivmedizin
- Open Access
- 01.06.2025
- Künstliche Intelligenz
- DFP-Fortbildung
Einleitung
Die rasante Entwicklung großer Sprachmodelle („Large Language Models“, LLMs) wie GPT‑4 hat in kurzer Zeit ein enormes Interesse in der Medizin geweckt – nicht zuletzt in Anästhesie und Intensivmedizin. Diese Systeme, die auf „künstlicher Intelligenz“ basieren, sind in der Lage, komplexe Texte zu generieren, Zusammenhänge zu „erfassen“ und auf unterschiedlichste medizinische Fragestellungen zu antworten. LLMs sind Teil einer übergeordneten Klasse von AI-Algorithmen, sogenannter „Foundation Models“, die auf enorm großen, allgemeinen Datensätzen vortrainiert, vielseitig einsetzbar sind und für spezifische Aufgaben in der Folge feinjustiert werden können.
Erste Anwendungsbeispiele reichen von automatisierten Arztbriefen über Unterstützung bei der klinischen Entscheidungsfindung bis hin zur Analyse großer Datensätze aus elektronischen Gesundheitsakten. Der eigentliche Durchbruch dieser Technologie setzte in den letzten Jahren mit der Einführung sogenannter „Transformer-Modelle“ ein – einer fortschrittlichen Form des „Deep Learning“, die auf Selbstaufmerksamkeit („self-attention“) basiert und besonders gut mit sequenziellen Eingaben wie natürlicher Sprache umgehen kann [1].
Trotz aller Begeisterung sind auch kritische Stimmen laut geworden. Fragen nach Datensicherheit, inhaltlicher Genauigkeit, Bias und juristischer Verantwortung sind wesentlich – vor allem im hochsensiblen Bereich der perioperativen Medizin. Diese Übersicht soll daher nicht nur das Potenzial von LLMs aufzeigen, sondern auch aktuelle Grenzen benennen und einen realistischen Blick auf den möglichen Einsatz in Anästhesie und Intensivmedizin werfen.
Ziel ist es, einen kompakten Überblick über den aktuellen Stand der Technik, praktische Anwendungsfelder, Stärken und Limitationen zu geben – und dabei die Frage zu beleuchten: Wie können und werden wir diese Technologie sinnvoll und verantwortungsvoll in unsere tägliche Arbeit integrieren?
Technologische Grundlagen großer Sprachmodelle
Große Sprachmodelle wie GPT‑4, Claude oder Gemini basieren auf sogenannten Transformer-Architekturen [1] – einer Form des „Deep Learning“, die speziell für sequenzielle Daten wie Sprache entwickelt wurde. Das Prinzip dahinter ist einfach formuliert: Das Modell „lernt“ auf Basis riesiger Textmengen (z. B. Bücher, Internetseiten, wissenschaftliche Artikel) vorherzusagen, welches Wort wahrscheinlich als nächstes folgt. Daraus entsteht ein System, das nicht nur plausible, sondern oft auch inhaltlich überzeugende Antworten generiert.
Ein wesentliches Merkmal moderner LLMs ist ihre Skalierung: GPT‑4 etwa verfügt über Hunderte Milliarden Parameter – „Gewichte“, die im Training angepasst wurden, um sprachliche Zusammenhänge zu modellieren. In Kombination mit sogenannten „Attention“-Mechanismen erlaubt das eine erstaunlich präzise Kontextverarbeitung – auch für längere Texte. („Attention“ bezeichnet die Fähigkeit des Modells, beim Verarbeiten eines Wortes gezielt auf andere relevante Wörter im Satz oder Text „zu achten“, um den Zusammenhang besser zu verstehen.)
Für medizinische Anwendungen besonders relevant ist die Fähigkeit dieser Modelle, nicht nur einfache Fakten zu reproduzieren, sondern auch Texte zu strukturieren, komplexe klinische Informationen zu verdichten und bei Bedarf in Dialogform zugänglich zu machen. Damit eröffnen sich Einsatzmöglichkeiten, die über klassische Entscheidungshilfen hinausgehen – von der Generierung individualisierter Patient:innenaufklärungen bis zur automatisierten Analyse aller Freitexte einer elektronischen Krankengeschichte (Electronic Health Record, EHR).
Stärken und Schwächen von LLMs im medizinischen Kontext
Die Einsatzmöglichkeiten großer Sprachmodelle in der Medizin wirken auf den ersten Blick beeindruckend: Innerhalb weniger Sekunden können Texte zusammengefasst und generiert werden, komplexe medizinische Konzepte erklärt oder sogar klinische Empfehlungen formuliert werden. Studien zeigen, dass aktuelle, nicht für Medizin optimierte Modelle wie GPT‑4 in medizinischen Prüfungen, z. B. USMLE (United States Medical Licensing Examination), Ergebnisse erzielen, die teils über den Durchschnittsergebnissen medizinischer Studierender liegen [2].
Zu den Stärken von LLMs zählen:
-
Kontextsensitives Textverständnis und -generierung.
-
Anpassungsfähigkeit durch sog. „Few-Shot“- oder „Zero-Shot“-Lernen: Der Algorithmus kann neue Aufgaben mit wenigen oder ganz ohne Beispiele bewältigen, z. B. durch Nachahmung von Mustern in der Eingabe.
-
Sprachliche Vielseitigkeit.
-
Skalierbarkeit: die Fähigkeit des Modells, große Mengen an Anfragen zu bearbeiten – ohne „Ermüdung“, Verzögerung oder Qualitätsverlust.
Allerdings existieren auch bedeutsame Schwächen:
-
Sog. „Halluzinationen“: plausible, aber faktisch falsche Aussagen [3].
-
Mangelnde Transparenz in der Herleitung von „Erkenntnissen“: „Black Box“-Charakter.
-
Fehlender Datenbezug zu Patient:innendaten: Das Modell kennt ggf. keine detaillierten klinischen Informationen über einzelne Patient:innen, weil es nicht mit elektronischen Gesundheitsakten oder Monitoring-Systemen direkt verbunden ist.
-
Reproduktion von Bias aus Trainingsdaten [4]: Das Modell übernimmt unbewusst Verzerrungen und Stereotype, die in den verwendeten Quellen enthalten sind – etwa in Bezug auf Geschlecht, Ethnie oder Krankheitsbilder.
Für die sichere Anwendung in der Anästhesie und Intensivmedizin sind daher eine kritische Reflexion und kontrollierte Implementierung/Zertifizierung mit kritischer Berücksichtigung dieser Schwächen essenziell.
Es sei jedoch angemerkt, dass auch menschliche Ärzt:innen vor ähnlichen Herausforderungen nicht gefeit sind: Kognitive Verzerrungen, Fehleinschätzungen oder die unbewusste Reproduktion von gesellschaftlichen Stereotypen gehören ebenso zur klinischen ärztlichen Realität. Der entscheidende Unterschied liegt darin, dass wir bei menschlichen Entscheidungen – idealerweise – über ein gemeinsames ethisches, professionelles und rechtliches Korrektiv verfügen.
Dokumentation und Kommunikation
Ein zentrales Einsatzfeld für LLMs in der klinischen Praxis ist die Unterstützung bei der Dokumentation. Nicht zuletzt auch in der Anästhesie und Intensivmedizin ist die administrative Belastung durch strukturierte Patient:innen-Dekurse, Eingriffsprotokolle, Übergabedokumentationen und Qualitätssicherungsberichte hoch. LLMs können helfen, diese Prozesse zu beschleunigen und zu vereinfachen – etwa durch automatisierte Textvorschläge basierend auf Stichpunkten oder durch Umwandlung gesprochener Dialoge in der Anästhesie-Ambulanz in strukturierte Texte. Erste Anwendungen zeigen, dass LLMs problemlos in der Lage sind, aus Rohtexten strukturierte Arztbriefe zu generieren [5]. Auch bei der Formulierung personalisierter präoperativer Aufklärungstexte oder patientenverständlicher Erklärungen von Entlassungsbriefen und Krankengeschichten werden Sprachmodelle künftig eine Rolle spielen [6]. Ein weiteres Einsatzfeld ist die semantische Suche in EHR-Systemen zur Identifikation relevanter Informationen aus Freitextfeldern.
Darüber hinaus könnte der Einsatz von LLMs langfristig auch zur Optimierung von Qualitätsindikatoren und zur Abrechnungsdokumentation beitragen [7] – insbesondere im Rahmen wertorientierter Versorgungskonzepte (i.e. Value-Based Healthcare). Während bisherige Systeme auf regelbasierten oder klassischen NLP-Ansätzen („Natural Language Processing“) beruhten, haben moderne Sprachmodelle das Potenzial, zusätzliche relevante Datenpunkte aus Freitexten zu extrahieren, die für Qualitätssicherung und Vergütung entscheidend sind. Zukünftige Studien müssen klären, ob durch den gezielten Einsatz von LLMs eine tatsächliche Verbesserung der Dokumentationsqualität und -konformität erreicht werden kann – nicht zuletzt auch im Hinblick auf wirtschaftliche Effizienz und nachhaltige Versorgungsstrukturen.
Klinische Entscheidungsunterstützung
Die vielleicht ambitionierteste, aber zugleich riskanteste Anwendung von LLMs liegt in der klinischen Entscheidungsunterstützung („Clinical Decision Support“, CDS). Studien zeigen, dass GPT‑4 in der Lage ist, bei typischen perioperativen Fragestellungen, wie Beatmungsstrategien, Kreislaufmanagement oder Sedierungsregimen, meist sinnvolle und plausible Empfehlungen abzugeben [3]. Auch Differenzialdiagnosen auf Basis klinischer Vignetten werden korrekt eingeordnet, allerdings mit Schwankungen in Tiefe und Präzision.
Eine technisch bedingte Limitation ist dabei die Konsistenz: Auf identische Fragen liefert das Modell nicht immer inhaltlich identische Antworten. Zudem fehlt meist der Zugang zu individuellen Patient:innendaten, also die Anbindung der Systeme an Patient:innendaten-Managementsysteme und Electronic-Health-Record-Systeme aufgrund rechtlicher und organisatorischer Hürden. Dennoch existieren realistische Szenarien, etwa als Second-Opinion-System, zur Trendanalyse in Verlaufsdokumentationen oder zur strukturierten klinischen Übergabe.
Der Einsatz großer Sprachmodelle als CDS wirft aber unweigerlich auch juristische Fragen auf, insbesondere in Bezug auf Verantwortung und Haftung. Aktuell gelten LLMs nicht als medizinische Produkte im Sinne der EU-Medizinprodukteverordnung und verfügen in der Regel über keine Zulassung für klinische Entscheidungsprozesse. Auch datenschutzrechtlich bestehen große Hürden, insbesondere wenn sensible Patient:innendaten in Cloud-basierte LLM-Systeme eingespeist würden – was in der klinischen Praxis tunlichst zu unterlassen ist.
Lehre und Fortbildung
Ein besonders praxisnaher Einsatzbereich von LLMs ist die Aus- und Weiterbildung in der Anästhesie und Intensivmedizin. In mehreren Studien wurde die Leistungsfähigkeit von GPT‑4 im Kontext von Facharztprüfungssimulationen untersucht – mit erstaunlichen Ergebnissen [2].
LLMs können in diesem Setting als interaktive Lernpartner eingesetzt werden, zur Erklärung komplexer Inhalte oder zur Simulation klinischer Vignetten. Auch im klinischen Alltag können LLMs hilfreich sein, etwa für das Auffinden seltener Krankheitsbilder oder Optimierung von Medikamentengabe.
Fazit und Ausblick
Große Sprachmodelle wie GPT‑4 markieren einen Paradigmenwechsel in Anästhesie und Intensivmedizin. Ihre Fähigkeit, Sprache zu „verstehen“ und zu generieren, eröffnet vielfältige Anwendungsmöglichkeiten: von der Unterstützung bei Dokumentation und Kommunikation über assistive Funktionen in der klinischen Entscheidungsfindung bis hin zur individualisierten medizinischen Fortbildung.
Gleichzeitig muss man die bestehenden Limitationen bedenken: „Halluzinationen“, fehlende Nachvollziehbarkeit, mangelnde Integration in klinische Systeme und potenzielle ethische sowie rechtliche Risiken machen deutlich, dass LLMs zum jetzigen Zeitpunkt noch keine eigenständigen medizinischen Entscheidungen treffen können und sollen.
Für Anästhesist:innen und Intensivmediziner:innen bedeutet das: Die Auseinandersetzung mit diesen Technologien ist nicht optional, sondern notwendig!
Wer die Potenziale erkennt und verantwortungsvoll nutzt, wird in naher Zukunft nicht nur die eigene Arbeitsbelastung reduzieren, sondern auch Qualität und Sicherheit der Patient:innenversorgung verbessern. Oder, um es in Abwandlung eines bekannten Zitats über „artificial intelligence“ (AI) etwas provokant zu postulieren: „LLMs werden Anästhesist:innen und Intensivmediziner:innen nicht ersetzen – aber in Zukunft werden Anästhesist:innen und Intensivmediziner:innen, die zertifizierte LLM-Medizinprodukte nicht nutzen, ersetzt werden“.
Interessenkonflikt
O. Kimberger, N. Rodemund und M. Maleczek geben an, dass kein Interessenkonflikt besteht.
Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article's Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article's Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by/4.0/.
Hinweis des Verlags
Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.