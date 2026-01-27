Zum Inhalt

rheuma plus

Digitale Diagnoseunterstützung seltener rheumatologischer Erkrankungen: Evidenz und Perspektiven

  • Open Access
  26.01.2026
  • Originalien
Verfasst von
Phillip Kremer
Martin Krusche
Johannes Knitza
Erschienen in
rheuma plus
INHALT
Zusammenfassung

Seltene rheumatische Erkrankungen sind aufgrund ihrer komplexen und oft atypischen Krankheitssymptome herausfordernd in der Diagnosestellung. Entstehende diagnostische Verzögerungen sind häufig mit relevanten Folgen für Morbidität und zusätzlichen Kosten assoziiert. Klassische digitale diagnostische Entscheidungshilfen (englisch: „diagnostic decision support systems“, DDSS) konnten diese Lücke bisher nur begrenzt schließen. Große Sprachmodelle („large language models“, LLM) hingegen unterscheiden sich in ihrer Funktionsweise grundlegend, da sie Freitext verarbeiten, das Stellen von einfachen Fragen ermöglichen und multimodale Informationen verarbeiten können. Dabei entsteht zunehmende Evidenz, dass LLM konventionellen DDSS in verschiedenen Bereichen überlegen zu sein scheinen. Die vorliegende Übersichtsarbeit ordnet die aktuelle Evidenzlage ein, diskutiert Nutzen und Risiken in der rheumatologischen Versorgung und skizziert Voraussetzungen für eine sichere Implementierung in klinische Workflows, einschließlich regulatorischer und ethischer Aspekte.
QR-Code scannen & Beitrag online lesen

Einleitung

Weltweit sind rund 7000 seltene Erkrankungen bekannt, die Millionen Menschen betreffen, darunter viele systemische rheumatische und muskuloskelettale Erkrankungen [9, 13]. Aufgrund ihrer heterogenen und häufig atypischen Präsentation ist die rechtzeitige Diagnosestellung mitunter herausfordernd [28]. Schwierigkeiten in der Diagnosestellung werden durch eine zunehmende Prävalenz rheumatologischer Erkrankungen, nach aktuellen Schätzung rund 3 %, weiter verkompliziert [1]. Eine frühe und korrekte Diagnosestellung ist umso entscheidender, da diese irreversible Schäden verhindern, Risiken und Kosten unnötiger diagnostischer und therapeutischer Maßnahmen senken und die Diagnoselatenz reduzieren kann [3].
Diagnostische Entscheidungsunterstützungssysteme („diagnostic decision support systems“, DDSS) sollen Patient:innen sowie medizinisches Personal durch die Bereitstellung von Diagnosevorschlägen unterstützen. Insbesondere im Bereich der seltenen Erkrankungen können DDSS gute diagnostische Einschätzungen bieten [16] und weisen ein vergleichbares Potenzial wie erfahrene Rheumatolog:innen auf [14]. Dennoch ist die Nutzung von DDSS in der klinischen Praxis weiterhin begrenzt [18]. Zentrale Hürden sind eine geringe Benutzerfreundlichkeit, die häufig zeitaufwendige Dateneingaben erfordert [19], sowie das Fehlen interaktiver Dialogfähigkeiten [25].
LLMs ermöglichen flexible, interaktive Dialoge mit schneller Verarbeitung unstrukturierter Daten
An dieser Stelle könnten große Sprachmodelle („large language model“, LLM) für die bestehenden Limitationen eine vielversprechende Lösung darstellen [7]. Große Sprachmodelle ermöglichen flexible, interaktive Dialoge mit schneller Verarbeitung multimodaler unstrukturierter Daten und können so die Nutzbarkeit gegenüber klassischen DDSS erhöhen [27]. Frühe Studien deuten auf Vorteile bei Geschwindigkeit, Bedienbarkeit und diagnostischer Leistung hin [10]. Ein direkter Vergleich von traditionellen DDSS und LLM anhand publizierter und nichtpublizierter Fallvignetten ist daher unabdingbar.

Direktvergleich von LLM und traditionellen DDSS

In einer kürzlicher veröffentlichen Arbeit verglichen Kremer et al. [20] 4 allgemeine LLM (Claude 3.5 Sonnet [Anthropic PBC, San Francisco, Vereinigte Staaten], ChatGPT-4o [OpenAI, L.L.C, San Francisco, Vereinigte Staaten], Gemini 1.5 Pro [Google LLC, Moutain View, Vereinigte Staaten], Llama 3.3 [Meta Platforms, Inc., Menlo Park, Vereinigte Staaten]) mit 3 gängigen DDSS (Symptoma [Symptoma GmbH, Wien, Österreich], Ada [Ada Health GmbH, Berlin, Deutschland], Isabel DDx [Isabel Healthcare, Ann Arbor, Vereinigte Staaten]) anhand von 60 Vignetten seltener Erkrankungen, darunter 50 Fälle aus der Literatur und 10 unveröffentlichte Real-world-Fälle. Dies ist der erste direkte Vergleichsarbeit zum Nutzen von DDSS und LLM in der Rheumatologie. Die Charakteristika der Vignetten umfassten folgende Krankheitsgruppen: Kollagenosen (13/60, 21,6 %), Vaskulitiden (11/60, 18,3 %), autoinflammatorische Erkrankungen (9/60, 15,0 %), Immundefektsyndrome (5/60, 8,3 %), Speichererkrankungen (5/60, 8,3 %) und Differenzialdiagnosen (17/60, 28,3 %). Dabei waren 63,3 % Frauen mit einem medianen Alter von 41 Jahren.
Diagnosevorschläge (bis zu 5 pro Fall) wurden durch rheumatologische Fachärzt:innen verblindet bewertet: LLM identifizierten etwa 4‑mal häufiger die korrekte Topdiagnose als DDSS (35,0 % vs. 8,9 %; p < 0,001) (Abb. 1). Claude 3.5 Sonnet erwies sich als das leistungsstärkste System und erzielte den höchsten Anteil korrekter Diagnosen (insgesamt Top 1: 40,0 %, Top 5: 60,0 %), dicht gefolgt von ChatGPT-4o (insgesamt Top 1: 38,3 %, Top 5: 58,3 %) (Abb. 1). Das System mit der schlechtesten Leistung war Isabel DDx mit dem niedrigsten Anteil identischer Diagnosen (insgesamt Top 1: 10,0 %, Top 5: 20,0 %).
Claude 3.5 Sonnet erzielte den höchsten Anteil korrekter Diagnosen
Bemerkenswert war, dass das lokal betreibbare Open-source-Modell Llama 3.3 alle getesteten DDSS übertraf. Der Informationsumfang erwies sich als stärkster Prädiktor für eine exakte Diagnose: Die Ergänzung um Labor- und Bildgebung verbesserte die Treffergenauigkeit deutlich, während komplexes Prompten („promt engeneering“) gegenüber einem einfachen, standardisierten Prompt kaum zusätzlichen Nutzen erbrachte. Insgesamt benötigten die LLM für die Bereitstellung von Diagnosevorschlägen deutlich weniger Zeit als die herkömmlichen DDSS (20 s/Fall vs. 189 s/Fall).

Diskussion

Die Anwendung von LLM in der Medizin gewinnt an immer größer werdender Bedeutung. Es existieren zunehmende kontrollierte, standardisierte Vergleiche verschiedener Modelle, die in bis zu 95 % auf Fallvignetten zurückgreifen und größtenteils die Diagnosegenauigkeit erfassen [4]. Insgesamt bilden vignettenbasierte Studien die Komplexität der realen Versorgung jedoch nur eingeschränkt ab, sodass diese Daten nur bedingt generalisierbar sind: In der alltäglichen medizinischen Praxis variieren Datenqualität, Komorbiditäten, Vorbefunde und Interaktionen mit den Systemen, was die diagnostische Leistung beeinflussen kann.
In einer aktuellen Studie von Jakobi et al. zeigte sich, dass das gezielt für Rheumatologie entwickelte DDSS „Rheumatic?“ eine gute Benutzerfreundlichkeit, insbesondere bei jüngeren Patient:innen, bei allerdings eher geringer Akzeptanz aufwies [17]. Weiterhin existieren spezialisierte DDSS für „rare diseases“, darunter PheLR [29] und RDmaster [30], die phänotypische und genetische Informationen integrieren und in bestimmten Szenarien Vorteile zeigen [23].
In der pädiatrischen Rheumatologie konnte die Nutzung von DDSS durch Ärzt:innen die Anzahl an Diagnosefehlern signifikant reduzieren [26]. Die Studie von Kremer et al. konnte zeigen, dass LLM, insbesondere Claude 3.5 Sonnet und Chat-GPT-4o, traditionelle und weit verbreitete DDSS sowohl hinsichtlich der diagnostischen Genauigkeit als auch der Zeiteffizienz bei komplexen klinischen Fallbeispielen für seltene Krankheiten deutlich übertreffen [20]. Insbesondere lokal verfügbare LLM (z. B. Llama), die in der Studie von Kremer et al. allen getesteten DDSS überlegen waren, könnten somit aufgrund ihrer Datenschutzkonformität einen relevanten klinischen Mehrwert bieten und möglicherweise leichter in den Klinikalltag implementiert werden [8].
Für die klinische Einführung ist eine regulierte Einbettung als Medizinprodukt notwendig
Die überlegene diagnostische Leistungsfähigkeit von LLM im Vergleich zu herkömmlichen DDSS steht im Einklang mit den Ergebnissen früherer Studien, in denen ChatGPT‑4 Isabel DDx und Ada bei der Bereitstellung der besten Diagnosevorschläge übertraf [5, 15]. Die von Kremer et al. beobachtete hohe Verarbeitungsgeschwindigkeit und Benutzerfreundlichkeit der LLM könnte ein entscheidender Faktor für die klinische Implementierung sein, da sich gezeigt hat, dass die erwartete Anstrengung (wahrgenommene Benutzerfreundlichkeit) ein entscheidender Faktor für die Akzeptanz von Technologien ist [21]. In der kürzlich erschienen, randomisierten AIDRARER-Studie erzielten Medizinstudierende, die ein LLM verwendeten, eine signifikant höhere diagnostische Genauigkeit beim Lösen rheumatologischer Fallvignetten als diejenigen, die herkömmliche Ressourcen nutzten [24]. Neben der Diagnoseunterstützung sind LLM darüber hinaus in der Lage, rheumatologische Diagnosen aus elektronischen Patientenakten präzise zu detektieren, was die Erstellung umfangreicher Krankheitsregister in jeder Sprache erleichtern und die Rekrutierung von Patient:innen für klinische Studien verbessern könnte [6].
Für die klinische Einführung ist eine regulierte Einbettung als Medizinprodukt mit Anforderungen an Sicherheit, Erklärbarkeit, Risikomanagement und Validierung in repräsentativen Kollektiven notwendig. Darüber hinaus ist eine klare Transparenz gegenüber Patient:innen sowie zur Datenverarbeitung und -speicherung notwendig [12]. In diesem Zusammenhang ist das kürzlich CE-zertifizierte Tool „Prof. Valmed®“, das erste KI-gestützte Tool mit Einbindung eines LLM zur klinischen Entscheidungsunterstützung, von besonderem Interesse. Mit der KI-gestützten Medizin‑, Such- und Entscheidungsplattform OpenEvidence (OpenEvidence, Inc, Miami, Vereinigte Staaten) steht Nutzer:innen ein weiteres kostenfreies Tool zur Verfügung, wobei OpenEvidence jedoch einschränkend über keine Zulassung als Medizinprodukt bisher verfügt. Weitere Herausforderungen der zunehmenden LLM-Nutzung und Implementierung sind die Gefahr von „Halluzinationen“ (Halluzination bezeichnet eine Situation, in der die generierte Ausgabe ungenaue oder nichtfaktenbasierte Informationen enthält), ein möglicher Mangel an fundierter Evaluation des jeweiligen LLM, die Notwendigkeit einer kontinuierliche Implementierung der neuesten Evidenz sowie letztlich ethische und Sicherheitsbedenken bei Eingabe sensibler Patient:innendaten [22].

Ausblick

Künstliche Intelligenz besitzt das Potenzial, die medizinische Versorgung zu revolutionieren. In der Rheumatologie können LLM unter anderem zur Verkürzung der Diagnoselatenz und gleichzeitig zur Verbesserung der Diagnosequalität seltener rheumatologischer Erkrankungen beitragen. Zukünftig geben immer leistungsfähigere lokal einsetzbare LLM wie Llama Hoffnung auf eine realisierbare sichere Datenintegration von LLM in den klinischen Alltag. Die vorliegenden Daten deuten auf einen Vorteil von LLM gegenüber verbreiteten DDSS bei gleichzeitiger Zeitersparnis hin. Der Mehrwert für die klinische Praxis wird sich jedoch erst in Real-world-Szenarien zeigen müssen.
Die Integration von LLM in digitale Gesundheitsakten könnte perspektivisch eine automatische Krankheitserkennung ermöglichen [11]. Darüber hinaus könnte die Kombination mit „retrieval-augmented generation“ (RAG) und datengetriebenen Vorhersagemodellen die manuelle Dateneingabe reduzieren und die diagnostische Leistung weiter verbessern [2]. Bei der RAG wird ein LLM mit einer externen Informationsquelle (z. B. eine bestimmte Internetdomaine) kombiniert, ohne dass das Model neu trainiert werden muss, was die Leistungsfähigkeit steigern soll. Weiterführende prospektive, multizentrische Studien mit der Evaluation patientenzentrierter Endpunkte, wie Zeit bis zur gesicherten Diagnose, Therapieeinleitung, klinische Outcomes und Kosteneffektivität, sind erforderlich.
Abb. 1
Prozentualer Anteil der Vignetten mit identischer (dunkle Farben) oder plausibler (helle Farben) Diagnose als ersten Vorschlag (grün) und innerhalb der 5 Vorschläge (orange; a), Gesamtdiagnosewerte gemäß DDSS (b) und durchschnittliche (SD) Fallbearbeitungszeit pro Fall (c) aller Fälle. (Nach [20])
Einhaltung ethischer Richtlinien

Interessenkonflikt

P. Kremer, M. Krusche und J. Knitza geben an, dass kein Interessenkonflikt besteht.
Für diesen Beitrag wurden von den Autor/-innen keine Studien an Menschen oder Tieren durchgeführt. Für die aufgeführten Studien gelten die jeweils dort angegebenen ethischen Richtlinien.
Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden. Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen. Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://creativecommons.org/licenses/by/4.0/deed.de.

Titel
Digitale Diagnoseunterstützung seltener rheumatologischer Erkrankungen: Evidenz und Perspektiven
Verfasst von
Phillip Kremer
Martin Krusche
Johannes Knitza
Publikationsdatum
26.01.2026
Verlag
Springer Vienna
Erschienen in
rheuma plus
Print ISSN: 1868-260X
Elektronische ISSN: 2191-2610
DOI
https://doi.org/10.1007/s12688-025-00922-4
