Haut-Screening-Apps in der klinischen Praxis
Ein Vergleich der diagnostischen Genauigkeit konventioneller Diagnosestrategien vs. Diagnostik mit KI-Unterstützung
- Open Access
- 27.05.2025
- Künstliche Intelligenz
- Originalie
Zusammenfassung
Prinzipien künstlicher Intelligenz in Haut-Screening-Apps
Ein grundlegendes Verständnis der Prinzipien der künstlichen Intelligenz (KI) in Haut-Screening-Apps (HSA) erfordert Kenntnisse in den Bereichen „image processing“ und der Zuordnung gegebener Informationen zu analysierten Bildern.
Computer Vision
Computer Vision (CV) erfüllt Aufgaben wie Objektklassifizierung, -lokalisierung und -detektion mit dem Ziel, Bildinhalte richtig wiederzugeben. Durch die Entwicklung der letzten Jahre entstanden CNNs, die eine effiziente Bildverarbeitung ermöglichen [1]. CV-Tools verwenden u. a. folgende Konzepte der KI: „image recognition“, „object detection“, „image classification“ und „segmentation“. Die „image recognition“ arbeitet mit den Prinzipien „Bilderfassung“, „Bildvorverarbeitung“, „Merkmalsextraktion“, „Klassifikation und Entscheidungsfindung“ und der „strukturellen Mustererkennung“. Die Bildauflösung beeinflusst zudem die Qualität einer effektiven Bilderkennung, weshalb verzerrte Bildbereiche die Analyse erschweren können [2]. Bei der „object detection“ wird ein merkmalbasierter Ansatz verwendet, welcher anhand von Eigenschaften, wie „Farbe“, „Textur“, oder dem „optischen Fluss“, Objekte beschreibt. Diese Anwendung funktioniert gut bei Bildern mit einfachen Hintergründen und klar abgegrenzten Objekten. Eine genaue Detektion wird erschwert, wenn sich die Pixel von Objekt und Hintergrund nicht, oder nur geringfügig unterscheiden und sich Objekte gegenseitig verdecken. Diese Problematik erhöhte das Interesse an der Tarnobjekterkennung und -segmentierung [3]. Die Einteilung von Bildern in vordefinierte Kategorien ermöglicht die „image classification“. Hierfür wurden fortlaufend neue Datensätze, wie beispielsweise „AlexNet“ [4], „ResNet“ [5] und „SENet“ [6], entwickelt. Die Weiterentwicklung von Datensätzen ermöglichte Fortschritte in den Bereichen Deep Learning, Data Augmentation, führte zur Entwicklung tieferer Netzwerke mit mehreren Schichten, was insgesamt in einer verbesserten Klassifikationsgenauigkeit und Effizienz resultierte [2, 7]. Ein Erkennen von Objekten und deren Grenzen wird durch die „segmentation“ gewährleistet. Anders als die „object detection“ oder „image classification“ differenziert die „segmentation“ nicht zwischen individuellen Objektinstanzen, sondern erstellt Masken, die eine zweidimensionale räumliche Verteilung aufweisen. Die Einführung von CNNs führte zu einer Vereinfachung der semantischen Segmentierung, da diese Modelle präzise pixelweise Vorhersagen auf Grundlage umfangreicher vortrainierter Datensätze ermöglichen [7, 8].
Anzeige
Explainable AI
Der neue Ansatz der explainable AI (XAI), der erklärbaren KI, soll dazu dienen, das Vertrauen der Mediziner gegenüber den KI-basierten-Algorithmen zur Risikoeinschätzung von Hautneubildungen zu verbessern. Grundlegend ist hier die Lösung des Black-Box -Problems, welches die Intransparenz der KI-Algorithmen bei der Entscheidungsfindung beschreibt. Eine Umfrage aus dem Jahr 2019 ergab, dass 77,3 % der Befragten der Meinung waren, dass die KI die Dermatologie verbessern kann, während 5,5 % befürchten, dass sie von der KI ersetzt werden könnten [9]. Zudem wird das Vertrauen in die KI erhöht, wenn die Erklärungen der XAI mit den Einschätzungen der Kliniker übereinstimmen. Ein stärkeres Vertrauen in die eigenen Diagnosen wird durch die Verwendung von XAI erreicht. Beobachtet wurde, dass die Akzeptanz mit dem Grad der Übereinstimmung von KI-Erklärung und Beurteilung des Dermatologen korreliert. Die XAI verbessert im Vergleich zur konventionellen KI aber nicht die diagnostische Präzision. Eine erhöhte Akzeptanz und ein gesteigertes Vertrauen in KI-gestützte Systeme kann folglich neben der Unterstützung bei der Melanomdiagnostik erreicht werden [10].
Lernmethoden bei KI
Außerdem ist eine klare Abgrenzung der Begriffe Machine Learning, Deep Learning, CNNs, Transfer Learning und Feature Extraction essenziell. Machine Learning beschreibt die automatische Verbesserung von KI-Algorithmen durch Erfahrung und große Datensätze. Hierdurch wird es Algorithmen möglich, Vorhersagen und Entscheidungen auf Datengrundlage zu treffen, ohne eine hierfür explizite Programmierung zu erhalten [8]. Deep Learning als Unterform von Machine Learning basiert auf Artificial Neural Networks (ANNs) und Repräsentationslernen. ANNs imitieren in ihrem Design biologischen Netzwerke und sind als adaptives System zur Lernfähigkeit konzipiert. Qualitätskriterien der ANNs sind Anzahl und Struktur der neuronalen Schichten und Qualität der Trainingsdatensätze [8]. In den Bereichen der Bildverarbeitung und/-detektion in Dermatologie, Pathologie und Radiologie werden die CNNs als Unterform der ANNs verwendet. CNNs erreichen eine hohe diagnostische Genauigkeit, wenn diese mit hochwertigen und umfangreichen Bilddatensätzen trainiert werden. Bekannte Bilddatensätze, welche in der Dermatologie verwendet werden, sind beispielsweise HAM10000 [11], BCN20000 [12] und PH2 [13]. [8]. Transfer Learning ermöglicht durch die Verwendung bereits erworbenen Wissens eine höhere Effizienz beim Lösen verwandter, aber neuer Probleme. Spezifisch für das Transfer Learning ist die Anwendung von schon erlerntem Wissen aus anderen Hilfsdomänen, um die Vorhersagegenauigkeit für unterschiedliche Muster der Zieldomäne zu verbessern [14, 15]. Im Rahmen der Merkmalsauswahl werden bestehende Attribute identifiziert und genutzt, während bei der Merkmalsgenerierung vorhandene Merkmale modifiziert oder kombiniert werden, um neue Features zu erzeugen. Ziel der Feature Extraction ist es, ein Gleichgewicht zwischen Verringerung der Dimensionalität und dem Erhalt relevanter Informationen zu erreichen [16].
Diagnostische Genauigkeit und Verbreitungsgrad
Grundsätzlich kann zwischen Apps für den ärztlichen Gebrauch und solchen für Patienten unterschieden werden. Patientenbezogene Apps lassen sich wiederum in algorithmusbasierte und arztunterstützte Anwendungen untergliedern. Bei arztgestützten Anwendungen wird die Risikobewertung durch einen qualifizierten Arzt durchgeführt [17]. Die algorithmusbasierte, CE-zertifizierte App „SkinVision“ (Skin Vision B.V., 1033 Amsterdam, Niederlande) richtet sich an Patienten [18]. In Studien wurde sie hinsichtlich ihrer diagnostischen Genauigkeit validiert [19, 22]. Die in den Niederlanden entwickelte App verfolgt das Ziel, eine frühe Detektion von malignen Hautneoplasien zu gewährleisten, um in der Folge eine bestmögliche Hautkrebsversorgung einzuleiten. Bei den Anwendungen „Dermanostic“ (Dermanostic GmbH, 42699 Solingen, Deutschland) [23] und „onlinedoctor“ (OnlineDoctor 24 GmbH, 20459 Hamburg, Deutschland) [24] erfolgt die Risikobewertung durch ein Ärzteteam im Hintergrund, welches durch einen zusätzlich ausgefüllten Anamnesebogen zwischen Neoplasien und entzündlichen Erkrankungen unterscheiden kann [23]. Eine dritte Gruppe von Apps, welche für den Kliniker entwickelt wurde, wird durch Apps wie „DERManager“ (HEINE Optotechnik GmbH & Co. KG, 82205 Gilching, Deutschland) [25] der Firma „Heine“ [26] repräsentiert. Ärzten wird es hiermit ermöglicht, suspekte Läsionen oder Hautkrebsvorsorgeuntersuchungen zu dokumentieren. Primär kommt hier keine KI zum Einsatz. Der Kliniker kann jedoch eine integrierte KI als Zweitmeinung nutzen, die den zeitlichen Verlauf, der in den gescannten Bildern erfassten Nävi analysiert, um eine maligne Transformation zu diagnostizieren [25].
Wongvibulsin et al. [27] stellten in ihrer Querschnittsstudie fest, dass nur 24,4 % der identifizierten Apps diagnostische Fähigkeiten angaben, während keine von ihnen über unterstützende wissenschaftliche Veröffentlichungen verfügte. Nur zwei der 14 US-amerikanischen Apps informierten über eine fehlende FDA-Zulassung, während nur 2 der 14 europäischen Apps über eine CE-Zertifizierung verfügten. Lediglich 5 Apps basierten auf Publikationen, die ein Peer-Review-Verfahren durchlaufen hatten – darunter eine multizentrische, prospektive, diagnostische klinische Studie. 58,5 % der Apps (24 Apps) machten keine Angaben zu den verwendeten Trainings- oder Testdatensätzen. Die wenigen Apps, die solche Informationen lieferten, boten lediglich vage Beschreibungen, wie „Fotos“ oder „geschützte Daten“. Nur 6 Apps (14,6 %) erwähnten die Datenverfügbarkeit, wobei alle Datensätze aus öffentlich zugänglichen Quellen, wie dem ISIC-Archiv oder HAM10000 stammten und nicht von den App-Entwicklern selbst bereitgestellt wurden. Bei 51,2 % der Apps (21 Apps) fehlten Angaben zu den genutzten Algorithmen – ein Beleg für das erhebliche Transparenzdefizit in diesem Bereich [27].
Anzeige
Ein robustes Studiendesign wäre nötig, um die Genauigkeit und Sicherheit in der Praxis zu bewerten
Durch die rasche Entwicklung des maschinellen Lernens und CNNs entstanden zahlreiche Anwendungen zur algorithmusbasierten Erkennung von Hautneoplasien. Trotz der sich abzeichnenden Verbesserung von Spezifität (Sp) und Sensitivität (Sn) der App SkinVision [18] reicht die derzeitige Studienlage zu Apps wie SkinVision [18] oder SkinScan [28] nicht aus, um eine verlässliche Aussage über deren klinische Genauigkeit zu treffen. SkinVision verzeichnet die höchsten Downloadzahlen in dieser Kategorie [21], weshalb ihre diagnostische Genauigkeit in zahlreichen Studien untersucht wurde. Auf der Website von SkinVision wird angegeben, dass die App weltweit von 3 Mio. Nutzern verwendet wurde und insgesamt 5 Mio. Hautuntersuchungen durchgeführt wurden. Thissen et al. zeigten, dass die App eine Sn von 80 % und eine Sp von 78 % erreicht [22]. In der Studie von Udrea et al. erreichte die App eine Sn von 95,1 % und eine Sp von 78,3 % [29]. Deeks et al. beurteilten die Studie von Udrea kritisch. Die Schlussfolgerung ihrer Studie ist, dass die Wirksamkeit von SkinVision aufgrund methodischer Einschränkungen im Studiendesign überschätzt wurde. Die Studie von Udrea et al. überschätzt die Leistung von SkinVision, da sie weder die Zielgruppe (Laien) noch den tatsächlichen Kontext, in dem die App verwendet werden soll, realistisch widerspiegelt. Stattdessen beruhen die Ergebnisse auf klinisch ausgewählten Patientenkohorten und selektiven Daten von App-Nutzern, was zu systematischen Verzerrungen und unrealistisch hohen Werten für Sn und Sp führt. Ein robustes Studiendesign wäre notwendig, um die Genauigkeit und Sicherheit solcher Apps in der realen Praxis genau zu bewerten [19]. Es ist zu beachten, dass die Studienautoren A. Udrea und T.M. de Carvalho Berater für die SkinVision-App sind und die Studie von SkinVision finanziell unterstützt wurde [30]. Im Vergleich dazu haben Freeman et al. in ihrer systematischen Übersichtsarbeit die Ergebnisse der Studien zusammengefasst, die den Sp und Sn der SkinVision-App untersucht haben, und eine Sn von 80 % gefunden, mit einem Konfidenzintervall von 95 % und Ergebnissen zwischen 63 und 92 %. Außerdem konnte eine Sp von 78 % mit Ergebnissen von 67 bis 87 % ermittelt werden [20].
App versus Arzt
Die prospektive Studie von Jahn et al. [21] untersuchte die diagnostische Genauigkeit der SkinVision-App im Vergleich zu Dermatologen. Die abschließende Diagnose wurde, falls erforderlich, histopathologisch verifiziert. Die App klassifizierte 980 Hautläsionen (81 %) als benigne und 19 % als potenziell maligne. Im Gegensatz dazu diagnostizierten Dermatologen 1195 Läsionen (99,3 %) als benigne und nur 9 Läsionen (0,7 %) als verdächtig. Daraus ergibt sich, dass die CE-zertifizierte App eine 27-fach höhere Rate an „melanomverdächtig“ aufwies als Dermatologen. Des Weiteren zeigte die Studie, dass die diagnostische Genauigkeit mit der Erfahrung der Dermatologen steigt: Experten mit mehr als 5 Jahren Berufserfahrung erreichten eine 100 %ige Trefferquote sowohl für dysplastische Nävi (korrekte Klassifikation als benigne) als auch für Melanome (korrekte Klassifikation als verdächtig). Es wurde festgestellt, dass KI-gestützte Assistenz die Leistung weniger erfahrener Dermatologen verbessern kann, etwa durch eine Erhöhung der diagnostischen Genauigkeit bei melanozytären Nävi von 87 % auf 92 % [21].
Die prospektive Studie von Ngoo et al. [31] untersuchte die Fähigkeit von Smartphone-Apps zur Melanom-Risikobewertung im Vergleich zu speziell geschulten Dermatologen. Histopathologische Befunde wurden hier nicht zur Verifizierung herangezogen. Von 42 klinisch als verdächtig eingestuften Läsionen klassifizierten die Apps zwischen 9 und 26 als verdächtig. Bei den 15 klinisch benignen Läsionen wurden zwischen 3 und 15 korrekt als benigne erkannt. Die Sn und Sp der Apps im Vergleich zu den Einschätzungen der Spezialisten lagen zwischen 21 und 72 % bzw. zwischen 27 und 100 %. Außerdem konnten zwei Apps 14 % bzw. 18 % der eingesendeten Läsionen nicht analysieren [31].
Die diagnostische Leistung von KI war mit der von Dermatologie-Experten vergleichbar
Eine Metaanalyse von Salinas et al. zeigte, dass KI-Algorithmen eine Sn von 87,0 % und eine Sp von 77,1 % erreichten, während Kliniker eine Sn von 79,78 % und eine Sp von 73,6 % aufwiesen. Diese Unterschiede waren statistisch signifikant. Im Vergleich zu Allgemeinmedizinern zeigte sich ein deutlicher Leistungsunterschied: KI-Algorithmen erreichten eine Sn von 92,5 % und eine Sp von 66,5 %, während Allgemeinmediziner eine Sn von 64,6 % und eine Sp von 72,8 % erzielten. Die diagnostische Leistung von KI war hingegen mit der von Dermatologie-Experten vergleichbar (KI: Sn 86,3 %, Sp 78,4 %; Experten: Sn 84,2 %, Sp 74,4 %). Die Metaanalyse ergab ferner, dass die diagnostische Genauigkeit von KI und Allgemeinmedizinern signifikant unterschiedlich war (p < 0,001). KI erzielte eine Sn von 92,5 % (95 % CI 88,9–94,9 %) und eine Sp von 66,5 % (95 % CI 56,7–75,0 %), während Allgemeinmediziner eine Sn von 64,6 % (95 % CI 47,1–78,9 %) und eine Sp von 72,8 % (95 % CI 56,7–84,5 %) erreichten. Die Analyse zeigte zusätzlich, dass KI eine Sn von 85,4 % (95 % CI 78,9–90,2 %) und eine Sp von 78,5 % (95 % CI 70,6–84,8 %) erreichte, während „nichtexpertisierte Dermatologen“ eine Sn von 76,4 % (95 % CI 71,1–80,9 %) und eine Sp von 67,1 % (95 % CI 57,2–75,6 %) erzielten. Auch hier waren die Unterschiede statistisch signifikant (p < 0,001), was durch die ROC-Kurven bestätigt wurde. In der Metaanalyse zeigten „expertisierte Dermatologen“ als eigene Subgruppe eine Sn von 84,2 % (95 % CI 76,2–89,8 %) und eine Sp von 74,4 % (95 % CI 65,3–81,8 %), während KI eine Sn von 86,3 % (95 % CI 80,4–90,7 %) und eine Sp von 78,4 % (95 % CI 71,1–84,3 %) erreichte. Eine genauere Differenzierung zwischen „Nicht-Experten“ und „Experten Dermatologen“ wurde in der untersuchten Arbeit nicht beschrieben [32].
KI verbessert insbesondere die diagnostische Genauigkeit nichtdermatologischer Ärzte
Jahn et al. stellten 2022 außerdem fest, dass die untersuchte Applikation in einer ROC-Analyse im Vergleich zu histopathologischen Ergebnissen eine Fläche unter der Kurve (AUC) von 0,717, eine Sn von 0,83 und eine Sp von 0,6 erreichte [21].
Anzeige
In einer weiteren Untersuchung von Chuchu et al. [17] wurden Studien zitiert, die die diagnostische Genauigkeit von HSA im Vergleich zu histologischen Befunden bewerteten. Die vier analysierten Applikationen versagten bei der Diagnose von 7 bis 55 Melanomen aus insgesamt 86 Fällen. Die Analyse ergab zudem, dass Apps, bei denen Dermatologen die eingereichten Scans bewerteten, ein Melanom übersehen hatten, während 6 weitere Melanome nicht weiter klassifiziert werden konnten. Kritisiert wurde hierbei auch das unzureichende Studiendesign der herangezogenen Arbeiten [17].
Die primäre Zielsetzung der 2022 veröffentlichten prospektiven multizentrischen Studie zur diagnostischen Genauigkeit von Sangers et al. bestand in der Bestimmung der Sn und Sp einer CE-zertifizierten mobilen Gesundheitsanwendung zur Detektion prämaligner und maligner Hautläsionen. Die Ergebnisse zeigten eine Sn von 86,9 % und eine Sp von 70,4 %. Die Sn war höher auf iOS-Geräten (91,0 %) im Vergleich zu Android-Geräten (83,0 %). Die Sp war bei benignen Kontrollläsionen (80,1 %) höher als bei verdächtigen Hautläsionen (45,5 %; p < 0,001). Die Sn war in Hautfaltenarealen (92,9 %) höher als in glatten Hautarealen (84,2 %; p = 0,01), während die Sp in glatten Hautarealen (72,0 %) höher war als in Hautfaltenarealen (56,6 %; p = 0,02) [33].
Implikationen für eine künftige Versorgungsstruktur
Eine effektive Prävention ist für die Vermeidung von Hautneoplasien entscheidend. HSA, die sowohl die Sensibilisierung der Bevölkerung für Früherkennung als auch die Steigerung der diagnostischen Treffsicherheit anstreben, weisen ein bedeutendes disruptives Potenzial zur Transformation der patientenbezogenen Versorgungsprozesse auf.
Ziel des KI-Einsatzes ist, Morbidität und Mortalität durch frühere, präzisere Diagnosen zu senken
Anzeige
Die zunehmende Nutzung von HSA in Europa kann die diagnostische Genauigkeit verbessern, insbesondere als Entscheidungshilfe für Dermatologen und Hausärzte. Mit der kontinuierlichen Optimierung und Erweiterung von KI-Datenbanken wird eine verbesserte Selbstlernfähigkeit erwartet, was zu einer früheren Erkennung von Hauterkrankungen, besseren Therapieentscheidungen und einer Entlastung des Gesundheitssystems führen kann. Eine vollständige Ersetzung von zertifizierten Dermatologen oder Dermatopathologen durch KI ist unwahrscheinlich. Der derzeitige Einsatz beschränkt sich weitgehend auf die diagnostische Klassifikation, während zentrale klinische Tätigkeiten wie Anamnese, körperliche Untersuchung, invasive Verfahren und Therapieentscheidungen weiterhin in ärztlicher Hand bleiben. Studien zeigen, dass KI insbesondere die diagnostische Genauigkeit nichtdermatologischer Ärzte signifikant verbessert (30,7 % auf 54,7 %) [34]. Aufgrund der bildbasierten Natur der Dermatologie eignet sich das Fach besonders für KI-gestützte Analysen klinischer, dermatoskopischer und histologischer Bilder mittels CNNs. Patel et al. berichten, dass die diagnostische Genauigkeit von KI-Systemen bereits mit der von Fachärzten vergleichbar ist und mit weiterem technischem Fortschritt potenziell übertreffen könnte [35]. Ziel des KI-Einsatzes ist die Senkung von Morbidität und Mortalität durch eine frühere und präzisere Diagnosestellung, wodurch Patienten von kürzeren Wartezeiten, optimierten Therapien und einer geringeren Rate übersehener maligner Läsionen profitieren [35]. Zukünftige Forschungsansätze umfassen die Kombination von KI mit Next-Generation-Sequencing zur Erhöhung der diagnostischen Präzision, den Einsatz von KI-gestützten Entscheidungssystemen, Robotik sowie tragbarer Technologien für die Hautkrebsdiagnostik. Auch Teledermatologie wird in diesem Zusammenhang diskutiert [36].
Globale Betrachtung
In Ländern mit niedrigem Einkommen und hoher Bevölkerungsdichte wird die Entwicklung von HSA aus einer zusätzlichen Perspektive betrachtet. Weltweit haben schätzungsweise 3 Mrd. Menschen keinen Zugang zu dermatologischer Versorgung [37]. Besonders in Regionen mit begrenzter Verfügbarkeit medizinischer Fachkräfte, insbesondere von Dermatologen, stellt eine adäquate Versorgung eine Herausforderung dar. In Entwicklungsländern fehlt es häufig an Möglichkeiten zur Früherkennung, die jedoch entscheidend für eine erfolgreiche Krebsbehandlung wäre [36]. Studienergebnisse deuten darauf hin, dass algorithmusbasierte Apps in ihrer diagnostischen Treffsicherheit Allgemeinmediziner übertreffen und in Sn sowie Sp mit dermatologischer Expertise vergleichbar sind. Ihr gezielter Einsatz – vor allem in unterversorgten Regionen – könnte die Patientenversorgung signifikant optimieren [38].
Teledermatologie
Erste Untersuchungen zur Nutzung teledermatologischer Anwendungen, die nach dem „Store-and-Forward“-Prinzip arbeiten – bei dem ein Dermatologe eine Risikoeinschätzung von Hautneoplasien vornimmt –, zeigen vielversprechende Ergebnisse [17]. Eine Studie zur Entwicklung und Evaluierung eines mobilen teledermatologischen Systems für die Hautläsionsdiagnostik im Iran bestätigt, dass Teledermatologie den Zugang zu dermatologischen Leistungen verbessern kann. Um eine breitere Implementierung zu ermöglichen, sind jedoch weitere Untersuchungen erforderlich, die die Zuverlässigkeit und Praxistauglichkeit dieser Technologie belegen [39]. In Kombination mit KI kann Teledermatologie zusätzliche Vorteile bieten. Patienten können Hautläsionen eigenständig fotografieren und zur Beurteilung an eine KI-gestützte Plattform übermitteln, die eine diagnostische Einschätzung ermöglicht und eine Therapieentscheidung unterstützt. Besonders in Regionen mit eingeschränktem Zugang zu medizinischem Fachpersonal und langen Wartezeiten könnte dies zu einer erheblichen Verbesserung der Versorgungssituation führen [35].
Integration in das Gesundheitssystem
Die erfolgreiche Integration algorithmusbasierter HSA erfordert eine positive Einstellung von Dermatologen, die laut der oben beschriebener internationalen Umfrage bereits besteht [9]. Studien zeigen, dass Ärzte ohne dermatologische Fachkenntnisse stärker von KI-Unterstützung profitieren (Diagnosegenauigkeit: 54,7 % vs. 30,7 %), während kein Effekt bei „dermatology residents“ nachgewiesen wurde [32, 34]. Trotz dieser positiven Haltung bestehen Vorbehalte, insbesondere die Angst vor Arbeitsplatzverlust. Eine aktuelle Übersichtsarbeit identifiziert dies als Kommunikationsbarriere. KI dient jedoch ausschließlich als unterstützendes System, da Ärzte komplexe Muster erkennen und anamnestische Informationen einbeziehen können, die für eine präzise Diagnose essenziell sind [36]. KI-gestützte Dermatoskope gelten als vielversprechendes Instrument zur Integration in klinische Abläufe. Eine intuitive Benutzeroberfläche ist entscheidend für eine effiziente Nutzung [10]. Überdies könnte XAI das Vertrauen in die Technologie stärken, auch wenn bisher kein Nachweis für eine überlegene diagnostische Genauigkeit im Vergleich zu herkömmlicher KI besteht [40].
Anzeige
Interoperabilität im Gesundheitswesen ermöglicht den sicheren Austausch medizinischer Daten zwischen Systemen und verbessert so die Patientenversorgung. Sie basiert auf den Säulen der funktionalen, strukturellen und semantischen Interoperabilität [41]. In der Dermatologie bietet sie Vorteile wie standardisierte Dokumentation, vollständige Patientenhistorien, optimierte Teledermatologie, automatisierte Workflows und Vergleich aktueller mit früheren Scans zur Erkennung maligner Transformationen [42].
Teledermatologie ermöglicht die dermatologische Versorgung über Distanz [43] und umfasst Store-and-Forward-Modelle, Live-Videokonferenzen oder hybride Ansätze. Wesentliche Erfolgsfaktoren sind Finanzierung, technische Infrastruktur, Interoperabilität und rechtliche Rahmenbedingungen [36, 43]. Teledermoskopie erwies sich während der COVID-19-Pandemie als effektives Instrument zur Fernbeurteilung pigmentierter und nichtpigmentierter Läsionen. Sie dient als Triage- und Monitoring-Tool zur frühzeitigen Hautkrebsdetektion und kann unnötige Überweisungen sowie Kosten reduzieren [44]. Eine Studie zeigte für CNN-Algorithmen eine Sn von 85 % und eine Sp von 78 % bei der Melanomdetektion [45]. In einkommensschwachen, dicht besiedelten Regionen verbessert Teledermatologie den Zugang zu Fachärzten. KI-gestützte Systeme könnten diesen Effekt verstärken, indem Patienten Hautläsionen fotografieren und zur Analyse einreichen, was die Versorgung optimiert und Wartezeiten verkürzt [35].
Bias und Fairness in der KI
Algorithmusbasierte Apps weisen oft Verzerrungen hinsichtlich Ethnie, Geschlecht und Hauttyp auf, was zu ungleichen Diagnosen führen kann [46]. Eine Studie aus Uganda zeigte für schwarze Haut eine geringere Genauigkeit (17 %) im Vergleich zu kaukasischer Haut (69,9 %) [47]. Um diese Diskrepanz zu verringern, wurde das Diverse Dermatology Images (DDI) Dataset entwickelt [37]. Internationale Kooperationen könnten Bias minimieren, stehen jedoch vor Datenschutzproblemen [46]. Zusätzlich bestehen Herausforderungen durch mangelnde Transparenz, Verfügbarkeitsbias und gezielte Manipulationen (Adversarial Attacks), die diagnostische Fehler begünstigen. Erklärbare XAI soll Vertrauen und Nachvollziehbarkeit verbessern [46]. Finanzielle Ungleichheiten erschweren zusätzlich den Zugang zu KI-Technologien, insbesondere in ressourcenschwachen Regionen [46]. Geringe Sp erhöht unnötige Exzisionen, während geringe Sn Fehldiagnosen begünstigt, was das Gesundheitssystem belastet. In Ländern mit bereits niedriger KI-Genauigkeit könnte dies wirtschaftliche Probleme verschärfen. Eine sichere und ethische Implementierung erfordert regulatorische Maßnahmen, Kostenkontrolle und menschliche Aufsicht [46].
Patientenautonomie und Vertrauen
Patienten vertrauen der Diagnose durch Dermatologen deutlich mehr als der einer KI [32]. In einer Studie vertrauten 55 % der Hochrisikopatienten und 53 % der Melanompatienten der Untersuchung durch einen Dermatologen, während nur 16 % bzw. 12 % einer App vertrauten. Die Vertrauenslücke war besonders bei Jüngeren ausgeprägt (p < 0,004). Dennoch glaubten 98 % der Hochrisikopatienten und 95 % der Melanompatienten, dass KI die Diagnostik verbessern könnte [21]. Patientenzentrierte Ethik erfordert die Einwilligung zur Nutzung von KI sowie die Berücksichtigung von Datenschutz und der Arzt-Patient-Beziehung. Die Integration von KI verändert medizinische Rollen und erfordert eine enge Zusammenarbeit zwischen Ärzten und KI-Systemen [46].
Limitationen
Grundsätzlich erschwert die voranschreitende Entwicklung der KI den Vergleich aktueller Daten [27].
Studien weisen methodische Begrenzungen auf. So wurden in der Studie von Jahn et al. (2022) Fotos von geschultem Personal aufgenommen, histologische Bestätigungen waren teils unvollständig, und ein Selektionsbias durch Risikokohorten konnte nicht ausgeschlossen werden [21]. Des Weiteren fehlen qualitativ hochwertige Untersuchungen zur Sn und Sp von HSA sowie zum Nutzen von KI-gestützter Diagnostik durch Dermatologen [45]. Weitere Forschung zu alternativen Technologien wie konfokaler Mikroskopie oder optischer Kohärenztomographie ist erforderlich [48].
Die Sn und Sp von HSA verbessern sich kontinuierlich, aktuelle Werte sind jedoch schwer bestimmbar. Mehrere klinische Studien evaluieren derzeit den Einsatz von KI in der Dermatologie, u. a. zur Optimierung von Überweisungen und Workflow-Effizienz [49‐53].
Unterschiedliche Trainingsdatensätze, App-Funktionen und Bildqualitäten erschweren den Vergleich. Der Mangel an multizentrischen prospektiven Studien sowie die fehlende Standardisierung, z. B. bei Lichtquellen, sind weitere Einschränkungen [54].
Fazit
Die diagnostische Genauigkeit von Haut-Screening-Apps (HSA) hat sich durch Fortschritte in der künstlichen Intelligenz (KI) erheblich verbessert. Insbesondere Convolutional Neural Networks (CNNs) erreichen eine diagnostische Präzision, die mit Dermatologen vergleichbar ist. Dennoch bestehen methodische Einschränkungen, insbesondere hinsichtlich der Qualität der Trainingsdatensätze, der Transparenz der Algorithmen und der Generalisierbarkeit auf unterschiedliche Patientengruppen. Während KI-basierte Systeme insbesondere weniger erfahrene Ärzte unterstützen können, bleibt die klinische Expertise von Dermatologen unverzichtbar. Zudem sind ethische Fragen wie Bias, Datenschutz und Patientenautonomie von Bedeutung. Langfristig bieten HSA das Potenzial, die dermatologische Versorgung zu verbessern, insbesondere in unterversorgten Regionen. Eine effektive Integration in das Gesundheitssystem erfordert jedoch regulatorische Rahmenbedingungen, standardisierte Trainingsdatensätze und eine enge Zusammenarbeit zwischen KI-Systemen und Medizinern.
Einhaltung ethischer Richtlinien
Interessenkonflikt
F. Gerschweski gibt an, dass kein Interessenkonflikt besteht.
Für diesen Beitrag wurden von den Autor/-innen keine Studien an Menschen oder Tieren durchgeführt. Für die aufgeführten Studien gelten die jeweils dort angegebenen ethischen Richtlinien.
Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden. Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen. Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://creativecommons.org/licenses/by/4.0/deed.de.
Hinweis des Verlags
Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.