Zum Inhalt

Haut-Screening-Apps in der klinischen Praxis

Ein Vergleich der diagnostischen Genauigkeit konventioneller Diagnosestrategien vs. Diagnostik mit KI-Unterstützung

Erschienen in:

Zusammenfassung

Haut-Screening-Apps (HSA), die auf künstlicher Intelligenz (KI) basieren, gewinnen zunehmend an Bedeutung in der Früherkennung von Hautneoplasien. Convolutional Neural Networks (CNNs) erreichen ein mit Dermatologen vergleichbares Genauigkeitsniveau. Der Einsatz von „explainable AI“ (XAI) soll zudem das Vertrauen von Medizinern in KI-gestützte Diagnosen stärken. Studien zeigen jedoch methodische Limitationen: Die Qualität der Trainingsdatensätze ist oft unzureichend, Algorithmen sind intransparent, und es bestehen Herausforderungen hinsichtlich Bias und Generalisierbarkeit. Während HSA, insbesondere für Hausärzte, eine diagnostische Unterstützung bieten, ist eine vollständige Ersetzung dermatologischer Expertise unwahrscheinlich. Der Einsatz in der klinischen Praxis erfordert klare regulatorische Rahmenbedingungen, Interoperabilität im Gesundheitssystem und eine standardisierte Qualitätssicherung. Zukünftige Entwicklungen könnten KI mit Teledermatologie und tragbaren Technologien kombinieren, um die Präzision und Verfügbarkeit dermatologischer Diagnostik weiter zu verbessern.
QR-Code scannen & Beitrag online lesen

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.

Prinzipien künstlicher Intelligenz in Haut-Screening-Apps

Ein grundlegendes Verständnis der Prinzipien der künstlichen Intelligenz (KI) in Haut-Screening-Apps (HSA) erfordert Kenntnisse in den Bereichen „image processing“ und der Zuordnung gegebener Informationen zu analysierten Bildern.

Computer Vision

Computer Vision (CV) erfüllt Aufgaben wie Objektklassifizierung, -lokalisierung und -detektion mit dem Ziel, Bildinhalte richtig wiederzugeben. Durch die Entwicklung der letzten Jahre entstanden CNNs, die eine effiziente Bildverarbeitung ermöglichen [1]. CV-Tools verwenden u. a. folgende Konzepte der KI: „image recognition“, „object detection“, „image classification“ und „segmentation“. Die „image recognition“ arbeitet mit den Prinzipien „Bilderfassung“, „Bildvorverarbeitung“, „Merkmalsextraktion“, „Klassifikation und Entscheidungsfindung“ und der „strukturellen Mustererkennung“. Die Bildauflösung beeinflusst zudem die Qualität einer effektiven Bilderkennung, weshalb verzerrte Bildbereiche die Analyse erschweren können [2]. Bei der „object detection“ wird ein merkmalbasierter Ansatz verwendet, welcher anhand von Eigenschaften, wie „Farbe“, „Textur“, oder dem „optischen Fluss“, Objekte beschreibt. Diese Anwendung funktioniert gut bei Bildern mit einfachen Hintergründen und klar abgegrenzten Objekten. Eine genaue Detektion wird erschwert, wenn sich die Pixel von Objekt und Hintergrund nicht, oder nur geringfügig unterscheiden und sich Objekte gegenseitig verdecken. Diese Problematik erhöhte das Interesse an der Tarnobjekterkennung und -segmentierung [3]. Die Einteilung von Bildern in vordefinierte Kategorien ermöglicht die „image classification“. Hierfür wurden fortlaufend neue Datensätze, wie beispielsweise „AlexNet“ [4], „ResNet“ [5] und „SENet“ [6], entwickelt. Die Weiterentwicklung von Datensätzen ermöglichte Fortschritte in den Bereichen Deep Learning, Data Augmentation, führte zur Entwicklung tieferer Netzwerke mit mehreren Schichten, was insgesamt in einer verbesserten Klassifikationsgenauigkeit und Effizienz resultierte [2, 7]. Ein Erkennen von Objekten und deren Grenzen wird durch die „segmentation“ gewährleistet. Anders als die „object detection“ oder „image classification“ differenziert die „segmentation“ nicht zwischen individuellen Objektinstanzen, sondern erstellt Masken, die eine zweidimensionale räumliche Verteilung aufweisen. Die Einführung von CNNs führte zu einer Vereinfachung der semantischen Segmentierung, da diese Modelle präzise pixelweise Vorhersagen auf Grundlage umfangreicher vortrainierter Datensätze ermöglichen [7, 8].

Explainable AI

Der neue Ansatz der explainable AI (XAI), der erklärbaren KI, soll dazu dienen, das Vertrauen der Mediziner gegenüber den KI-basierten-Algorithmen zur Risikoeinschätzung von Hautneubildungen zu verbessern. Grundlegend ist hier die Lösung des Black-Box -Problems, welches die Intransparenz der KI-Algorithmen bei der Entscheidungsfindung beschreibt. Eine Umfrage aus dem Jahr 2019 ergab, dass 77,3 % der Befragten der Meinung waren, dass die KI die Dermatologie verbessern kann, während 5,5 % befürchten, dass sie von der KI ersetzt werden könnten [9]. Zudem wird das Vertrauen in die KI erhöht, wenn die Erklärungen der XAI mit den Einschätzungen der Kliniker übereinstimmen. Ein stärkeres Vertrauen in die eigenen Diagnosen wird durch die Verwendung von XAI erreicht. Beobachtet wurde, dass die Akzeptanz mit dem Grad der Übereinstimmung von KI-Erklärung und Beurteilung des Dermatologen korreliert. Die XAI verbessert im Vergleich zur konventionellen KI aber nicht die diagnostische Präzision. Eine erhöhte Akzeptanz und ein gesteigertes Vertrauen in KI-gestützte Systeme kann folglich neben der Unterstützung bei der Melanomdiagnostik erreicht werden [10].

Lernmethoden bei KI

Außerdem ist eine klare Abgrenzung der Begriffe Machine Learning, Deep Learning, CNNs, Transfer Learning und Feature Extraction essenziell. Machine Learning beschreibt die automatische Verbesserung von KI-Algorithmen durch Erfahrung und große Datensätze. Hierdurch wird es Algorithmen möglich, Vorhersagen und Entscheidungen auf Datengrundlage zu treffen, ohne eine hierfür explizite Programmierung zu erhalten [8]. Deep Learning als Unterform von Machine Learning basiert auf Artificial Neural Networks (ANNs) und Repräsentationslernen. ANNs imitieren in ihrem Design biologischen Netzwerke und sind als adaptives System zur Lernfähigkeit konzipiert. Qualitätskriterien der ANNs sind Anzahl und Struktur der neuronalen Schichten und Qualität der Trainingsdatensätze [8]. In den Bereichen der Bildverarbeitung und/-detektion in Dermatologie, Pathologie und Radiologie werden die CNNs als Unterform der ANNs verwendet. CNNs erreichen eine hohe diagnostische Genauigkeit, wenn diese mit hochwertigen und umfangreichen Bilddatensätzen trainiert werden. Bekannte Bilddatensätze, welche in der Dermatologie verwendet werden, sind beispielsweise HAM10000 [11], BCN20000 [12] und PH2 [13]. [8]. Transfer Learning ermöglicht durch die Verwendung bereits erworbenen Wissens eine höhere Effizienz beim Lösen verwandter, aber neuer Probleme. Spezifisch für das Transfer Learning ist die Anwendung von schon erlerntem Wissen aus anderen Hilfsdomänen, um die Vorhersagegenauigkeit für unterschiedliche Muster der Zieldomäne zu verbessern [14, 15]. Im Rahmen der Merkmalsauswahl werden bestehende Attribute identifiziert und genutzt, während bei der Merkmalsgenerierung vorhandene Merkmale modifiziert oder kombiniert werden, um neue Features zu erzeugen. Ziel der Feature Extraction ist es, ein Gleichgewicht zwischen Verringerung der Dimensionalität und dem Erhalt relevanter Informationen zu erreichen [16].

Diagnostische Genauigkeit und Verbreitungsgrad

Grundsätzlich kann zwischen Apps für den ärztlichen Gebrauch und solchen für Patienten unterschieden werden. Patientenbezogene Apps lassen sich wiederum in algorithmusbasierte und arztunterstützte Anwendungen untergliedern. Bei arztgestützten Anwendungen wird die Risikobewertung durch einen qualifizierten Arzt durchgeführt [17]. Die algorithmusbasierte, CE-zertifizierte App „SkinVision“ (Skin Vision B.V., 1033 Amsterdam, Niederlande) richtet sich an Patienten [18]. In Studien wurde sie hinsichtlich ihrer diagnostischen Genauigkeit validiert [19, 22]. Die in den Niederlanden entwickelte App verfolgt das Ziel, eine frühe Detektion von malignen Hautneoplasien zu gewährleisten, um in der Folge eine bestmögliche Hautkrebsversorgung einzuleiten. Bei den Anwendungen „Dermanostic“ (Dermanostic GmbH, 42699 Solingen, Deutschland) [23] und „onlinedoctor“ (OnlineDoctor 24 GmbH, 20459 Hamburg, Deutschland) [24] erfolgt die Risikobewertung durch ein Ärzteteam im Hintergrund, welches durch einen zusätzlich ausgefüllten Anamnesebogen zwischen Neoplasien und entzündlichen Erkrankungen unterscheiden kann [23]. Eine dritte Gruppe von Apps, welche für den Kliniker entwickelt wurde, wird durch Apps wie „DERManager“ (HEINE Optotechnik GmbH & Co. KG, 82205 Gilching, Deutschland) [25] der Firma „Heine“ [26] repräsentiert. Ärzten wird es hiermit ermöglicht, suspekte Läsionen oder Hautkrebsvorsorgeuntersuchungen zu dokumentieren. Primär kommt hier keine KI zum Einsatz. Der Kliniker kann jedoch eine integrierte KI als Zweitmeinung nutzen, die den zeitlichen Verlauf, der in den gescannten Bildern erfassten Nävi analysiert, um eine maligne Transformation zu diagnostizieren [25].
Wongvibulsin et al. [27] stellten in ihrer Querschnittsstudie fest, dass nur 24,4 % der identifizierten Apps diagnostische Fähigkeiten angaben, während keine von ihnen über unterstützende wissenschaftliche Veröffentlichungen verfügte. Nur zwei der 14 US-amerikanischen Apps informierten über eine fehlende FDA-Zulassung, während nur 2 der 14 europäischen Apps über eine CE-Zertifizierung verfügten. Lediglich 5 Apps basierten auf Publikationen, die ein Peer-Review-Verfahren durchlaufen hatten – darunter eine multizentrische, prospektive, diagnostische klinische Studie. 58,5 % der Apps (24 Apps) machten keine Angaben zu den verwendeten Trainings- oder Testdatensätzen. Die wenigen Apps, die solche Informationen lieferten, boten lediglich vage Beschreibungen, wie „Fotos“ oder „geschützte Daten“. Nur 6 Apps (14,6 %) erwähnten die Datenverfügbarkeit, wobei alle Datensätze aus öffentlich zugänglichen Quellen, wie dem ISIC-Archiv oder HAM10000 stammten und nicht von den App-Entwicklern selbst bereitgestellt wurden. Bei 51,2 % der Apps (21 Apps) fehlten Angaben zu den genutzten Algorithmen – ein Beleg für das erhebliche Transparenzdefizit in diesem Bereich [27].
Ein robustes Studiendesign wäre nötig, um die Genauigkeit und Sicherheit in der Praxis zu bewerten
Durch die rasche Entwicklung des maschinellen Lernens und CNNs entstanden zahlreiche Anwendungen zur algorithmusbasierten Erkennung von Hautneoplasien. Trotz der sich abzeichnenden Verbesserung von Spezifität (Sp) und Sensitivität (Sn) der App SkinVision [18] reicht die derzeitige Studienlage zu Apps wie SkinVision [18] oder SkinScan [28] nicht aus, um eine verlässliche Aussage über deren klinische Genauigkeit zu treffen. SkinVision verzeichnet die höchsten Downloadzahlen in dieser Kategorie [21], weshalb ihre diagnostische Genauigkeit in zahlreichen Studien untersucht wurde. Auf der Website von SkinVision wird angegeben, dass die App weltweit von 3 Mio. Nutzern verwendet wurde und insgesamt 5 Mio. Hautuntersuchungen durchgeführt wurden. Thissen et al. zeigten, dass die App eine Sn von 80 % und eine Sp von 78 % erreicht [22]. In der Studie von Udrea et al. erreichte die App eine Sn von 95,1 % und eine Sp von 78,3 % [29]. Deeks et al. beurteilten die Studie von Udrea kritisch. Die Schlussfolgerung ihrer Studie ist, dass die Wirksamkeit von SkinVision aufgrund methodischer Einschränkungen im Studiendesign überschätzt wurde. Die Studie von Udrea et al. überschätzt die Leistung von SkinVision, da sie weder die Zielgruppe (Laien) noch den tatsächlichen Kontext, in dem die App verwendet werden soll, realistisch widerspiegelt. Stattdessen beruhen die Ergebnisse auf klinisch ausgewählten Patientenkohorten und selektiven Daten von App-Nutzern, was zu systematischen Verzerrungen und unrealistisch hohen Werten für Sn und Sp führt. Ein robustes Studiendesign wäre notwendig, um die Genauigkeit und Sicherheit solcher Apps in der realen Praxis genau zu bewerten [19]. Es ist zu beachten, dass die Studienautoren A. Udrea und T.M. de Carvalho Berater für die SkinVision-App sind und die Studie von SkinVision finanziell unterstützt wurde [30]. Im Vergleich dazu haben Freeman et al. in ihrer systematischen Übersichtsarbeit die Ergebnisse der Studien zusammengefasst, die den Sp und Sn der SkinVision-App untersucht haben, und eine Sn von 80 % gefunden, mit einem Konfidenzintervall von 95 % und Ergebnissen zwischen 63 und 92 %. Außerdem konnte eine Sp von 78 % mit Ergebnissen von 67 bis 87 % ermittelt werden [20].

App versus Arzt

Die prospektive Studie von Jahn et al. [21] untersuchte die diagnostische Genauigkeit der SkinVision-App im Vergleich zu Dermatologen. Die abschließende Diagnose wurde, falls erforderlich, histopathologisch verifiziert. Die App klassifizierte 980 Hautläsionen (81 %) als benigne und 19 % als potenziell maligne. Im Gegensatz dazu diagnostizierten Dermatologen 1195 Läsionen (99,3 %) als benigne und nur 9 Läsionen (0,7 %) als verdächtig. Daraus ergibt sich, dass die CE-zertifizierte App eine 27-fach höhere Rate an „melanomverdächtig“ aufwies als Dermatologen. Des Weiteren zeigte die Studie, dass die diagnostische Genauigkeit mit der Erfahrung der Dermatologen steigt: Experten mit mehr als 5 Jahren Berufserfahrung erreichten eine 100 %ige Trefferquote sowohl für dysplastische Nävi (korrekte Klassifikation als benigne) als auch für Melanome (korrekte Klassifikation als verdächtig). Es wurde festgestellt, dass KI-gestützte Assistenz die Leistung weniger erfahrener Dermatologen verbessern kann, etwa durch eine Erhöhung der diagnostischen Genauigkeit bei melanozytären Nävi von 87 % auf 92 % [21].
Die prospektive Studie von Ngoo et al. [31] untersuchte die Fähigkeit von Smartphone-Apps zur Melanom-Risikobewertung im Vergleich zu speziell geschulten Dermatologen. Histopathologische Befunde wurden hier nicht zur Verifizierung herangezogen. Von 42 klinisch als verdächtig eingestuften Läsionen klassifizierten die Apps zwischen 9 und 26 als verdächtig. Bei den 15 klinisch benignen Läsionen wurden zwischen 3 und 15 korrekt als benigne erkannt. Die Sn und Sp der Apps im Vergleich zu den Einschätzungen der Spezialisten lagen zwischen 21 und 72 % bzw. zwischen 27 und 100 %. Außerdem konnten zwei Apps 14 % bzw. 18 % der eingesendeten Läsionen nicht analysieren [31].
Die diagnostische Leistung von KI war mit der von Dermatologie-Experten vergleichbar
Eine Metaanalyse von Salinas et al. zeigte, dass KI-Algorithmen eine Sn von 87,0 % und eine Sp von 77,1 % erreichten, während Kliniker eine Sn von 79,78 % und eine Sp von 73,6 % aufwiesen. Diese Unterschiede waren statistisch signifikant. Im Vergleich zu Allgemeinmedizinern zeigte sich ein deutlicher Leistungsunterschied: KI-Algorithmen erreichten eine Sn von 92,5 % und eine Sp von 66,5 %, während Allgemeinmediziner eine Sn von 64,6 % und eine Sp von 72,8 % erzielten. Die diagnostische Leistung von KI war hingegen mit der von Dermatologie-Experten vergleichbar (KI: Sn 86,3 %, Sp 78,4 %; Experten: Sn 84,2 %, Sp 74,4 %). Die Metaanalyse ergab ferner, dass die diagnostische Genauigkeit von KI und Allgemeinmedizinern signifikant unterschiedlich war (p < 0,001). KI erzielte eine Sn von 92,5 % (95 % CI 88,9–94,9 %) und eine Sp von 66,5 % (95 % CI 56,7–75,0 %), während Allgemeinmediziner eine Sn von 64,6 % (95 % CI 47,1–78,9 %) und eine Sp von 72,8 % (95 % CI 56,7–84,5 %) erreichten. Die Analyse zeigte zusätzlich, dass KI eine Sn von 85,4 % (95 % CI 78,9–90,2 %) und eine Sp von 78,5 % (95 % CI 70,6–84,8 %) erreichte, während „nichtexpertisierte Dermatologen“ eine Sn von 76,4 % (95 % CI 71,1–80,9 %) und eine Sp von 67,1 % (95 % CI 57,2–75,6 %) erzielten. Auch hier waren die Unterschiede statistisch signifikant (p < 0,001), was durch die ROC-Kurven bestätigt wurde. In der Metaanalyse zeigten „expertisierte Dermatologen“ als eigene Subgruppe eine Sn von 84,2 % (95 % CI 76,2–89,8 %) und eine Sp von 74,4 % (95 % CI 65,3–81,8 %), während KI eine Sn von 86,3 % (95 % CI 80,4–90,7 %) und eine Sp von 78,4 % (95 % CI 71,1–84,3 %) erreichte. Eine genauere Differenzierung zwischen „Nicht-Experten“ und „Experten Dermatologen“ wurde in der untersuchten Arbeit nicht beschrieben [32].
KI verbessert insbesondere die diagnostische Genauigkeit nichtdermatologischer Ärzte
Jahn et al. stellten 2022 außerdem fest, dass die untersuchte Applikation in einer ROC-Analyse im Vergleich zu histopathologischen Ergebnissen eine Fläche unter der Kurve (AUC) von 0,717, eine Sn von 0,83 und eine Sp von 0,6 erreichte [21].
In einer weiteren Untersuchung von Chuchu et al. [17] wurden Studien zitiert, die die diagnostische Genauigkeit von HSA im Vergleich zu histologischen Befunden bewerteten. Die vier analysierten Applikationen versagten bei der Diagnose von 7 bis 55 Melanomen aus insgesamt 86 Fällen. Die Analyse ergab zudem, dass Apps, bei denen Dermatologen die eingereichten Scans bewerteten, ein Melanom übersehen hatten, während 6 weitere Melanome nicht weiter klassifiziert werden konnten. Kritisiert wurde hierbei auch das unzureichende Studiendesign der herangezogenen Arbeiten [17].
Die primäre Zielsetzung der 2022 veröffentlichten prospektiven multizentrischen Studie zur diagnostischen Genauigkeit von Sangers et al. bestand in der Bestimmung der Sn und Sp einer CE-zertifizierten mobilen Gesundheitsanwendung zur Detektion prämaligner und maligner Hautläsionen. Die Ergebnisse zeigten eine Sn von 86,9 % und eine Sp von 70,4 %. Die Sn war höher auf iOS-Geräten (91,0 %) im Vergleich zu Android-Geräten (83,0 %). Die Sp war bei benignen Kontrollläsionen (80,1 %) höher als bei verdächtigen Hautläsionen (45,5 %; p < 0,001). Die Sn war in Hautfaltenarealen (92,9 %) höher als in glatten Hautarealen (84,2 %; p = 0,01), während die Sp in glatten Hautarealen (72,0 %) höher war als in Hautfaltenarealen (56,6 %; p = 0,02) [33].

Implikationen für eine künftige Versorgungsstruktur

Eine effektive Prävention ist für die Vermeidung von Hautneoplasien entscheidend. HSA, die sowohl die Sensibilisierung der Bevölkerung für Früherkennung als auch die Steigerung der diagnostischen Treffsicherheit anstreben, weisen ein bedeutendes disruptives Potenzial zur Transformation der patientenbezogenen Versorgungsprozesse auf.
Ziel des KI-Einsatzes ist, Morbidität und Mortalität durch frühere, präzisere Diagnosen zu senken
Die zunehmende Nutzung von HSA in Europa kann die diagnostische Genauigkeit verbessern, insbesondere als Entscheidungshilfe für Dermatologen und Hausärzte. Mit der kontinuierlichen Optimierung und Erweiterung von KI-Datenbanken wird eine verbesserte Selbstlernfähigkeit erwartet, was zu einer früheren Erkennung von Hauterkrankungen, besseren Therapieentscheidungen und einer Entlastung des Gesundheitssystems führen kann. Eine vollständige Ersetzung von zertifizierten Dermatologen oder Dermatopathologen durch KI ist unwahrscheinlich. Der derzeitige Einsatz beschränkt sich weitgehend auf die diagnostische Klassifikation, während zentrale klinische Tätigkeiten wie Anamnese, körperliche Untersuchung, invasive Verfahren und Therapieentscheidungen weiterhin in ärztlicher Hand bleiben. Studien zeigen, dass KI insbesondere die diagnostische Genauigkeit nichtdermatologischer Ärzte signifikant verbessert (30,7 % auf 54,7 %) [34]. Aufgrund der bildbasierten Natur der Dermatologie eignet sich das Fach besonders für KI-gestützte Analysen klinischer, dermatoskopischer und histologischer Bilder mittels CNNs. Patel et al. berichten, dass die diagnostische Genauigkeit von KI-Systemen bereits mit der von Fachärzten vergleichbar ist und mit weiterem technischem Fortschritt potenziell übertreffen könnte [35]. Ziel des KI-Einsatzes ist die Senkung von Morbidität und Mortalität durch eine frühere und präzisere Diagnosestellung, wodurch Patienten von kürzeren Wartezeiten, optimierten Therapien und einer geringeren Rate übersehener maligner Läsionen profitieren [35]. Zukünftige Forschungsansätze umfassen die Kombination von KI mit Next-Generation-Sequencing zur Erhöhung der diagnostischen Präzision, den Einsatz von KI-gestützten Entscheidungssystemen, Robotik sowie tragbarer Technologien für die Hautkrebsdiagnostik. Auch Teledermatologie wird in diesem Zusammenhang diskutiert [36].

Globale Betrachtung

In Ländern mit niedrigem Einkommen und hoher Bevölkerungsdichte wird die Entwicklung von HSA aus einer zusätzlichen Perspektive betrachtet. Weltweit haben schätzungsweise 3 Mrd. Menschen keinen Zugang zu dermatologischer Versorgung [37]. Besonders in Regionen mit begrenzter Verfügbarkeit medizinischer Fachkräfte, insbesondere von Dermatologen, stellt eine adäquate Versorgung eine Herausforderung dar. In Entwicklungsländern fehlt es häufig an Möglichkeiten zur Früherkennung, die jedoch entscheidend für eine erfolgreiche Krebsbehandlung wäre [36]. Studienergebnisse deuten darauf hin, dass algorithmusbasierte Apps in ihrer diagnostischen Treffsicherheit Allgemeinmediziner übertreffen und in Sn sowie Sp mit dermatologischer Expertise vergleichbar sind. Ihr gezielter Einsatz – vor allem in unterversorgten Regionen – könnte die Patientenversorgung signifikant optimieren [38].

Teledermatologie

Erste Untersuchungen zur Nutzung teledermatologischer Anwendungen, die nach dem „Store-and-Forward“-Prinzip arbeiten – bei dem ein Dermatologe eine Risikoeinschätzung von Hautneoplasien vornimmt –, zeigen vielversprechende Ergebnisse [17]. Eine Studie zur Entwicklung und Evaluierung eines mobilen teledermatologischen Systems für die Hautläsionsdiagnostik im Iran bestätigt, dass Teledermatologie den Zugang zu dermatologischen Leistungen verbessern kann. Um eine breitere Implementierung zu ermöglichen, sind jedoch weitere Untersuchungen erforderlich, die die Zuverlässigkeit und Praxistauglichkeit dieser Technologie belegen [39]. In Kombination mit KI kann Teledermatologie zusätzliche Vorteile bieten. Patienten können Hautläsionen eigenständig fotografieren und zur Beurteilung an eine KI-gestützte Plattform übermitteln, die eine diagnostische Einschätzung ermöglicht und eine Therapieentscheidung unterstützt. Besonders in Regionen mit eingeschränktem Zugang zu medizinischem Fachpersonal und langen Wartezeiten könnte dies zu einer erheblichen Verbesserung der Versorgungssituation führen [35].

Integration in das Gesundheitssystem

Die erfolgreiche Integration algorithmusbasierter HSA erfordert eine positive Einstellung von Dermatologen, die laut der oben beschriebener internationalen Umfrage bereits besteht [9]. Studien zeigen, dass Ärzte ohne dermatologische Fachkenntnisse stärker von KI-Unterstützung profitieren (Diagnosegenauigkeit: 54,7 % vs. 30,7 %), während kein Effekt bei „dermatology residents“ nachgewiesen wurde [32, 34]. Trotz dieser positiven Haltung bestehen Vorbehalte, insbesondere die Angst vor Arbeitsplatzverlust. Eine aktuelle Übersichtsarbeit identifiziert dies als Kommunikationsbarriere. KI dient jedoch ausschließlich als unterstützendes System, da Ärzte komplexe Muster erkennen und anamnestische Informationen einbeziehen können, die für eine präzise Diagnose essenziell sind [36]. KI-gestützte Dermatoskope gelten als vielversprechendes Instrument zur Integration in klinische Abläufe. Eine intuitive Benutzeroberfläche ist entscheidend für eine effiziente Nutzung [10]. Überdies könnte XAI das Vertrauen in die Technologie stärken, auch wenn bisher kein Nachweis für eine überlegene diagnostische Genauigkeit im Vergleich zu herkömmlicher KI besteht [40].
Interoperabilität im Gesundheitswesen ermöglicht den sicheren Austausch medizinischer Daten zwischen Systemen und verbessert so die Patientenversorgung. Sie basiert auf den Säulen der funktionalen, strukturellen und semantischen Interoperabilität [41]. In der Dermatologie bietet sie Vorteile wie standardisierte Dokumentation, vollständige Patientenhistorien, optimierte Teledermatologie, automatisierte Workflows und Vergleich aktueller mit früheren Scans zur Erkennung maligner Transformationen [42].
Teledermatologie ermöglicht die dermatologische Versorgung über Distanz [43] und umfasst Store-and-Forward-Modelle, Live-Videokonferenzen oder hybride Ansätze. Wesentliche Erfolgsfaktoren sind Finanzierung, technische Infrastruktur, Interoperabilität und rechtliche Rahmenbedingungen [36, 43]. Teledermoskopie erwies sich während der COVID-19-Pandemie als effektives Instrument zur Fernbeurteilung pigmentierter und nichtpigmentierter Läsionen. Sie dient als Triage- und Monitoring-Tool zur frühzeitigen Hautkrebsdetektion und kann unnötige Überweisungen sowie Kosten reduzieren [44]. Eine Studie zeigte für CNN-Algorithmen eine Sn von 85 % und eine Sp von 78 % bei der Melanomdetektion [45]. In einkommensschwachen, dicht besiedelten Regionen verbessert Teledermatologie den Zugang zu Fachärzten. KI-gestützte Systeme könnten diesen Effekt verstärken, indem Patienten Hautläsionen fotografieren und zur Analyse einreichen, was die Versorgung optimiert und Wartezeiten verkürzt [35].

Bias und Fairness in der KI

Algorithmusbasierte Apps weisen oft Verzerrungen hinsichtlich Ethnie, Geschlecht und Hauttyp auf, was zu ungleichen Diagnosen führen kann [46]. Eine Studie aus Uganda zeigte für schwarze Haut eine geringere Genauigkeit (17 %) im Vergleich zu kaukasischer Haut (69,9 %) [47]. Um diese Diskrepanz zu verringern, wurde das Diverse Dermatology Images (DDI) Dataset entwickelt [37]. Internationale Kooperationen könnten Bias minimieren, stehen jedoch vor Datenschutzproblemen [46]. Zusätzlich bestehen Herausforderungen durch mangelnde Transparenz, Verfügbarkeitsbias und gezielte Manipulationen (Adversarial Attacks), die diagnostische Fehler begünstigen. Erklärbare XAI soll Vertrauen und Nachvollziehbarkeit verbessern [46]. Finanzielle Ungleichheiten erschweren zusätzlich den Zugang zu KI-Technologien, insbesondere in ressourcenschwachen Regionen [46]. Geringe Sp erhöht unnötige Exzisionen, während geringe Sn Fehldiagnosen begünstigt, was das Gesundheitssystem belastet. In Ländern mit bereits niedriger KI-Genauigkeit könnte dies wirtschaftliche Probleme verschärfen. Eine sichere und ethische Implementierung erfordert regulatorische Maßnahmen, Kostenkontrolle und menschliche Aufsicht [46].

Patientenautonomie und Vertrauen

Patienten vertrauen der Diagnose durch Dermatologen deutlich mehr als der einer KI [32]. In einer Studie vertrauten 55 % der Hochrisikopatienten und 53 % der Melanompatienten der Untersuchung durch einen Dermatologen, während nur 16 % bzw. 12 % einer App vertrauten. Die Vertrauenslücke war besonders bei Jüngeren ausgeprägt (p < 0,004). Dennoch glaubten 98 % der Hochrisikopatienten und 95 % der Melanompatienten, dass KI die Diagnostik verbessern könnte [21]. Patientenzentrierte Ethik erfordert die Einwilligung zur Nutzung von KI sowie die Berücksichtigung von Datenschutz und der Arzt-Patient-Beziehung. Die Integration von KI verändert medizinische Rollen und erfordert eine enge Zusammenarbeit zwischen Ärzten und KI-Systemen [46].

Limitationen

Grundsätzlich erschwert die voranschreitende Entwicklung der KI den Vergleich aktueller Daten [27].
Studien weisen methodische Begrenzungen auf. So wurden in der Studie von Jahn et al. (2022) Fotos von geschultem Personal aufgenommen, histologische Bestätigungen waren teils unvollständig, und ein Selektionsbias durch Risikokohorten konnte nicht ausgeschlossen werden [21]. Des Weiteren fehlen qualitativ hochwertige Untersuchungen zur Sn und Sp von HSA sowie zum Nutzen von KI-gestützter Diagnostik durch Dermatologen [45]. Weitere Forschung zu alternativen Technologien wie konfokaler Mikroskopie oder optischer Kohärenztomographie ist erforderlich [48].
Die Sn und Sp von HSA verbessern sich kontinuierlich, aktuelle Werte sind jedoch schwer bestimmbar. Mehrere klinische Studien evaluieren derzeit den Einsatz von KI in der Dermatologie, u. a. zur Optimierung von Überweisungen und Workflow-Effizienz [4953].
Unterschiedliche Trainingsdatensätze, App-Funktionen und Bildqualitäten erschweren den Vergleich. Der Mangel an multizentrischen prospektiven Studien sowie die fehlende Standardisierung, z. B. bei Lichtquellen, sind weitere Einschränkungen [54].

Fazit

Die diagnostische Genauigkeit von Haut-Screening-Apps (HSA) hat sich durch Fortschritte in der künstlichen Intelligenz (KI) erheblich verbessert. Insbesondere Convolutional Neural Networks (CNNs) erreichen eine diagnostische Präzision, die mit Dermatologen vergleichbar ist. Dennoch bestehen methodische Einschränkungen, insbesondere hinsichtlich der Qualität der Trainingsdatensätze, der Transparenz der Algorithmen und der Generalisierbarkeit auf unterschiedliche Patientengruppen. Während KI-basierte Systeme insbesondere weniger erfahrene Ärzte unterstützen können, bleibt die klinische Expertise von Dermatologen unverzichtbar. Zudem sind ethische Fragen wie Bias, Datenschutz und Patientenautonomie von Bedeutung. Langfristig bieten HSA das Potenzial, die dermatologische Versorgung zu verbessern, insbesondere in unterversorgten Regionen. Eine effektive Integration in das Gesundheitssystem erfordert jedoch regulatorische Rahmenbedingungen, standardisierte Trainingsdatensätze und eine enge Zusammenarbeit zwischen KI-Systemen und Medizinern.

Einhaltung ethischer Richtlinien

Interessenkonflikt

F. Gerschweski gibt an, dass kein Interessenkonflikt besteht.
Für diesen Beitrag wurden von den Autor/-innen keine Studien an Menschen oder Tieren durchgeführt. Für die aufgeführten Studien gelten die jeweils dort angegebenen ethischen Richtlinien.
Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden. Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen. Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://​creativecommons.​org/​licenses/​by/​4.​0/​deed.​de.

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.
download
DOWNLOAD
print
DRUCKEN
Titel
Haut-Screening-Apps in der klinischen Praxis
Ein Vergleich der diagnostischen Genauigkeit konventioneller Diagnosestrategien vs. Diagnostik mit KI-Unterstützung
Verfasst von
Felix Erhard Gerschewski
Publikationsdatum
27.05.2025
Verlag
Springer Vienna
Erschienen in
hautnah / Ausgabe 3/2025
Print ISSN: 1866-2250
Elektronische ISSN: 2192-6484
DOI
https://doi.org/10.1007/s12326-025-00721-w
1.
Zurück zum Zitat Esteva A, Chou K, Yeung S, Naik N, Madani A, Mottaghi A et al (2021) Deep learning-enabled medical computer vision. Npj Digit Med 4(1):5CrossRefPubMedPubMedCentral
2.
Zurück zum Zitat Zhao Y, Wei G (2021) retracted] using an improved PSO-SVM model to recognize and classify the image signals. Complexity 2021(1)
3.
Zurück zum Zitat Hogue D, Sharp T, Karch J, Dolinger G, Stringer A, Schley L et al (2023) Using informative AI to understand camouflaged object detection and segmentation. In: 2023 IEEE/AIAA 42nd Digital Avionics Systems Conference (DASC). IEEE, S 1–9
4.
Zurück zum Zitat Krizhevsky A, Sutskever I, Hinton GE (2012) ImageNet classification with deep convolutional neural networks. Commun ACM 60(6):84–90CrossRef
5.
Zurück zum Zitat He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, S 770–778
6.
Zurück zum Zitat Hu J, Shen L, Sun G (2018) Squeeze-and-Excitation Networks. In: 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, S 7132–7141CrossRef
7.
Zurück zum Zitat Feng X, Jiang Y, Yang X, Du M, Li X (2019) Computer vision algorithms and hardware implementations: A survey. Integration
8.
Zurück zum Zitat Li Z, Koban KC, Schenck TL, Giunta RE, Li Q, Sun Y (2022) Artificial intelligence in dermatology image analysis: current developments and future trends. J Clin Med 11(22)
9.
Zurück zum Zitat Polesie S, Gillstedt M, Kittler H, Lallas A, Tschandl P, Zalaudek I et al (2020) Attitudes towards artificial intelligence within dermatology: an international online survey. Br J Dermatol 183(1):159–161CrossRefPubMed
10.
Zurück zum Zitat Chanda T, Hauser K, Hobelsberger S, Bucher T‑C, Garcia CN, Wies C et al (2024) Dermatologist-like explainable AI enhances trust and confidence in diagnosing melanoma. Nat Commun 15(1):524CrossRefPubMedPubMedCentral
11.
Zurück zum Zitat Tschandl P, Rosendahl C, Kittler H (2018) The HAM10000 dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesions. Sci Data 5:180161CrossRefPubMedPubMedCentral
12.
Zurück zum Zitat Hernández-Pérez C, Combalia M, Podlipnik S, Codella NCF, Rotemberg V, Halpern AC et al (2024) BCN20000: dermoscopic lesions in the wild. Sci Data 11(1):641CrossRefPubMedPubMedCentral
13.
Zurück zum Zitat Rebouças Filho PP, Peixoto SA, Medeiros da Nóbrega RV, Hemanth DJ, Medeiros AG, Sangaiah AK et al (2018) Automatic histologically-closer classification of skin lesions. Comput Med Imaging Graph 68:40–54CrossRefPubMed
14.
Zurück zum Zitat Pan SJ, Yang Q (2010) A survey on transfer learning. IEEE Trans Knowl Data Eng 22(10):1345–1359CrossRef
15.
Zurück zum Zitat Lu J, Behbood V, Hao P, Zuo H, Xue S, Zhang G (2015) Transfer learning using computational intelligence: A survey. Knowl Based Syst 80:14–23CrossRef
16.
Zurück zum Zitat Gerber M, Pillay N (2022) Automated design of feature extraction for unsupervised image clustering using grammatical evolution. In: 2022 IEEE Symposium Series on Computational Intelligence (SSCI). IEEE, S 30–37CrossRef
17.
Zurück zum Zitat Chuchu N, Takwoingi Y, Dinnes J, Matin RN, Bassett O, Moreau JF et al (2018) Smartphone applications for triaging adults with skin lesions that are suspicious for melanoma. Cochrane Database Syst Rev 12(12):CD13192PubMed
19.
Zurück zum Zitat Deeks JJ, Dinnes J, Williams HC (2020) Sensitivity and specificity of SkinVision are likely to have been overestimated. J Eur Acad Dermatol Venereol 34(10):e582–e583CrossRefPubMed
20.
Zurück zum Zitat Freeman K, Dinnes J, Chuchu N, Takwoingi Y, Bayliss SE, Matin RN et al (2020) Algorithm based smartphone apps to assess risk of skin cancer in adults: systematic review of diagnostic accuracy studies. BMJ 368:m127CrossRefPubMedPubMedCentral
21.
Zurück zum Zitat Jahn AS, Navarini AA, Cerminara SE, Kostner L, Huber SM, Kunz M et al (2022) Over-Detection of Melanoma-Suspect Lesions by a CE-Certified Smartphone App: Performance in Comparison to Dermatologists, 2D and 3D Convolutional Neural Networks in a Prospective Data Set of 1204 Pigmented Skin Lesions Involving Patients’ Perception. Cancers 14(15)
22.
Zurück zum Zitat Thissen M, Udrea A, Hacking M, von Braunmuehl T, Ruzicka T (2017) mHealth App for Risk Assessment of Pigmented and Nonpigmented Skin Lesions—A Study on Sensitivity and Specificity in Detecting Malignancy. Telemed J E Health 23(12):948–954CrossRefPubMed
23.
Zurück zum Zitat dermanostic. https://​dermanostic.​com/​. Zugegriffen: 7. Jan. 2025
26.
27.
Zurück zum Zitat Wongvibulsin S, Yan MJ, Pahalyants V, Murphy W, Daneshjou R, Rotemberg V (2024) Current state of dermatology mobile applications with artificial intelligence features. JAMA Dermatol 160(6):646–650CrossRefPubMedPubMedCentral
28.
29.
Zurück zum Zitat Udrea A, Mitra GD, Costea D, Noels EC, Wakkee M, Siegel DM et al (2020) Accuracy of a smartphone application for triage of skin lesions based on machine learning algorithms. J Eur Acad Dermatol Venereol 34(3):648–655CrossRefPubMed
30.
Zurück zum Zitat Maier T, Kulichova D, Schotten K, Astrid R, Ruzicka T, Berking C et al (2015) Accuracy of a smartphone application using fractal image analysis of pigmented moles compared to clinical diagnosis and histological result. J Eur Acad Dermatol Venereol 29(4):663–667CrossRefPubMed
31.
Zurück zum Zitat Ngoo A, Finnane A, McMeniman E, Tan J‑M, Janda M, Soyer HP (2018) Efficacy of smartphone applications in high-risk pigmented lesions. Australas J Dermatol 59(3):e175–e182CrossRefPubMed
32.
Zurück zum Zitat Salinas MP, Sepúlveda J, Hidalgo L, Peirano D, Morel M, Uribe P et al (2024) A systematic review and meta-analysis of artificial intelligence versus clinicians for skin cancer diagnosis. Npj Digit Med 7(1):125CrossRefPubMedPubMedCentral
33.
Zurück zum Zitat Sangers T, Reeder S, van der Vet S, Jhingoer S, Mooyaart A, Siegel DM et al (2022) Validation of a Market-Approved Artificial Intelligence Mobile Health App for Skin Cancer Screening: A Prospective Multicenter Diagnostic Accuracy Study. Dermatology 238(4):649–656CrossRefPubMed
34.
Zurück zum Zitat Han SS, Kim YJ, Moon IJ, Jung JM, Lee MY, Lee WJ et al (2022) Evaluation of Artificial Intelligence-Assisted Diagnosis of Skin Neoplasms: A Single-Center, Paralleled, Unmasked, Randomized Controlled Trial. J Invest Dermatol 142(9):2353–2362.e2CrossRefPubMed
35.
Zurück zum Zitat Patel S, Wang JV, Motaparthi K, Lee JB (2021) Artificial intelligence in dermatology for the clinician. Clin Dermatol 39(4):667–672CrossRefPubMed
36.
Zurück zum Zitat Melarkode N, Srinivasan K, Qaisar SM, Plawiak P (2023) AI-Powered Diagnosis of Skin Cancer: A Contemporary Review, Open Challenges and Future Research Directions. Cancers 15(4)
37.
Zurück zum Zitat Daneshjou R, Vodrahalli K, Novoa RA, Jenkins M, Liang W, Rotemberg V et al (2022) Disparities in dermatology AI performance on a diverse, curated clinical image set. Sci Adv 8(32):eabq6147CrossRefPubMedPubMedCentral
38.
Zurück zum Zitat Shah S (2023) Smartphone-Assisted Artificial Intelligence in Dermatology—A Novel Approach to Help General Practitioners in Underserved Areas. JDR 4:1–3
39.
Zurück zum Zitat Shajirat Z, Parandeh R, Pazyar N, Azizi A (2024) Developing and evaluating a mobile-based teledermatology system for skin lesion diagnosis in Iran. Sci Rep 14(1):20320CrossRefPubMedPubMedCentral
40.
Zurück zum Zitat Jutzi TB, Krieghoff-Henning EI, Holland-Letz T, Utikal JS, Hauschild A, Schadendorf D et al (2020) Artificial intelligence in skin cancer diagnostics: the patients’ perspective. Front Med 7:233CrossRef
43.
Zurück zum Zitat Pala P, Bergler-Czop BS, Gwiżdż JM (2020) Teledermatology: idea, benefits and risks of modern age—a systematic review based on melanoma. Postepy Dermatol Alergol 37(2):159–167CrossRefPubMedPubMedCentral
44.
Zurück zum Zitat Lee C, Witkowski A, Żychowska M, Ludzik J (2023) The role of mobile teledermoscopy in skin cancer triage and management during the COVID-19 pandemic. Indian J Dermatol Venereol Leprol 89(3):347–352CrossRefPubMed
45.
Zurück zum Zitat Felmingham C, MacNamara S, Cranwell W, Williams N, Wada M, Adler NR et al (2022) Improving Skin cancer Management with ARTificial Intelligence (SMARTI): protocol for a preintervention/postintervention trial of an artificial intelligence system used as a diagnostic aid for skin cancer management in a specialist dermatology setting. BMJ Open 12(1):e50203CrossRefPubMedPubMedCentral
46.
Zurück zum Zitat Grzybowski A, Jin K, Wu H (2024) Challenges of artificial intelligence in medicine and dermatology. Clin Dermatol 42(3):210–215CrossRefPubMed
47.
Zurück zum Zitat Kamulegeya L, Bwanika J, Okello M, Rusoke D, Nassiwa F, Lubega W et al (2023) Using artificial intelligence on dermatology conditions in Uganda: a case for diversity in training data sets for machine learning. Afr Health Sci 23(2):753–763CrossRefPubMedPubMedCentral
48.
Zurück zum Zitat Jartarkar SR, Patil A, Wollina U, Gold MH, Stege H, Grabbe S et al (2021) New diagnostic and imaging technologies in dermatology. J Cosmet Dermatol 20(12):3782–3787CrossRefPubMed
49.
Zurück zum Zitat (2024) Pilot Study for the Clinical Validation of an Artificial Intelligence Algorithm to Optimize the Appropriateness of Dermatology Referrals. https://​clinicaltrials.​gov/​study/​NCT06228014. Zugegriffen: 7. Apr. 2022
50.
Zurück zum Zitat (2020) Using Artificial Intelligence as a Diagnostic Decision Support Tool to Help the Diagnosis of Skin Disease in Primary Healthcare in Catalonia. https://​clinicaltrials.​gov/​study/​NCT04562168. Zugegriffen: 15. Jan. 2021
51.
Zurück zum Zitat (2021) Teledermoscopy and Artificial Intelligence: Effects of Implementation in Clinical Practice. https://​clinicaltrials.​gov/​study/​NCT05033678. Zugegriffen: 16. Aug. 2021
52.
Zurück zum Zitat (2021) Based on Artificial Intelligence, Augmented Reality and New Optical Imaging Technology, the Research and Development of a Skin Diseases Intelligent Diagnosis and Treatment System: A Multi-centric Clinical Trial in China. https://​clinicaltrials.​gov/​study/​NCT05463523. Zugegriffen: 15. Apr. 2022
53.
Zurück zum Zitat Felmingham C, Pan Y, Kok Y, Kelly J, Gin D, Nguyen J et al (2023) Improving skin cancer management with ARTificial intelligence: A pre-post intervention trial of an artificial intelligence system used as a diagnostic aid for skin cancer management in a real-world specialist dermatology setting. J Am Acad Dermatol 88(5):1138–1142CrossRefPubMed
54.
Zurück zum Zitat Hanlon KL, Wei G, Correa-Selm L, Grichnik JM (2022) Dermoscopy and skin imaging light sources: a comparison and review of spectral power distribution and color consistency. J Biomed Opt 27(8):80902CrossRefPubMedPubMedCentral
Bildnachweise
Hautkrebs-Screening/© Petra Steuer / Joker / dpa