zur Navigation zum Inhalt
© KPA / picture-alliance
Tom Cruise im Hollywood-Streifen „Minority Report“.
 
Gesundheitspolitik 28. Oktober 2016

Das stete Wühlen im Datenschatz der Welt

Big Data. Soziologen wie Mediziner lernen mithilfe neuer Algorithmen und schneller Sequenzierungsmethoden, die Informationsflut zu kanalisieren und in den Dienst der Gesundheit zu stellen. Die Weitergabe menschlicher Genomsequenzen wirft hingegen ethische Fragen auf.

Jessica stellt regelmäßig Bilder ihrer sportelnden Kinder auf Facebook, Jan präsentiert sich dort als Liebhaber von selbst erzeugtem Eistee, Antonia vollführt mit einer Freundin akrobatische Yoga-Übungen am Ufer eines Badesees, Renate sammelt am Wochenende Pilze und Kräuter für den Eigenbedarf, Simon dokumentiert seine Leidenschaft fürs Rauchen in jedem Land, das er beruflich bereist: Ihre Aktivitäten posten alle umgehend in sozialen Netzwerken wie dem Kurznachrichtendienst Twitter. Dort werden sie schon sehnsüchtig erwartet.

Ob es um Ernährung und Freizeit oder die seelische Verfassung der User geht, die scheinbar banalen Informationen aus dem Privaten sind für eine Gruppe US-Forscher der Universitäten Salt Lake City und Seattle eine willkommene Informationsquelle. Aus den vielen, häufig erstaunlich offenherzigen Mitteilungen generieren sie Daten über die öffentliche Gesundheit.

In einer groß angelegten Untersuchung werteten US-Forscher rund 80 Millionen Tweets auf bestimmte Stichwörter hin aus und verknüpften sie mit anderen demografischen Befunden. Die Tweets waren öffentlich zugänglich, geografisch zuordenbar und zufällig ausgewählt.

„Unsere Daten sagen uns, dass bestimmte Umgebungen weniger Möglichkeiten bieten, um eine gesunde Ernährung zu unterstützen“, wird der korrespondierende Autor, Dr. Quynh Nguyen (College of Health, University of Utah), auf dem Wissenschaftsnachrichten-Ticker Wissenschaft aktuell zitiert. Dem könne man entgegenwirken, wenn in Gegenden mit vielen Fastfood-Restaurants mehr Supermärkte angesiedelt werden, in denen frische Lebensmittel erhältlich sind.

Der Algorithmus der Forscher suchte nach Wörtern wie „Kaffee“, „Bier“, „Pizza“ oder „Eis“ und nach Begriffen, die mit Sport zusammenhängen. Die Daten glichen sie mit offiziellen Gesundheitserhebungen und Volkszählungen ab. Die meisten der untersuchten Tweets handelten übrigens von Kaffee.

Das junge Forschungsfeld

Es ist nicht das erste Mal, das Twitter zur Untersuchung von Gesundheitsaspekten herangezogen wird, es gibt Studien zum Rauchen und zu Krankheitsausbrüchen (Literaturhinweise auf S. 5). Die jüngste Studie zeigt, wie das lokale Umfeld Gesundheit und Wohlbefinden beeinflusst.

Die Analyse von Twitter-Angaben und die Verschränkung mit offiziellen Datenbanken erscheint für sich schon wie eine große Aufgabe, ist aber nur ein relativ kleiner Baustein der Big-Data-Welt. Anders formuliert: Wir haben so viele Daten, dass wir kaum noch klar denken können.

Zum Beispiel Sequenzierungsdaten von Bakterien: Wenn biologische Proben von Haut, Darm oder Boden genommen werden, gehen die daraus sequenzierten Daten in ein Archiv. Darauf können Forscher weltweit zugreifen. Daraus entsteht zunächst nicht mehr Wissen, sondern entstehen neue, ungeheuer große Datenmengen. Um diese auszuwerten, sind völlig neue Methoden notwendig. Ein solches bioinformatisches Werkzeug wird derzeit an der TU München entwickelt.

Mikroben spielen eine entscheidende Rolle in Ökosystemen weltweit, vom Kohlenstoff- über den Stickstoffkreislauf in der Umwelt bis hin zur Regulation von Immun- und Stoffwechselprozessen in tierischen und menschlichen Körpern.

Die nächste Generation

Zunächst war 30 Jahre lang fürs Entziffern der DNA-Codes von Mikroben die 1975 entwickelte SangerSequenzierung vorherrschend. Mit dieser Methode ließ sich auf der DNA die Abfolge der Bausteine aufklären, was die Ära der Genomforschung einläutete. Inzwischen haben die NGS, die sogenannten „Next-Generation-Sequencing-Technologien“, zu einem weiteren Fortschritt geführt. Die aktuellen Geräte können mit geringem personellen Aufwand innert 24 Stunden so viele Daten erzeugen wie zuvor hundert Durchläufe der ersten Sequenzierungsmethode.

Die Sequenzanalyse bakterieller 16S-rRNA-Gene ist heutzutage die häufigste unter den Identifikationsmethoden von Bakterien. Diese Gene gelten als ideale Marker für die Rekonstruktion von Verwandtschaftsgraden unter Organismen. Im Sequenz Read Archive SRA, einer öffentliche bioinformatischen Datenbank fürs Archivieren von Sequenzen, sind mehr als 100.000 solcher Datensätze zusammen gekommen. Diese schlummern dort quasi, denn in ihrer Gesamtheit waren sie bisher nicht auswertbar.

Die neue Routine

„Wir haben ein Werkzeug geschaffen, womit sich diese Datenbanken in relativ kurzer Zeit durchsuchen lassen, um Verwandtschaften zu erkennen.“ Das sagt Dr. Thomas Clavel vom Zentralinstitut für Ernährungs- und Lebensmittelforschung an der TU München. Ein Wissenschaftler könne binnen weniger Stunden eine Abfrage durchführen, um zu überprüfen, in welcher Art von Proben das ihn interessierende Bakterium noch zu finden ist – beispielsweise ein pathogener Erreger aus dem Krankenhaus. „Diese Querverbindungen auszulesen, war bisher nicht möglich.“

Die neue Plattform heißt „Inte-grated Microbial Next Generation Sequencing“ (IMNGS) und ist im Web über www.imngs.org allgemein zugänglich. Registrierte Nutzer können Abfragen tätigen, gefiltert nach der Herkunft ihrer Bakteriendaten, oder auch ganze Sequenzen herunterladen. Bald könnten bioinformatische Sequenzierungen aus der täglichen klinischen Routinediagnostik nicht mehr wegzudenken sein. Um die Beschreibung der Proben zu verbessern und „gut gepflegte Datenbanken zu erhalten“, möchte Clavel ohnehin mit Kliniken kooperieren.

Die Nutzung von großen Datenmengen generiert Informationen, die vielen Menschen helfen können. Prof. Dr. Matthias Beck, Moraltheologe mit Schwerpunkt Medizinethik, meint jedoch, dass ein rein naturwissenschaftlicher Zugang zu wenig sei, dieser müsse stets in Kombination mit einem geisteswissenschaftlichen Ansatz angewendet werden. Gesundheit als solche, sagt Beck, sei in drei Ebenen unterteilt: die physiologische Ebene, die psychologische Ebene und die geistige Ebene.

„Der Mensch fällt aus jeder Bewertungskategorie heraus“, lautet Becks Fazit. „Denn jeder Mensch ist einzigartig und unersetzbar.“

Referenzen zu Big Data/Twitter

- Nguyen et al., Building a National Neighborhood Dataset from geotagged Twitter – Data for Indicators of Happiness, Diet and Physical Activity, JMIR Public Health Surveill 2016/2;

- Yepes A. J., Han B., Investigating public health surveillance using Twitter. ACL-IJCNLP 2015;2015:164;

- Myslín M., Zhu S., Chapman W., Conway M., Using twitter to examine smoking behavior and perceptions of emerging tobacco products. J Med Internet Res 2013;15(8):e174.

Referenz zu IMNGS

- Lagkouvardos et al.: IMNGS: A comprehensive open resource of processed 16S rRNA microbial profiles for ecology and diversity studies, Scientific Reports 2016;go.nature.com/2e6nsre

Martin Křenek-Burger und Philip Klepeisz

, Ärzte Woche 44/2016

Zu diesem Thema wurden noch keine Kommentare abgegeben.

Mehr zum Thema

<< Seite 1

Medizin heute

Aktuelle Printausgaben