Skip to main content

Kann künstliche Intelligenz Krankheiten verhindern? – Forschende analysieren mithilfe von selbstlernenden Modellen, welches Krankheitsrisiko in unseren Genen steckt

Portrait von Prof. Dr. Christoph Lippert
Photo : Tobias Hopfgarten
Prof. Dr. Christoph Lippert ist seit 2018 Professor an der Universität Potsdam und Forschungsgruppenleiter am HPI.

Etwa 1,7 Millionen Menschen aus Europa und den USA liefern die Datengrundlage für ein groß angelegtes interdisziplinäres Forschungsprojekt. Ihre Erbinformationen und Gesundheitsdaten werden genau analysiert und miteinander verknüpft. Mithilfe neuer Methoden der künstlichen Intelligenz wollen Forscherinnen und Forscher herausfinden, wie die genetische Ausstattung das Krankheitsrisiko beeinflusst und wie die Medizin dieses Wissen nutzen kann.

Es war ein Mammutprojekt in der Geschichte der Genetik und dauerte mehr als zehn Jahre: 1990 wagte sich ein Forschungskonsortium an die Aufgabe, das menschliche Genom komplett zu entschlüsseln. Mehr als 1.000 Wissenschaftlerinnen und Wissenschaftler aus 40 Ländern beteiligten sich am Humangenomprojekt. Mit „Celera“ nahm auch das private Unternehmen des Biochemikers Craig Venter die Herausforderung an und arbeitete parallel zu den Forschungsteams an der Sequenzierung des Erbguts. 2001 konnten sowohl der Unternehmer als auch die Forschenden die Korken knallen lassen: Beide waren auf unterschiedlichen Wegen zum Ergebnis gekommen und entzifferten die genaue Abfolge der rund 3,4 Milliarden Basenpaare, die die menschliche DNA bilden – allerdings noch etwas lückenhaft.

Das Zusammenspiel von Genen und Lebensumständen bestimmt das Krankheitsrisiko

Mehr als 20 Jahre später ist die Sequenzierung des menschlichen Erbguts in den biotechnologischen Laboren Routine. Auch die Lücken sind dank verbesserter Verfahren und Technologien größtenteils geschlossen. Heute dauert die Sequenzierung nur noch 24 Stunden und kostet mit einigen Hundert Dollar nur ein Bruchteil der ursprünglichen Summe. Damit bieten sich für die Medizin völlig neue Möglichkeiten. Denn in unseren über 19.000 Genen stecken auch jede Menge Gesundheitsinformationen.

„Wenn ich Ihr Genom sequenziere, entdecke ich mit ziemlicher Sicherheit Risiken für bestimmte Krankheiten“, erklärt der Bioinformatiker Christoph Lippert, Professor für Digital Health und Machine Learning an der Uni Potsdam und Forschungsgruppenleiter am Digital Health Center des Hasso-Plattner- Instituts (HPI). Welche Krankheiten das sind, wie groß das Erkrankungsrisiko ist, wie es sich durch Vorsorge vermindern lässt und wie die Erkrankung am besten behandelt wird – all das untersucht der Wissenschaftler im Forschungsprojekt INTERVENE, das von der Europäischen Union über fünf Jahre mit zehn Millionen Euro gefördert wird und an dem 17 Institute aus ganz Europa und den USA beteiligt sind.

Ob Herz-Kreislauf-Erkrankungen, Diabetes, Brustkrebs oder Prostatakrebs – es gibt zahlreiche Krankheiten, die eine hohe genetische Komponente haben. Mutationen an bestimmten Stellen des Erbguts sorgen dafür, dass das Krankheitsrisiko steigt. Gut bekannt und erforscht sind etwa Veränderungen der sogenannten „Brustkrebsgene“ BRCA1 und BRCA2, die bei fünf bis zehn Prozent aller Brustkrebspatientinnen für den Ausbruch der Krankheit verantwortlich sind. Bei Frauen mit bestimmten genetischen Veränderungen in diesen Hochrisikogenen besteht eine Wahrscheinlichkeit von 50 bis 80 Prozent, dass sie Brustkrebs entwickeln. Zudem erkranken sie etwa 20 Jahre früher als Frauen, die diese Mutationen nicht besitzen. Oft bestimmen aber nicht nur einzelne genetische Varianten darüber, ob wir Diabetes oder Krebs bekommen. Vielmehr wird das Krankheitsrisiko durch das Zusammenspiel zahlreicher genetischer Komponenten und der Lebensumstände geprägt.

Gesundheitsdaten aus mehreren Jahrzehnten

Um all diese gesundheitsrelevanten Informationen zu verknüpfen und zu entschlüsseln, setzen die INTERVENE-Forschenden auf künstliche Intelligenz. Ziel ist es, neue Methoden zu entwickeln, um genau zu messen, welches Risiko für bestimmte Krankheiten aus dem Genom abgelesen werden kann. Dafür können die Wissenschaftlerinnen und Wissenschaftler auf Genom- und Gesundheitsdaten von insgesamt 1,7 Millionen Menschen aus Europa und den USA zurückgreifen.

Diese Daten stammen aus sogenannten „Biobanken“ – umfassenden Datenbanken aus großen Gesundheitsstudien mit freiwilligen Probandinnen und Probanden. Die beiden größten, mit Datensätzen von jeweils 500.000 Personen, stammen aus Großbritannien und Finnland. Hinzu kommen kleinere Biobanken aus weiteren Ländern Europas und den USA, die einen Querschnitt der Bevölkerung abbilden. Die Teilnehmenden werden meist über einen Zeitraum von mehreren Jahrzehnten beobachtet und regelmäßig medizinisch kontrolliert. Dabei werden auch Blut- oder Speichelproben entnommen, aus denen das Genom gelesen wird. Damit stehen den Forschenden sehr umfangreiche Daten über verschiedene Erkrankungen, Lebensumstände und Risikofaktoren zur Verfügung, die mit genetischen Informationen verknüpft werden können.

Künstliche Intelligenz identifiziert wichtige Biomarker

„Das große Ziel ist es, die medizinische Versorgung zu verbessern“, erklärt die Medizinerin Dr. Henrike Heyne, die mit ihrer Arbeitsgruppe einen genauen Blick auf genetische Risikofaktoren für verschiedene Erkrankungen wirft. „Wir untersuchen sogenannte polygene Risikoscores“, erklärt sie. Dabei prüfen die Forschenden Tausende häufige genetische Varianten, die einzeln betrachtet das Krankheitsrisiko nicht erhöhen. In der Summe aber können solche kleinen Mutationen großen Einfluss auf den Ausbruch von Krankheiten wie Krebs, Diabetes oder Herzinfarkt haben. „Wenn wir besser vorhersagen können, wer ein höheres Risiko hat zu erkranken, können wir Früherkennungs- oder Präventionsprogramme optimieren“, erklärt Henrike Heyne. Das sei nicht nur für den einzelnen Menschen von großem Nutzen, sondern auch für die Allgemeinheit.Die Biowissenschaftlerin Ornela Maloku arbeitet mit der dafür notwendigen künstlichen Intelligenz: Sie entwickelt selbstlernende Modelle – sogenannte tiefe neuronale Netze – und trainiert sie mit den Daten aus den Biobanks. Bevor sie als Postdoc ans HPI kam, hat sie jahrelang in einem molekularbiologischen Labor gearbeitet. „Ich habe alles gelernt, was ich über DNA und RNA wissen muss, wie ich sie aufbereite und sequenziere“, erzählt sie. „Aber nun interessiert es mich mehr, wie man die Daten gut analysieren kann.“ Dafür beobachtet sie genau, wie ihre Modelle die Daten verarbeiten, schreibt Programme, um sie zu verbessern und in Studien mit Genomdaten anwenden zu können. Das Modell soll nach und nach immer besser werden und am Ende in kurzer Zeit die Erbinformationen vieler Menschen nach bestimmten Markern scannen, um genetische Merkmale zu finden, die mit einer bestimmten Krankheit assoziiert sind.

Auch Remo Monti, der im Projekt promoviert, nimmt die genetischen Grundlagen von Krankheiten unter die Lupe und analysiert diese mit künstlicher Intelligenz.Solche neuronalen Netzwerke hat Remo Monti, der im Projekt promoviert, bereits erfolgreich angewendet: Mithilfe von KI-Modellen hat er aus Biobank-Daten Gene identifiziert, die mit bestimmten Blut-Biomarkern assoziiert sind. Diese Biomarker sind körpereigene Signalstoffe und Moleküle, die Krankheiten anzeigen können. Insgesamt identifizierte Remo Monti 117 Gene, in denen genetische Varianten Blut-Biomarker wie Cholesterin potenziell beeinflussen können. „Das Tolle ist, dass wir mit dieser Methode und der großen Datengrundlage auch analysieren können, wie sehr seltene Mutationen Blut-Biomarker beeinflussen“, betont Christoph Lippert. Diese seltenen Genveränderungen können einen großen gesundheitlichen Einfluss haben, sind aber wegen der bislang schlechten Datenlage kaum erforscht. Neue Modelle sollen diese Lücke schließen und helfen, die Funktionen dieser seltenen Mutationen auf molekularem Level vorherzusagen.

Am schwierigsten sind die ethischen Fragen

Es ist ein erstes, Mut machendes Ergebnis, das die Potsdamer Forschenden schon nach einem Arbeitsjahr verbuchen können. Während hier Machine Learning Tools und Theorien zur künstlichen Intelligenz entwickelt, die Methoden weiter optimiert und angewendet werden, geht es in anderen INTERVENE-Gruppen auch um konkrete klinische Anwendungen dieser Instrumente. Patientinnen und Patienten, die ein hohes genetisches Risiko für Brustkrebs und bestimmte Herz-Kreislauferkrankungen haben, sollen in den Pilotstudien darüber informiert und medizinisch betreut werden. In diesen Interventionsstudien werden bereits Erkrankte mit angepassten Therapien behandelt und diejenigen, die noch gesund sind, aber ein hohes Erkrankungsrisiko haben, präventiv begleitet. Der Vergleich von Hochrisikogruppen und Niedrigrisikogruppen soll schließlich zeigen, ob die Maßnahmen erfolgreich sind und die Erkrankungsraten senken können.

„Ich bin Computerwissenschaftler. Für die biologischen und medizinischen Fragen und die Interpretation unserer Ergebnisse sind Kooperationen mit anderen Forschungspartnern notwendig“, betont Christoph Lippert. Dafür arbeitet er etwa eng mit der Charité Berlin zusammen. Am schwierigsten – so schätzt es der Forscher ein – sind aber die ethischen Fragen zu beantworten. Dabei geht es um Datenschutz und Privatsphäre, aber auch darum, wie Ressourcen für ein Frühscreening am besten verteilt werden, ab wann eine Behandlung tatsächlich notwendig wird oder wie jeder Einzelne mit dem Wissen um sein persönliches Krankheitsrisiko umgeht. „Da gibt es noch viel zu forschen und zu lernen“, sagt Lippert.

Das Projekt

„INTERVENE (International consortium for integrative genomics prediction)“ ist ein internationales Forschungskonsortium aus 17 Institutionen. Die Forscherinnen und Forscher entwickeln neue Technologien, um Krankheiten besser zu diagnostizieren, zu behandeln und ihnen vorzubeugen. Dafür nutzen sie Daten aus Erbinformationen, die sie mit neuen Methoden der künstlichen Intelligenz analysieren.

Forderung: Rahmenprogramm Horizon 2020 der EU
Laufzeit: 2021–2025
Beteiligt: University of Helsinki, European Molecular Biology Laboratory, University of Siena, Norwegian University of Science and Technology, University of Tartu, BBMRI-ERIC, Technische Universitat Munchen, CSC – IT Center for Science, Hasso-Plattner-Institut, Aalto University, HUS Helsinki Biobank, University of Cambridge, Massachusetts General Hospital, University of Turin, European Cancer Patient Coalition, Ttopstart, Queen Mary University of London

https://www.interveneproject.eu

Die Forschenden

Prof. Dr. Christoph Lippert studierte Bioinformatik an der Ludwig-Maximilians-Universität München und promovierte an der Eberhard-Karls-Universität Tübingen. Seit 2018 ist er Professor an der Universität Potsdam und Forschungsgruppenleiter am HPI.
E-Mail: office-lipperthpide

Dr. Henrike Heyne studierte Medizin an der Universität Leipzig und promovierte am Max-Planck-Institut für Evolutionäre Anthropologie. Sie ist seit 2020 als Senior Researcher am HPI (Universität Potsdam), wo sie eine Forschungsgruppe leitet.
E-Mail: ornela.malokuhpide

Remo Monti studierte Biotechnologie an der Eidgenössischen Technischen Hochschule (ETH) in Basel. Er promoviert in der Gruppe von Prof. Christoph Lippert am HPI und Prof. Uwe Ohler am Max Delbrück Center.
E-Mail: remo.montihpide

 

Dieser Text erschien im Universitätsmagazin Portal Wissen - Eins 2023 „Lernen“ (PDF).