Skip to main content

Das Beste aus beiden Welten - Was Mathematik mit dem Wetter, Amöben und dem menschlichen Blick verbindet

Datenassimilation findet in vielen Gebieten Anwendung – mit am längsten eingesetzt wird sie in der Meteorologie.
Image : Andreas Töpfer
Datenassimilation findet in vielen Gebieten Anwendung – mit am längsten eingesetzt wird sie in der Meteorologie.

Daten sind schwer in Mode. Satellitenaufnahmen machen die gesamte Welt verfügbar – detailgenau, rund um die Uhr. Auch der Mensch wird bis ins Kleinste erfasst, vom Erbgut bis zum Herzschlag. Verkehrsflüsse, Zellstrukturen, Internetströme – und das ist erst der Anfang. Doch je mehr Daten zur Verfügung stehen, umso drängender wird die Frage, mit welchen Mitteln sich diese ordnen, analysieren und interpretieren lassen. Eine Lösung bieten mathematische Modelle, die große Datenmengen strukturieren und auch „lesbar“ machen könnten. Doch noch kommen Modell und Daten nicht immer so einfach zusammen. An dieser Stelle setzt der SFB 1294 an, dessen Titel Programm ist: „Die nahtlose Verschmelzung von Daten und Modellen“. Matthias Zimmermann sprach mit den Mathematikern Prof. Dr. Sebastian Reich, Sprecher des SFB, und seinem Stellvertreter, Prof. Dr. Wilhelm Huisinga.

Datenassimilation ist ein Brückenschlag zwischen Theorie, also dem mathematischen Modell, und Praxis, den gemessenen Daten, die in dieses Modell einfließen sollen. Wie funktioniert das?

Sebastian Reich: Dank moderner Rechentechnik lassen sich mathematische Modelle simulieren. Dabei entstehen übrigens auch Daten – sozusagen eine Widerspiegelung des Phänomens, das man modellieren möchte. Auf der anderen Seite stehen experimentelle Daten, die man über Messungen bekommt. Das Ziel der Datenassimilation ist, diese beiden Welten zusammenzuführen und die Modelle mithilfe der experimentellen Daten zu kalibrieren, zu validieren, zu vergleichen, Modellansätze zu verifizieren, etc. Man möchte das Beste aus beiden Welten verbinden und das passiert algorithmisch gesehen über die Assimilation von Daten in Modelle.

Wilhelm Huisinga: Vielleicht kann ich da gleich mal widersprechen. (Lacht.) Ich würde sagen, dieses „Beste aus beiden Welten“ existiert nicht für sich. Erst durch die Kombination wird es überhaupt dazu. Über Big Data heißt es häufig, dass dabei mithilfe vieler Daten Wissen generiert wird. Da würden wir entgegnen: Viele Daten zu erheben, führt nicht unbedingt zu neuen Erkenntnissen. Es braucht auch innovative Methoden, um diese Daten in Wissen umzuwandeln. Und das ist die Kombination von Experiment und Modell. Die Modelle enthalten im Prinzip unsere Vorstellung von jenen Prozessen, die den gemessenen Daten zugrunde liegen. Erst durch die Kombination von Modellen und Daten kann man Wissen generieren.

Reich: Wobei auch da der Unterschied fein ist. In naturwissenschaftlichen Modellen werden Prinzipien für den Modellentwurf verwendet. Aber wir haben auch Projekte, bei denen diese Prinzipien nicht unbedingt bekannt sind. In den Kognitionswissenschaften geht es beispielsweise darum, diese Prinzipien überhaupt erst einmal zu entdecken. Und auch dazu braucht man Daten. Man kann verschiedene Modelle vorschlagen, aber um zu entscheiden, welches Modell das angemessenere ist, müssen sie mit Daten zusammengebracht werden. Diese Verschmelzung findet in der Datenassimilation statt. Sie ist die Schnittstelle zwischen Statistik, die sich historisch damit beschäftigt, wie man Daten modelliert, und angewandter Mathematik, die sich primär der Entwicklung von Modellen und ihrer Analyse widmet, aber auch dem maschinellen Lernen. Letzteres geht im Kern ebenfalls der Frage nach, wie aus Daten Modelle generiert werden können, die gewisse Aufgaben erfüllen.

Wie ist das Feld der Datenassimilation eigentlich entstanden?

Reich: Sehr stark im Zusammenhang mit der Meteorologie. Wir haben zwar ein relativ gutes Verständnis davon, wie Wetterphänomene ablaufen, aber bei der Meteorologie geht es eben darum, Vorhersagen zu treffen. Es gibt einen schönen Satz des Statistikers George Box: „Alle Modelle sind falsch, einige sind nützlich.“ Was damit gemeint ist: Man muss Modelle immer wieder an die Realität anpassen. Das gilt auch für die Modelle zur Wettervorhersage. In diesem Zusammenhang ist die Datenassimilation enorm vorangetrieben worden. So hat die Verfügbarkeit von Satellitendaten der Südhalbkugel zu enormen Verbesserungen der Vorhersage-Qualität geführt. Aber im SFB befassen wir uns nicht nur mit Vorhersagen. Wir möchten auch Modelle finden, die Dinge erklären können.

Huisinga: Ein Beispiel aus dem SFB: Ein Teilprojekt geht der Frage nach, wie sich erkennen lässt, ob eine Person ein Bild, das sie betrachtet, zuvor schon einmal gesehen hat oder nicht. Dabei ist es egal, welche Prinzipien dazu führen, was im Gehirn abgerufen wird, und welchen Einfluss das auf die Blickbewegung hat. In anderen Bereichen wiederum möchte man sehr wohl auch ein Verständnis dafür entwickeln, warum etwas so ist, wie es ist. Zum Zitat von George Box möchte ich ergänzen: Eigentlich müsste man sagen, alle Modelle sind Approximationen, also Annäherungsverfahren. Einige von ihnen sind nützlich, andere völlig daneben, sodass man mit ihnen nichts anfangen kann.

Reich: … „falsch“ ist natürlich etwas überspitzt formuliert. Die Modelle haben eine Approximationsgüte, aber es treten Fehler auf, das ist der wichtige Punkt. Und diese Fehler häufen sich, zum Beispiel bei der Wettervorhersage, so sehr, dass nach sieben Tagen die Vorhersage-Güte sehr gering ist. Nur die ständige Anpassung des Modells über die Daten erlaubt immer wieder gute Vorhersagen. In diesem Sinne ist der Satz von George Box zu verstehen.

Huisinga: Deswegen ist Datenassimilation ja auch so eine schöne Kombination. Man hat ein erklärendes oder gar vorhersagendes Modell, das aber scheinbar nach einigen Tagen nicht mehr so gut ist – und zwingt das Modell, immer wieder mit der Wirklichkeit in Austausch zu treten – über diesen Datenassimilationsschritt.

Reich: Man kann sich das wie einen Lernprozess vorstellen. Das Modell lernt ständig durch diese Daten.

Sind die „Data assimilation algorithms“ etwas anderes als die mathematischen Modelle zur Simulierung von Prozessen selbst?

Huisinga: Ich würde sagen, ja. In der Meteorologie, um im Bild zu bleiben, gibt es Gleichungen, die die verschiedenen Prozesse beschreiben und für eine bestimmte Zeit, einen bestimmten Ort eine Vorhersage treffen. Jetzt kommt ein Messpunkt hinzu und es gilt, diesen mit der Vorhersage zusammenzubringen. Ich würde schon sagen, das ist eine Art statistisches Modell, das auf dem eigentlichen mechanistischen Modell aufbaut – und Daten und Modelle assimiliert.

Wie funktioniert das mathematisch?

Reich: Man kann sich das wie eine Art Rückkopplungseffekt vorstellen. Das ursprüngliche Modell hat einen Output, zum Beispiel eine Vorhersage, der immer wieder mit neuen Beobachtungen, also Daten, verglichen wird. Auf Grundlage dieser Daten wird das Modell angepasst. Diese Rückkopplungsschleife ist relativ unabhängig vom konkreten Modell. Deswegen beschäftigt sich der SFB mit allgemeinen Algorithmen der Datenassimilation – als eigenständiges mathematisches Problem – im Forschungsbereich A. Im Forschungsbereich B geht es um konkrete Anwendungen, für die die Algorithmen angepasst werden müssen: Welche Prozesse stecken dahinter? Wie kann man diese Rückkopplung erreichen? Und was ist die konkrete Aufgabe: Vorhersage, Klassifizierung oder Modellverifikation? Ein gutes Beispiel ist, auch wenn es im SFB noch keine Rolle spielt, autonomes Fahren. Ein selbst fahrendes Auto hat viele Sensoren, die die Umgebung wahrnehmen. Auf deren Daten muss das Auto reagieren. Dafür braucht es ein grundlegendes Modell, das definiert, was das Fahrzeug wann und wie tut. Dazu kommt ein Rückkopplungssystem, mit dem die ständig eingehenden Messdaten berücksichtigt werden. Ähnliche Fragen erwarten uns in der personifizierten Medizin.

Huisinga: Das Tolle an der Mathematik ist: Sie ist eine Art allgemeine Sprache, mit der man Phänomene beschreiben kann – und zwar abstrahierend. Dadurch zeigt sich, dass unterschiedlichen Anwendungsproblemen die gleichen mathematischen Fragestellungen oder Modelle zugrunde liegen. Auch im SFB, wo in zwei Projekten derselbe mathematische Prozess wichtig ist, obwohl es dabei einerseits um Erdbebenforschung, andererseits um die Bewegung von Amöben geht. Das Besondere an diesem Prozess ist, dass das Auftreten eines Ereignisses eine Rückkopplung auf das Auftreten zukünftiger Ereignisse hat. So zieht ein großes Erdbeben viele kleinere Beben nach sich. Amöben wiederum bewegen sich, indem sie koordinierte Ausstülpungen der Membranen erzeugen, sogenannte Pseudopodien. Die Wahrscheinlichkeit ist höher, dass ein Pseudopodium in der Nähe von bereits existierenden entsteht. Auf diese Weise bewegt sich die Zelle in eine Richtung. So zeigt sich, dass Erdbeben und Amöben – mathematisch – viel näher beieinander sind, als man von außen erwarten würde.

Reich: Der andere wichtige Aspekt ist, dass erst mathematische Modellierung und moderne Rechentechnik es ermöglicht haben, komplexe Prozesse sehr weitreichend zu analysieren, zu simulieren und zu ihnen sogar Vorhersagen zu treffen. Erst mit modernen Rechnern kann man Planetenbahnen Tausende Jahre im Voraus bestimmen oder die Wahrscheinlichkeit von Erdbeben vorhersagen.

Gibt es so etwas wie allgemeine Algorithmen zur Datenassimilation?

Reich: Ja, es gibt gewisse Grundprinzipien. Einer der „Klassiker“ stammt aus den 1960er Jahren, der Kálmán-Filter. Rudolf Kálmán war ein ungarischer Mathematiker, der für lineare Modelle, also eine eingeschränkte Klasse von Modellen, einen solchen Algorithmus zur Datenassimilation entwickelt hat. Dieser spielte unter anderem im Apollo-Programm eine wichtige Rolle. Aber es gibt weitere Methoden, verschiedene Techniken der Statistik. Im SFB wollen wir diese auch ein bisschen zusammenführen, daraus wieder Prinzipien ableiten und insbesondere auch neue Algorithmen erarbeiten.

Huisinga: Ein weiteres Ziel des SFB ist es, die Datenassimilation von den klassischen Anwendungen wie in den Geowissenschaften und der Meteorologie in neue Bereiche zu bringen, zum Beispiel die Kognitionswissenschaften oder die Biologie. So haben wir ein Anwendungsbeispiel, in dem es darum geht diese Datenassimilations-Techniken gewinnbringend in der Pharmakologie zu nutzen.

Reich: Die Datenassimilation wurde lange vorrangig durch die Anwender vorangetrieben. Aber in den vergangenen zehn Jahren ist das Interesse gewachsen, diese Dinge mathematisch zu verstehen und zu analysieren, was da eigentlich passiert. An diese Entwicklungen knüpft der SFB an.

Huisinga: Letztlich haben auch die Anwender etwas davon. Gerade in der Praxis muss man wissen, wann Modelle funktionieren, und noch viel mehr, wann sie nicht funktionieren. Denn die Nutzer werden es auf alles anwenden. Und mitunter merkt man vielleicht nicht, dass eine überraschende Vorhersage kein reales Phänomen ist, sondern einfach daraus resultiert, dass die Mathematik beziehungsweise das Modell in diesem Fall nicht trägt.

Reich: Beispielsweise stößt die Meteorologie mittlerweile an die Grenzen der eingesetzten Algorithmen. Seitdem die Modelle immer detailreicher und zunehmend dreidimensional werden, sind auch neue Datenassimilationsalgorithmen nötig.

Ist mit dem Zeitalter von „Big Data“ auch ein bisschen der „Stern der Datenassimilation“ aufgegangen?

Reich: Es gibt mathematisch betrachtet sehr viele Schnittmengen. Der Unterschied aus meiner Sicht ist eigentlich nur, dass man bei großen Datenmengen schnell von „Big Data“ spricht. Das heißt, man hat enorme Datenmengen, um viele Parameter zu finden. Während bei anderen Anwendungen, wo es vielleicht nicht so viele Daten gibt, spezifischere Modelle entwickelt werden müssen. Das ist eine Frage der Balance. Viele Algorithmen, die in der Datenassimilation eingesetzt werden, finden zunehmend auch im maschinellen Lernen Anwendung und umgekehrt.

Braucht man für eine gelungene Datenassimilation einen Mathematiker fürs Modell, eine Fachwissenschaftlerin für die Datenerhebung und einen Data Scientist für deren Implementierung?

Reich: Meist fängt das Ganze mit einem Anwender an, der sagt: „Ich habe hier eine Fragestellung …“ Häufig sind die Anwender sogar mathematisch gut gebildet und verfügen bereits über ein Modell, arbeiten auch damit, kennen es aber nicht genau. Dann kommt ein Mathematiker dazu, der versucht, das Modell zu analysieren und zu verbessern. Daraus entsteht im Idealfall ein Dialog, in dem sie gemeinsam einen Algorithmus entwickeln, der auch praxistauglich ist. Denn ein Anwender braucht eine Vorhersage ja zu einem ganz bestimmten Zeitpunkt – das Wetter heute Abend und die Erdbebenwarnung vor dem Beben.

Huisinga: Im SFB gibt es mit Teil A durchaus Bereiche, für die die Mathematiker zuständig sind, und mit Teil B die Anwender. Wichtig ist, sie miteinander ins Gespräch zu bringen.

Reich: Genau. Aber wenn man die B-Projekte betrachtet, sieht man, dass stets Mathematiker und Anwender gemeinsam daran arbeiten. Das ist auch das Spannende an den Projekten: Denn als Spezialist muss man zuerst die Sprache und Probleme der anderen verstehen. Erst dann kann man gemeinsam etwas schaffen.

Sie sprechen die beiden großen Teile des SFB an. Könnten Sie kurz erläutern, was im Bereich A gemacht wird?

Reich: Viel Mathematik. (Lacht.) Es gibt insgesamt sechs Teilprojekte. Das geht von statistischen Fragestellungen im Zusammenhang mit hochdimensionalen stochastischen Prozessen bis hin zu statistischen Fragestellungen von inversen Problemen. So gibt es zum Beispiel zwei Projekte, die sich insbesondere mit dem bereits angesprochenen Aspekt des Lernens beschäftigen, also mit der kontinuierlichen Anpassung von Modellen an Daten. Weiterhin geht es in Projekt A03 um die Frage, wie man Entscheidungen optimal fällt und in Projekt A05 um Punktprozesse.

Und worum drehen sich die Anwendungsvorhaben im Teil B?

Huisinga: Wie erwähnt untersuchen wir in einem biophysikalischen Projekt, wie Amöben sich bewegen. Hier geht es um Modellentwicklung und Datenerhebung gleichermaßen. Ein zweiter Fokus liegt auf der Erdbebenforschung, ein etabliertes Forschungsfeld in Potsdam. Ziel ist es hier, Erdbeben nicht nur zeitlich, sondern auch räumlich aufgelöst zu modellieren. Gleich zwei Projekte haben wir im Bereich Kognitionswissenschaften, die wir für Datenassimilation zugänglich machen wollen. Das eine erstellt kognitive Bewegungsmodelle, das andere untersucht, wie erwähnt, ob man ein Bild anders betrachtet, wenn man es schon einmal gesehen hat.

Reich: Das letzte Projekt dreht sich um das sogenannte Weltraumwetter. Gemeint ist damit der Einfluss, den die solaren Aktivitäten auf den Strahlungsgürtel haben, der die Erde umgibt und für die Satelliten von großer Bedeutung ist. Insgesamt führen wir im SFB die mathematische Grundlagenforschung zur Datenassimilation mit Disziplinen zusammen, auf denen die Universität Potsdam ausgewiesen forschungsstark ist – also vor allem die Biologie und die Kognitions- und Geowissenschaften. Das Spannende an so einem SFB ist aber nicht zuletzt die Interaktion zwischen Projekten. Die einen machen das, die anderen das – aber wie kommen sie zusammen? Man könnte beispielsweise die Amöbenbewegung über stochastische partielle Differenzialgleichungen modellieren und dann hat man plötzlich eine Interaktion zwischen einem eher anwendungsgetriebenen und einem mathematisch motivierten Projekt. In so einem Rahmen wird die Wahrscheinlichkeit drastisch erhöht, dass Leute miteinander in Kontakt kommen, die das sonst vielleicht auch könnten, aber nicht täten.

Im Zentrum des Sonderforschungsbereichs (SFB) 1294 mit dem Titel „Datenassimilation – Die nahtlose Verschmelzung von Daten und Modellen“ steht die Integration großer Datenmengen in komplexe Computermodelle. Dadurch soll es möglich werden, zugrunde liegende Prozesse besser zu verstehen und genauere Vorhersagen zu treffen. In der Meteorologie, der Hydrologie und der Rohstoffsuche werden Datenassimilationstechniken bereits sehr erfolgreich eingesetzt. Künftig sollen auch neue Anwendungsgebiete aus der Biologie, der Medizin sowie den Kognitions- und Neurowissenschaften davon profitieren. Dazu sind eine theoretische Fundierung existierender und die Entwicklung neuartiger Algorithmen zur Datenassimilation dringend notwendig.

Der SFB 1294 besteht aus elf wissenschaftlichen Teilprojekten, einem Dateninfrastrukturprojekt und einem integrierten Graduiertenkolleg. Hinzu kommt ein zentrales Verwaltungsprojekt. Von den 17 Antragstellerinnen und Antragstellern des SFB stammen zwei vom Helmholtz- Zentrum Potsdam – Deutsches GeoForschungsZentrum, einer vom Weierstrass-Institut Berlin, einer von der Humboldt-Universität zu Berlin, zwei von der Technischen Universität Berlin und elf von der Universität Potsdam aus den Instituten für Mathematik, für Physik und Astronomie, für Informatik und Computational Science sowie dem Department für Psychologie.

www.sfb1294.de

Die Wissenschaftler

Prof. Dr. Wilhelm Huisinga studierte Mathematik in Berlin. Seit 2010 ist er Professor für Mathematische Modellierung und Systembiologie an der Universität Potsdam und Stellvertetender Sprecher des SFB1294.
E-Mail: huisingauni-potsdamde

Prof. Dr. Sebastian Reich studierte Elektrotechnik und Mathematik an der TU Dresden. Seit 2004 ist er Professor für Numerische Mathematik an der Universität Potsdam. Er ist Sprecher des SFB 1294.
E-Mail: sebastian.reichuni-potsdamde

 

Dieser Text erschien im Universitätsmagazin Portal Wissen - Zwei 2019 „Daten“.