Zum Hauptinhalt springen

Der menschliche Faktor – Professor Emmanuel Müller arbeitet an neuen Methoden für die Datenanalyse

Foto: Fotolia/Elnur.
Foto :
Foto: Fotolia/Elnur.

Für die meisten Menschen ist „Big Data“ nur ein abstrakter Begriff, eine undurchsichtige Masse aus Zahlen, Daten, Formeln. Doch Emmanuel Müller ist in dieser Welt zu Hause. Er kann aus Unmengen von hochkomplexen Daten Zusammenhänge sichtbar machen, Muster erkennen und für Wissenschaft und Industrie neue Erkenntnisse gewinnen. Müller ist Experte für Data Mining. Großen Datenbeständen rückt er mit statistischen Methoden auf den Leib, um aus ihnen Informationen zu extrahieren. Im Mittelpunkt steht dabei der Mensch, der versteckte Muster und unbekannte Zusammenhänge in den Daten verstehen soll.

„Entschuldigen Sie bitte, ich bin etwas müde, die Nacht war kurz.“ Emmanuel Müller ist vor wenigen Tagen Vater geworden. Sein zweiter Sohn hat gerade seine erste Nacht zu Hause verbracht – offenbar war sie unruhig. Und dennoch empfängt Müller um 10 Uhr in seinem Büro, die Müdigkeit sieht man dem 35-Jährigen nicht an. Sicher wäre er jetzt auch gern bei seiner Familie, aber: „Als Wissenschaftler lebt man für seinen Beruf.“

„Bei uns kommen die Hypothesen aus der Maschine“

Vor zwei Jahren kam Müller aus Karlsruhe nach Potsdam – als Professor am Hasso-Plattner-Institut der Universität Potsdam (HPI) – mit gerade einmal 33 Jahren. Er leitet das Fachgebiet Knowledge Discovery and Data Mining, eine gemeinsame Forschungsgruppe des HPI und des Deutschen GeoForschungsZentrums (GFZ). Ein Informatiker als Geowissenschaftler? Geht das? „Wir erforschen und entwickeln Data Mining- Methoden“, erklärt Müller. Aus großen Datenmengen extrahiert er mit seinem Team neue Muster und macht unerwartete Zusammenhänge in den Daten sichtbar. Und das ist in nahezu jedem Forschungsfeld gefragt. Ob es dabei um Daten aus der Gensequenzierung, der Klima- oder der Energieforschung geht, ist zunächst zweitrangig. „Datenwissenschaftler forschen nicht für eine spezielle Domäne, sondern disziplinübergreifend.“ Für Emmanuel Müller macht gerade dies den besonderen Reiz seines Forschungsgebietes aus. In den Geowissenschaften interessieren ihn insbesondere Fernerkundungsdaten, die unterschiedliche Phänomene auf der Erde beobachten und erfassen. Dies können beispielsweise Messungen der Vegetation oder von Treibhausgasen sein. Methoden für deren Analyse zu entwickeln, ist seine Aufgabe. Ein Brückenbauer, der die Verbindung zwischen Informatik und Geowissenschaften herstellt.

Nie zuvor war die zur Verfügung stehende Datenmenge so umfangreich und komplex wie heute. Inzwischen ist es sogar möglich, nicht nur vorhandene Arbeitshypothesen mithilfe der Daten zu untersuchen, sondern daraus auch neue abzuleiten. Die Datenanalyse macht verborgene Strukturen und Zusammenhänger erst sichtbar – und eröffnet damit neue Perspektiven. „Bei uns kommen die Hypothesen aus der Maschine“, bringt es Müller auf den Punkt. Dennoch, im Fokus seiner Arbeit steht der Mensch: „Es geht darum, diese Muster dem Einzelnen verständlich zu machen und durch den Menschen verifizieren zu lassen. Data Science bedeutet nicht, dass wir den Menschen ersetzen.“

Der Anstoß zu diesem Vorgehen kam allerdings nicht aus der Wissenschaft, sondern aus der Wirtschaft. In einem Kooperationsprojekt mit einer Firma aus der Autobranche analysierte Müller 2008 – damals noch als Wissenschaftlicher Mitarbeiter an der RWTH Aachen – Daten, die das Unternehmen für eine Bachelorarbeit zur Verfügung gestellt hatte. Was folgte, war für den Wissenschaftler zunächst überraschend: „Die gefundenen Anomalien in den Daten waren gar keine einfachen Messfehler, sondern mussten vom Unternehmen noch aufwendig manuell untersucht und verifiziert werden.“ Die Firma konnte aus den Data Mining-Ergebnissen leider nicht direkt Entscheidungen ableiten, da die bisherigen Methoden nicht in der Lage waren, die gefunden Anomalien auch für den Nutzer anschaulich zu beschreiben. Der statistischen Methode fehlte die intuitive Darstellung und damit der Faktor Mensch.

„Changepoints“ zeigen an, wenn sich etwas im System ändert

Das Industrieprojekt stieß den Wissenschaftler auf ein neues Problem, das weit verbreitet ist. In Gesprächen mit anderen Industriepartnern und Experten zeigte sich: In vielen Fällen reichen die bekannten Methoden der Datenanalyse und des Data Mining nicht aus, um deren Bedürfnisse zu bedienen. Ein Problem, das die Helmholtz-Gemeinschaft erkannt hat. Müller zieht das GFZ als gutes Beispiel heran: „Wissenschaftler müssen kausale Zusammenhänge verstehen und hinterfragen.“ Im Zeitalter von Big Data genügen Korrelationen und Vorhersagen, wie beispielsweise über das zukünftige Kaufverhalten in der Werbebrache, für ein tiefgreifendes Verständnis der Zusammenhänge nicht mehr. Dazu müssen Wissenschaftler genau wissen, was eigentlich in jenen Daten steckt, die von ihren Algorithmen in Kohorten eingeteilt und mit Angaben über statistische Wahrscheinlichkeiten versehen werden. Es geht um den menschlichen Faktor, den Müller in der Big Data Science stärken möchte – mit Methoden, die etwa Anomalien in der Datenstruktur leichter erkennbar machen und eine sensiblere Auswertung ermöglichen. „Damit fing es an, für uns spannend zu werden! Wir haben uns in drei Doktorarbeiten und mehreren Forschungsprojekten mit dem Thema beschäftigt und forschen weiter daran“, sagt Müller.

Methoden, mit denen sich Veränderungen – sogenannte Changepoints – erkennen lassen, stehen dabei im Mittelpunkt der Forschung auf Müllers Fachgebiet. Sie zeigen an, dass sich etwas im System ändert – ob es die Vegetation ist, die über Satellitendaten erfasst wird, oder die Vitalsignale eines Patienten im Krankenhaus, die mit Messgeräten überwacht werden. Die Verfahren, die Müller entwickelt, sollen nicht nur beschreiben, was sich ändert, sondern auch warum. „Dafür gibt es im Moment noch zu wenige Wege, und das treibt uns an.“ Das Forschungsfeld Data Science wächst enorm und rasant. Dafür gibt es im Verhältnis bisher noch zu wenige Studiengänge, welche die von der Wirtschaft und auch in der Wissenschaft händeringend gesuchten Experten hervorbringen. „Der Bedarf lässt sich nur decken, wenn wir auf allen Ebenen ausbilden, von unseren Studierenden bis hin zu den Mitarbeitern in den Firmen“, ist sich Müller sicher. Aber die Studienplatzzahlen steigen. „In den kommenden Jahren werden wir die Lücke schließen.“

Big Data, Data Mining oder Deep Learning – die Fachbegriffe in der Welt der Daten häufen sich. Vielen ist unklar, was eigentlich dahintersteckt. Die Bedeutung von Daten wird auch in den kommenden Jahren zunehmen. Ihre Analyse erleichtert vieles, generiert neues Wissen und zeigt bislang unbekannte Zusammenhänge auf. Doch eines können sie nicht, betont der Forscher: „Jedes Mal, wenn der Mensch als Entscheider auftritt – ob als Firmenchef, Politiker oder Wissenschaftler –, können Algorithmen als Unterstützung dienen. Aber bestimmen muss trotzdem der Mensch allein.“

Der Wissenschaftler

Prof. Dr. Emmanuel Müller studierte Informatik an der Rheinisch-Westfälischen Technischen Hochschule (RWTH) Aachen und ist seit 2015 Professor für Knowledge Discovery and Data Mining am GFZ und dem HPI, mit dem die Universität Potsdam seit April 2017 die gemeinsame Digital Engineering Fakultät bildet.

Hasso-Plattner-Institut 
für Digital Engineering gGmbH
Prof.-Dr.-Helmert-Str. 2–3
14482 Potsdam
Emmanuel.Muellerhpide

Text: Heike Kampe
Online gestellt: Marieke Bäumer
Kontakt zur Online-Redaktion: onlineredaktionuni-potsdamde

Diesen und weitere Beiträge zur Forschung an der Universität Potsdam finden Sie im Forschungsmagazin „Portal Wissen“.