Skip to main content

Schicht für Schicht – Projektverbund entwickelt neue Methode, um sozialwissenschaftliche Texte komplex analysieren zu können

Viele Zeitungen zu einem Stapel übereinander
Photo : F. Betz / pixelio
Potsdamer Computerlinguisten entwickeln Instrumente, um künftig Millionen von Zeitungsartikeln sprachlich analysieren zu können.

Moderne Informations- und Kommunikationstechnologien verändern alle Bereiche der Gesellschaft. Längst sind sie auch an deutschen Hochschulen unverzichtbar geworden. Besondere Bedeutung haben in jüngster Zeit Projekte gewonnen, in denen Geistes- und Sozialwissenschaftler gemeinsam mit Kollegen aus informatiknahen Fächern neue Forschungsansätze entwickeln. „eHumanities“ nennen Fachleute diesen Bereich. Zu ihm gehört auch ein Verbundprojekt, an dem Potsdamer Computerlinguisten beteiligt sind. Zusammen mit Wissenschaftlern in Stutt­gart und Hildesheim entwickeln sie Instrumente und Verfahren, mit denen Politologen in einem sehr großen Textkorpus Identitätsdiskurse über Kriege und humanitäre militärische Interventionen in der Zeit von 1990 bis 2011 genauer analysieren können. Und das auf völlig neuem Niveau. 

Wie mobilisieren internationale Akteure, also etwa die NATO, die UNO oder Staatschefs, in Krisensituationen kollektive Identitäten? Spielen sie diese ethnischen, religiösen, kulturellen, europäischen, transatlantischen Bindungen gegeneinander aus oder nicht, um eine Mehrheit für die eigene Haltung zu finden? Und welche Ursachen und Effekte hat jene Identitätspolitik? Das alles hat die Wissenschaft bisher noch nicht hinreichend geklärt. Forscher der Universitäten Stuttgart, Potsdam und Hildesheim untersuchen deshalb internationale Diskussionen über Kriege und humanitäre militärische Einsätze seit dem Ende des Kalten Krieges in der Presse einiger europäischer Länder (Deutschland, Österreich, Irland, Frankreich, Großbritannien) sowie der USA. Das Bundesministerium für Bildung und Forschung stellt dafür allein den Potsdamern bis zum Frühjahr 2015 rund 140.000 Euro zur Verfügung.

Genauer betrachtet werden rund eine Million Zeitungsartikel. Das Spektrum der einbezogenen Printmedien reicht von der Frankfurter Allgemeinen Zeitung bis zur Washington Post. Die Politologen erhoffen sich von der aktuellen Forschung neue Methoden, um spezielle Fragestellungen ihres Fachgebietes noch umfänglicher als üblich halbautomatisch bearbeiten zu können. Konkret wollen sie derzeit sehen, ob und wie sich die Identitätsfrage in der ausgewählten Presse widerspiegelt, ob sich dies über längere Zeiträume möglicherweise verändert und welche Mechanismen es gibt, Identitäten zu formen. Um die Vielschichtigkeit der relevanten Indikatoren sowie den erheblichen Korpus zu bewältigen, brauchen sie jedoch geeignete sprachtechnologische Werkzeuge.

Der Projektverbund will genau diese erarbeiten. „Wir betreten Neuland“, sagt der Potsdamer Computerlinguist Prof. Dr. Manfred Stede. „Neuland, weil wir einen transparenten, individuell nutzbaren Complex Concept Builder – CCB – entwickeln wollen, mit dem komplexe Fachbegriffe für die Anwendung an alltagssprachlichem Textmaterial in einem interaktiven Verfahren operationalisiert werden. Das gab es so bisher noch nicht.“ Der CCB integriert Werkzeuge, mit denen die Politikwissenschaftler künftig Beziehungen, aber auch Bewertungen von Sprechern analysieren können. Eine sogenannte Explorationswerkbank soll den CCB flankieren. Sie dient dem Ziel, die höchst unterschiedlichen Texte so zusammenzuführen – zu harmonisieren –, dass sie am Ende vergleichbar und maschinenlesbar sind. Aus voneinander abweichend formatierten Quellen entstehen also einheitliche Artikel, in denen Überschriften, Teaser und Hauptteile deutlich zu erkennen sind. Den beteiligten Seiten ist es übrigens von Beginn an wichtig, solche Analysewerkzeuge bereitzustellen, die die gesamte sozialwissenschaftliche Community auch für andere Anwendungen, bei denen große Textmengen eine Rolle spielen, nutzen kann.

Inzwischen ist die Arbeit an der Explorationswerkbank gut vorangegangen und die Stuttgarter Politologen agieren manuell schon mit einer Reihe von Werkzeugen aus peu á peu gebauten Modulen. So können sämtliche Annotationen der Politikwissenschaftler über den CCB vorgenommen sowie die Artikel nach Thema und Genre klassifiziert werden. Doch es bleibt trotzdem noch eine Menge zu tun. „Wir müssen den CCB weiter vorantreiben“, betont auch Manfred Stede. Die Aufgabe ist gewaltig. Schließlich soll dieser später auf Suchanfragen reagieren, die nicht einzelne Wörter beinhalten, sondern „Konzepte“ beschreiben. Er könnte also etwa Texte zur Verfügung stellen müssen, in denen „der Regierungschef eines Landes im Nahen Osten verkündet, dass er sich an einem Konflikt im arabischen Raum nicht beteiligen wird“. Das System soll dann automatisch die einzelnen Ebenen des Satzes, einschließlich der rein linguistischen, „ausbuchstabieren“: die infrage kommenden Staatschefs, das Thema, den Konflikt, die konkrete Art der Äußerung oder die ablehnende Haltung des Staatschefs. Für die Wissenschaftler heißt das, im Vorfeld reichlich Wissen modellieren und auch lexikalische Relationen hinterlegen zu müssen. Noch wird mit Hochdruck daran gearbeitet.

Der Erfolg des Projekts hängt auch davon ab, wie Manfred Stede und sein Doktorand Jonathan Sonntag ihre ganz spezielle Aufgabe bewältigen: Sie wollen ein Werkzeug für die automatische Satz- und Sentimentanalyse (Meinungsanalyse) entwickeln – also eines, das, um das vorangegangene Beispiel zu bemühen, erkennt, ob ein arabischer Staatschef die Beteiligung an einem Konflikt ablehnt. Das ist Puzzle-Arbeit. Eine mit offenem Ausgang. Denn, wie Stimmungen und Meinungen von objektiven Darstellungen in Texten unterschieden werden können, ist computerlinguistisch bisher nicht zufriedenstellend geklärt. „Um solche Sentimentrelationen zu berechnen, werden die anderen Analyseebenen, etwa syntaktische Relationen, Koreferenz und weitere, verwendet, um Gesetzmäßigkeiten auszudrücken“, erläutert Jonathan Sonntag das Vorgehen. In seiner Dissertation schaut er sich Sätze wie diesen an: „Die Eidgenossen können sich zuweilen nicht verkneifen, dem Ausland diese Tatsache unter die Nase zu reiben.“ Ist mit dem Ausdruck „unter die Nase reiben“ eigentlich immer eine negative Einstellung des Autors beziehungsweise Sprechers verbunden? Fragen wie diese interessieren ihn. Ebenso wie die nach dem Ausgangspunkt der Sentimentrelationen. Beginnen sie immer beim Subjekt und betreffen das Objekt? „Definitiv nicht“, sagt er schon jetzt. Und wie sieht das Spektrum des Ausdrucks von Negation aus, wie schwächen Schreiber ihre Einschätzungen ab? Der Promovend will all dies genauer wissen.

„Im Moment ist die Subjektivitätsfrage in der Tat für uns ganz wichtig“, unterstreicht Manfred Stede. „Wir haben bereits ein Programm ­gebaut, das die Texte entsprechend klassifiziert und sie danach sortiert, ob sie Nachrichten oder Meinungen sind.“ Das Team hat dafür unter anderem nach subjektiv gefärbten Adjektiven, aber auch nach linguistischen Mitteln, etwa Modalverben, gesucht. Gefunden hat es ein ganzes Konglomerat an Merkmalen, die den Charakter der Texte kennzeichnen. So finden sich „sollte, müsste, könnte“ eher in Kommentaren als in anderen Textsorten, Negationen wie „nicht der Fall“ oder „nicht stattgefunden“ kommen in Nachrichten eher selten vor. „Wir werden die Frage danach, wie sich Objektives von Subjektivem in Programmen trennen lässt, sicher nicht endgültig beantworten können“, so Manfred Stede. „Aber unser Ansatz ist dennoch vielversprechend.“

Für die Wissenschaftler der beteiligten Disziplinen stellt das Gesamtprojekt ohne Zweifel eine echte Herausforderung dar. Manfred Stede jedenfalls findet es gleich in zweifacher Hinsicht spannend: technisch wie inhaltlich. Technisch, weil man Instrumente schaffen möchte, mit denen Sozialwissenschaftler einen ungewöhnlich großen Textkorpus effizient durchsuchen können, inhaltlich, weil nicht mehr eine semantische Suche erfolgen soll, sondern eine konzeptuelle. „Gelingt uns beides, ist das ein echter Schritt nach vorn“, so der Professor.

Das Projekt

Multiple kollektive Identitäten in internationalen Debatten um Krieg und Frieden seit dem Ende des Kalten Krieges. Sprachtechnologische Werkzeuge und Methoden für die Analyse mehrsprachiger Textmengen in den Sozialwissenschaften

Verbundkoordinatorin: Prof. Dr. Cathleen Kantner (Universität Stuttgart)
Laufzeit: 2012–2015
Finanzierung: Bundesministerium für Bildung und Forschung
Internetseite: http://www.uni-stuttgart.de/soz/ib/forschung/Forschungsprojekte/eIdentity

Die Wissenschaftler

Prof. Dr. Manfred Stede studierte Informatik und Linguistik an der Technischen Universität Berlin; 1996 Promotion in Informatik an der Universität Toronto. Seit 2001 ist er Professor für Angewandte Computerlinguistik an der Universität Potsdam.

Kontakt

Universität Potsdam
Department Linguistik
Karl-Liebknecht-Str. 24–25, 14476 Potsdam 
E-Mail: stedeling.uni-potsdamde

Jonathan Sonntag studierte an der Universität Potsdam Computerlinguistik; 2012 beendete er dies mit einem Diplom. Seither ist er wissenschaftlicher Mitarbeiter im Projekt eIdentity.

Kontakt

E-Mail: jonathan.sonntagyahoode

Published

Online editorial

Agnes Bressa