Soziale Medien haben die Welt der öffentlichen Kommunikation verändert. Durch Anwendungen wie Twitter, Facebook und Weblogs gibt es unzählige Möglichkeiten für Nutzer, sich unmittelbar einzubringen. Längst vorbei ist die Zeit, da noch journalistische „Gatekeeper“ im Internet die Rolle der zentralen Vermittler von Themen und Meinungen übernahmen. Diese Entwicklung hinterlässt gleichwohl Spuren: Prozesse und Strukturen aktueller Debatten wandeln sich. Sowohl die Themenkarrieren als auch die Meinungsbildung verlaufen anders als in den klassischen Medien. Ein Projektverbund unter Beteiligung Potsdamer Wissenschaftler will dies genauer untersuchen und automatisierte Verfahren entwickeln sowie evaluieren, mit denen sich digitale Texte aus Online-Diskursen in großem Umfang auswerten lassen. Damit könnten wichtige kommunikationswissenschaftliche Fragen beantwortet werden.
Nach welchen Mustern verbreiten sich Themen im Internet? Wie findet hier Meinungsbildung statt? Das hat die Wissenschaft bisher nicht geklärt. Forscher der Universitäten Potsdam, Münster, München und Stuttgart-Hohenheim untersuchen deshalb nun den Verlauf politischer Kommunikation im Netz. Das Bundesministerium für Bildung und Forschung (BMBF) stellt dafür bis zum Sommer 2015 insgesamt 800.000 Euro zur Verfügung.
Genauer betrachtet werden Facebook, Twitter und Weblogs. Vor den beteiligten Teams stehen eine Menge Fragen: Gewinnen Bürger mit diesen Medien tatsächlich Einfluss auf den demokratischen Prozess? Oder bleibt die Meinungsmacht doch in der Hand weniger? Und wie beeinflusst das mediale Umfeld eigentlich die Qualität der Diskussionen? Die Antworten darauf sollen mithilfe neuer interdisziplinärer Methoden gefunden werden.
Der Projektverbund „Analyse von Diskursen in Social Media“ will genau diese entwickeln. Und die Chancen, dass dies gelingt, stehen gut. Die Voraussetzungen jedenfalls sind bestens: Immerhin sind mit den federführenden Wirtschaftsinformatikern in Münster, den Computerlinguisten in Potsdam und den Kommunikationswissenschaftlern in München und Stuttgart-Hohenheim Vertreter unterschiedlichster Fächer mit an Bord. Einmal erarbeitet, sollen die Methoden es künftig möglich machen, im Internet anfallende große Textmengen teilautomatisch zu analysieren und auszuwerten. Auch die Netzwerke zwischen den Beiträgen will man erfassen. Also die Verbindungen, die sich beispielsweise durch Hyperlinks oder die Weiterleitung kurzer Textnachrichten, den sogenannten Tweets, ergeben. Letzteres würde großen Erkenntniszuwachs bedeuten: Könnten so doch Verbreitungswege und auch der Einfluss einzelner Netzwerkknoten ausfindig gemacht werden.
„Wir wollen die verschiedenen Social Media-Typen mithilfe einer prototypischen Software analysieren und auf der Makroebene strukturieren. Dafür müssen wir zunächst einmal eine Analyse von Sentiments, also Meinungsäußerungen, und Diskursqualitäten vornehmen, die uns Erkenntnisse über die Art der jeweiligen Wortmeldungen und die auftretenden Dynamiken auf der Mikroebene einzelner Tweets liefert. Und die wird später durch die Kombination automatisierter und manueller Verfahren zu ganzen Diskursen erweitert“, erklärt Prof. Dr. Manfred Stede das Vorgehen. Der Computerlinguist hat die Leitung des Potsdamer Parts am Projekt übernommen. Das Vorhaben dürfte insbesondere für die Geistes- und Sozialwissenschaften neue Einsichten bringen.
Viel wird davon abhängen, wie gut Stedes Team seine „Hausaufgaben“ erledigt: die maßgeschneiderte Anwendung computerlinguistischer Methoden auf die Internet-Texte. Nur wenn das funktioniert, lässt sich auch das „Geheimnis“ um die entstehenden Netzwerke von Beiträgen zu einem bestimmten Thema lüften. Stede und zwei Promotionsstudenten suchen die berühmten Nadeln im Heuhaufen: Ihr Ziel es, ein Instrumentarium zu schaffen, das signalisiert, ob in Social Media-Texten Einschätzungen von Ereignissen oder Personen vorliegen. Das Werkzeug muss beispielsweise erkennen können, dass in dem Satz „Ich schaue mir die ZDF-Nachrichten an“ keine Beurteilung enthalten ist. Es muss andererseits aber in der Lage sein, die gleich doppelt negative Wertung im Satz „Gauck ist noch schlimmer als Wulff“ herauszufiltern. Eine echte Herausforderung für die Wissenschaftler. Sie haben sich vorgenommen, diese Ausdrücke von Subjektivität so zu klassifizieren, dass die offene oder auch nur verschlüsselte Haltung und möglicherweise auch der Bezug zu anderen Beiträgen später problemlos quantifiziert werden können. Außerdem wollen sie Methoden ausarbeiten, um die Qualität von Social Media-Äußerungen zu bestimmen. Beides dient dazu, mit automatischen Mitteln den menschlichen Analysten zu unterstützen.
Manfred Stede ist sich der großen Erwartungen bewusst. Nervös macht ihn der Druck nicht. Im Gegenteil: Für ihn ist diese Projektarbeit faszinierend. Die vorhandenen Werkzeuge, also Systeme zur Sprachidentifizierung, zur Bestimmung von Wortarten oder der Syntax, „auf die neuen Textsorten anzupassen, ist spannend“, sagt er. Besonders freut sich der Informatiker darauf, Ironie und Sarkasmus vollautomatisch erkennen zu helfen. In der Computerlinguistik gibt es bereits für verschiedene Sprachen Untersuchungen, die erste Ansätze zu deren automatischer Erkennung in der Internet-Kommunikation vorschlagen. „Zu den herangezogenen Merkmalen gehören bestimmte Emoticons und Abkürzungen, der übertriebene Einsatz von Interpunktionszeichen, die lexikalische Übertreibung. In manchen Sprachen scheinen auch einige Artikel eine Rolle zu spielen“, erläutert Stede. Jetzt sei es wichtig herauszufinden, inwieweit es auch in deutschen Tweets solche und ähnliche Merkmale gibt. „Damit betreten wir – zumindest für die automatische Auswertung – Neuland.“
In der ersten Projektphase führte Stedes Arbeitsgruppe eine Art Probelauf für die eigentlichen Analysen durch. Von den Kollegen in Münster hatte sie einen großen Datensatz zum „Fall“ des einstigen Bundespräsidenten Christian Wulff bekommen, an dem sie die vorhandenen Werkzeuge auf ihre Tauglichkeit testete. Es waren Twitter-Daten: 253.172 Tweets, die insgesamt fast vier Millionen Wörter enthielten. Der Topf der Beiträge, die in Augenschein genommen werden mussten, leerte sich allerdings noch etwas. So entfielen fremdsprachige Texte ebenso wie Beiträge, die sich auf andere „Wulffs“ bezogenen, oder URLs und Duplikate. Was blieb, waren dennoch mehr als eine Million Wörter.
„Wir sind mit unseren Recherchen schon ein ganzes Stück vorangekommen“, konstatiert Stede. „Damit wir die Werkzeuge überhaupt anwenden und notfalls auch umbauen können, haben wir zunächst bestimmte sprachliche Phänomene klassifiziert.“ Da Twitter-Texte etliche Besonderheiten aufweisen, war dies unumgänglich. Mittlerweile ist ein ganzer Katalog von „Störfaktoren“ zustande gekommen. Er reicht von morphologischen, lexikalischen, syntaktischen und semantischen Problemen bis hin zu typischen Rechtschreibfehlern, vom Smiley bis zu Abkürzungen. Vor allem Promotionsstudent Uladzimir Sidorenko hat sich um all dies gekümmert. Er soll für die Normalisierung der Textdaten sorgen und die möglichen „Fallstricke“ für herkömmliche Computerprogramme sondieren. Die Arbeit am Instrumentarium teilt sich der Weißrusse mit Promotionsstudent Andreas Peldszus, der sich mit der sogenannten Koreferenz-Resolution beschäftigt. Computerlinguisten verstehen darunter unter anderem die automatische Feststellung der Beziehung zwischen einem Pronomen und einem vorangegangenen Substantiv.
Nach Abschluss der Vorstudie ging das Team zu den zwischenzeitlich gesammelten „eigentlichen“ Daten des Verbundprojekts über: Diskurse zum Thema Energiewende. Auch hier liegt der Schwerpunkt zunächst auf Twitter. Die Forscher versuchen die Tweets automatisch nach Unterthemen zu gruppieren und Meinungsäußerungen zu erkennen. In der Kombination können dann beispielsweise positive und negative Stimmen zu „Windrädern“ aus der Menge herausgesucht werden. Ein weiterer Schwerpunkt liegt auf der Bestimmung von Diskursqualität: Wenn Twitterer aufeinander antworten, reden sie dann wirklich miteinander? Oder gegeneinander? Oder aneinander vorbei? Leistet ein Tweet einen Beitrag zur inhaltlichen Fortentwicklung des Diskurses oder tritt er eher auf der Stelle? Diese und andere Aspekte von „Qualität“ formal zu untersuchen, ist eine ganz neue Aufgabe, die auch international erst seit kurzer Zeit in den Blick genommen wird.
Das Projekt
„Analyse von Diskursen in Social Media“
Verbundkoordinator: Prof. Dr. Stefan Stieglitz (Westfälische Wilhelms-Universität Münster)
Laufzeit: 2012 bis 2015
Finanzierung: Bundesministerium für Bildung und Forschung (BMBF)
Internet: www.social-media-analytics.org./de
Die Wissenschaftler
Prof. Dr. Manfred Stede studierte Informatik und Linguistik an der Technischen Universität Berlin; 1996 Promotion in Informatik an der Universität Toronto. Seit 2001 ist er an der Universität Potsdam Professor für Angewandte Computerlinguistik.
Kontakt
Universität Potsdam
Department Linguistik
Karl-Liebknecht-Straße 24–25, 14476 Potsdam OT Golm
Mail: stedeuling.uni-potsdampde
Uladzimir Sidorenko studierte an der Staatlichen Linguistischen Universität Minsk Germanistik und schloss 2007 mit dem Magister in Computerlinguistik ab.
Kontakt
Mail: Uladzimir.Sidarenkauuni-potsdampde
Andreas Peldszus studierte an der Universität Potsdam Computerlinguistik sowie Philosophie und schloss 2011 mit dem Magister ab.
Kontakt
Mail: peldszusuuni-potsdampde
Auszug Twitter-spezifischer Probleme
Hashtags
Hashtags sind spezielle Wörter mit dem #-Zeichen an ihrem Anfang. Die Tags markieren besonders interessante und wiederkehrende Twitter-Themen. Ohne spezielle Anpassung verstehen die zur Analyse entwickelten Computerprogramme zum Beispiel meist nicht, dass es sich bei „#Wulff“ und „Wulff“ um dasselbe Wort und dieselbe Person handelt.
Umgangssprachliche und Slang-Wörter
Sie kommen in Twitter sehr häufig vor, da oft Alltagsgespräche und Meinungsaustausche geführt werden. Beispiel: „#Wulff soll im Amt bleiben und wuppen für die Kohle!“
Satzübergreifende Ironie
Liegt dann vor, wenn zwei oder mehrere Äußerungen zusammen einen ironischen Sinn ergeben. Beispiel: „Ich lese immer Frau Merkel stellt sich hinter #Wulff… Er steht am Abgrund, da ist dahinter besser :-)"
Text: Petra Görlich, Online gestellt: Silvana Seppä