Zum Hauptinhalt springen

Potsdamer Zeitungskorpus

Das Potsdamer Zeitungskorpus ist eine diachrone Dependenzbaumbank, die sowohl Informationen zu den Lemmata und Wortarten als auch ausgewählte Dependenzrelationen der Universal Dependencies (UD) enthält. Diese Seite gibt einen Überblick über die an der Universität Potsdam erstellte Baumbank, deren Aufbau im Rahmen des Projekts C06 im SFB 1287 „Limits of Variability in Language: Cognitive, Computational, and Grammatical Aspects“ von der Deutschen Forschungsgemeinschaft gefördert wurde. Das Korpus soll im Laufe des Jahres 2024 der Fachöffentlichkeit zugänglich gemacht werden.

Das Korpus umfasst Zeitungstexte in strukturierter Auswahl, die in der Zeit von 1600 bis 1950 in unterschiedlichen Regionen Deutschlands publiziert wurden. Insgesamt hat es einen Umfang von 198.554 Wortformen, die sich auf 6.640 Sätze verteilen. Die  Annotation von Lemmata und Wortarten erfolgte semi-automatisch, d. h., mithilfe der Stanford Natural Language Processing Software wurde zunächst automatisch die Satztrennung, Tokenisierung, das Lemma-Tagging und Part-of-Speech-Tagging vorgenommen. Anschließend wurden fehlerhafte Annotationen auf Wortebene manuell korrigiert. Die Annotation der Dependenzrelationen wurde im Double-Keying-Verfahren manuell erstellt.

In der folgenden Tabelle sind die Zeitungstexte in der jeweiligen Zeitperiode aufgeführt, ebenso die Anzahl der Wortformen pro Zeitfenster sowie das Erscheinungsjahr der Zeitung. Die Abkürzungen der Zeitungstitel sind nachfolgend erläutert. Für alle Fragen das Potsdamer Zeitungskorpus betreffend wenden Sie sich bitte an Prof. Dr. Ulrike Demske, Universität Potsdam, Institut für Germanistik.

 

Übersicht
Zeitperiode1600-16491650-16991700-17491750-17991800-18491850-18991900-1949
Zeitungstexte1609_Rel1667_OP1724_BP1750_LZ1805_KukZ1859_AZ1905-1925_BTB
 1628_OZ1667_Rel1743_MOP1766_OMZ1820_BN1881_BoZ1905-1925_VZ
Wortformen gesamt27.73625.10627.67726.75730.95633.14326.909

Legende

AZ = Allgemeine Zeitung, BN = Berlinische Nachrichten, BoZ = Bonner Zeitung, BP =Berlinische Privilegierte Zeitung, BTB = Berliner Tageblatt,

KukZ = Kaiserlich und Kurbairisch privilegierte Allgemeine Zeitung; MOP = Müncherische Ordinari Post-Zeitungen, LZ = Leipziger Zeitungen,

OMZ = Ordinari-Müncher-Zeitung, OP = Ordinari Postzeitung, OZ = Ordinari Zeitung, Rel = Relation, VZ = Vossische Zeitung