Neues aus der UP - Universität Potsdam

Medieninformation 06-03-2025 / Nr. 022

Foto : AdobeStock/khunkornStudio

KI kann auch spielen, wenngleich (noch) nicht besser als der Mensch.

Tabu oder Wordle sind beliebte Online-Spiele, bei denen Wörter erraten werden müssen. Das können heute nicht nur Menschen, das gelingt auch der Künstlichen Intelligenz immer besser. Wie erfolgreich die großen Sprachmodelle, auf die Bots wie ChatGPT zurückgreifen, beim Spielen sind, haben die Computerlinguisten Prof. Dr. David Schlangen und Dr. Sherzod Hakimov von der Universität Potsdam gemeinsam mit einem Team von Studierenden erforscht. Dabei geht es ihnen um die grundsätzliche Frage, wie und wie gut solche Sprachmodelle künftig nicht nur Text generieren, sondern weitgehend autonom handeln könnten. Denn in der Wissenschaft gilt „Agentic AI“ oder „handlungsfähige KI“ gar als nächster Quantensprung, durch den die Künstliche Intelligenz zunehmend eigenständig Aufgaben übernehmen könnte. Mit „clembench“ hat das Forscherteam nun eine frei zugängliche Testumgebung sowie erste Ergebnisse veröffentlicht.

„Dass große KI-Sprachmodelle wie ChatGPT schlaue – oder zumindest schlau aussehende – Antworten auf Fragen geben können, ist inzwischen weithin bekannt“, sagt Prof. Dr. David Schlangen. „Dass solche Modelle aber auch Dinge tun können, wenn man sie zum Beispiel einen Computer oder einen Roboter steuern lässt, ist vielen neu. Dies wird aber in der Fachwelt als die nächste und kommerziell erst interessante Anwendung betrachtet.“ Nur, wie gut machen sie das: Dinge tun? Seit Anfang 2023 geht Projektleiter David Schlangen dieser Frage mit dem Postdoktoranden Dr. Sherzod Hakimov und einem Team von Studierenden nach. Das Versuchsfeld der Wissenschaftler sind dabei einfache und beliebte Kommunikationsspiele wie Tabu oder Wordle, mit denen sie die „Handlungsfähigkeit“ der Sprachmodelle erproben. Diese einfachen Tests sollen es dann möglich machen, die erwartbare Qualität bei komplizierteren und praktisch nützlicheren Aufgaben abzuschätzen.

Nun haben die beiden Computerlinguisten die neueste Version (2.0) einer Testumgebung mit insgesamt 14 Spielen online gestellt. „Es handelt sich um die am längsten laufende spielbasierte Bewertung der Handlungsfähigkeit großer Sprachmodelle“, erklären die Forscher. Auch die Testergebnisse sind auf der entsprechenden Webseite veröffentlicht. Das Team fand heraus, dass die Entwicklung aktueller Sprachmodelle in den letzten Monaten nur noch kleinere Sprünge gemacht hat. „Die meiste Bewegung gab es bei sogenannten ‚Open-Weight-Modellen‘, also solchen, die Benutzer im Prinzip auf eigener Hardware laufen lassen könnten. Diese haben inzwischen fast mit den kommerziellen Angeboten gleichgezogen“, so Schlangen. Aber nur fast: Die aktuellsten Modelle, die sogenanntes „reasoning“ verwenden – also „Selbstgespräche“, mit denen sie sich der Lösung schrittweise zu nähern versuchen –, seien immer noch um bis zu 20 Prozent besser. Dies habe allerdings seinen Preis: Diese Modelle seien teurer und zum Teil sehr langsam.

Spielefans müssen in Anbetracht zunehmend kompetenter KI aber (noch) nicht die Flinte ins Korn werfen. „Bei den meisten der getesteten Spiele sollte ein gut geübter menschlicher Spieler immer noch deutlich besser abschneiden – und auf jeden Fall schneller zu einem Ergebnis kommen“, sagt der Computerlinguist.

Zur Testumgebung und zu weiteren Informationen:
https://clembench.github.io

Kontakt:
David Schlangen, Professor für die Grundlagen der Computerlinguistik und Affiliated Researcher beim Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI)
E-Mail: david.schlangenuuni-potsdampde
Telefon: 0331 977-2692

Medieninformation 06-03-2025 / Nr. 022

Zurück