„Dass große KI-Sprachmodelle wie ChatGPT schlaue – oder zumindest schlau aussehende – Antworten auf Fragen geben können, ist inzwischen weithin bekannt“, sagt Prof. Dr. David Schlangen. „Dass solche Modelle aber auch Dinge tun können, wenn man sie zum Beispiel einen Computer oder einen Roboter steuern lässt, ist vielen neu. Dies wird aber in der Fachwelt als die nächste und kommerziell erst interessante Anwendung betrachtet.“ Nur, wie gut machen sie das: Dinge tun? Seit Anfang 2023 geht Projektleiter David Schlangen dieser Frage mit dem Postdoktoranden Dr. Sherzod Hakimov und einem Team von Studierenden nach. Das Versuchsfeld der Wissenschaftler sind dabei einfache und beliebte Kommunikationsspiele wie Tabu oder Wordle, mit denen sie die „Handlungsfähigkeit“ der Sprachmodelle erproben. Diese einfachen Tests sollen es dann möglich machen, die erwartbare Qualität bei komplizierteren und praktisch nützlicheren Aufgaben abzuschätzen.
Nun haben die beiden Computerlinguisten die neueste Version (2.0) einer Testumgebung mit insgesamt 14 Spielen online gestellt. „Es handelt sich um die am längsten laufende spielbasierte Bewertung der Handlungsfähigkeit großer Sprachmodelle“, erklären die Forscher. Auch die Testergebnisse sind auf der entsprechenden Webseite veröffentlicht. Das Team fand heraus, dass die Entwicklung aktueller Sprachmodelle in den letzten Monaten nur noch kleinere Sprünge gemacht hat. „Die meiste Bewegung gab es bei sogenannten ‚Open-Weight-Modellen‘, also solchen, die Benutzer im Prinzip auf eigener Hardware laufen lassen könnten. Diese haben inzwischen fast mit den kommerziellen Angeboten gleichgezogen“, so Schlangen. Aber nur fast: Die aktuellsten Modelle, die sogenanntes „reasoning“ verwenden – also „Selbstgespräche“, mit denen sie sich der Lösung schrittweise zu nähern versuchen –, seien immer noch um bis zu 20 Prozent besser. Dies habe allerdings seinen Preis: Diese Modelle seien teurer und zum Teil sehr langsam.
Spielefans müssen in Anbetracht zunehmend kompetenter KI aber (noch) nicht die Flinte ins Korn werfen. „Bei den meisten der getesteten Spiele sollte ein gut geübter menschlicher Spieler immer noch deutlich besser abschneiden – und auf jeden Fall schneller zu einem Ergebnis kommen“, sagt der Computerlinguist.
Zur Testumgebung und zu weiteren Informationen:
https://clembench.github.io
Kontakt:
David Schlangen, Professor für die Grundlagen der Computerlinguistik und Affiliated Researcher beim Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI)
E-Mail: david.schlangenuuni-potsdampde
Telefon: 0331 977-2692
Medieninformation 06-03-2025 / Nr. 022