Wettrennen der Tech-Firmen:Welches KI-Sprachmodell ist das beste?
von David Metzmacher
|
Die Anbieter von KI-Modellen überbieten sich gegenseitig mit immer neuen Versionen. Dabei ist der Vergleich von KI-Modellen schwieriger als man vielleicht denkt.
Welche KI-Sprachmodelle werden sich langfristig durchsetzen?
Quelle: picture alliance / Sipa USA | Jonathan Raa
OpenAI mit ChatGPT, Gemini von Google, Anthropic mit Claude sowie europäische Firmen wie Aleph Alpha und Mistral liefern sich ein Wettrennen um das beste KI-Modell. Aber wie lassen sich die Modelle vergleichen? Und welches ist das beste?
Wenn ein KI-Sprachmodell ein Auto wäre ...
Um die Frage zu beantworten, zieht KI-Forscher Nicolas Flores-Herr vom Fraunhofer IAIS als Beispiel die Vergleichbarkeit von Autos heran: "Bei einem SUV hat man im Falle eines Unfalls vielleicht bessere Chancen, unverletzt zu bleiben. Doch beim Fahren durch enge Gassen in der Toskana ist ein Kleinwagen die bessere Wahl."
So ist das auch bei KI-Sprachmodellen - welches das Beste ist, hängt stark vom Kontext und dem Anwendungszweck ab.
Hilfreich sei es, die Frage in drei Schichten zu zerlegen:
Erstens verfügen KI-Sprachmodelle über messbare Kennzahlen
Zweitens können sie in Leistungstests geprüft werden
Entscheidend ist letztlich, wie sie im spezifischen Einsatz abschneiden
Quelle: Fraunhofer IAIS
... ist Teamleiter Conversational AI am Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS am Standort in Dresden. Er leitet das Forschungsprojekt "OpenGPT-X", in dem Open-Source KI-Sprachmodelle von Grund auf trainiert werden, um spezifische Anforderungen deutscher und europäischer Unternehmen zu erfüllen.
Quantitative Kennzahlen von KI-Modellen
Laut Flores-Herr stehen bei den Kennzahlen folgende Fragen im Vordergrund: "Mit wie vielen Tokens wurde das Modell trainiert? Wie viele Parameter besitzt es? Wie groß ist die mögliche Kontextlänge?"
Informationen zu den Kennzahlen in der Faktenbox:
Ein Token ist die kleinste Informationseinheit, die ein KI-Sprachmodell verarbeitet, sowohl beim Input - also dem Training des Modells - als auch beim Output, wie beispielsweise der Antwort eines Chatbots. Tokens können Wörter, Silben oder sogar einzelne Buchstaben sein.
Ein Parameter ist eine Variable im KI-Modell, deren Wert unter anderem während des Modelltrainings auf Basis der Trainingsdaten berechnet wird. Auf Basis der Parameter trifft das Modell Entscheidungen oder macht Vorrausagen.
Die Anzahl der Parameter ist ein Wert, der grundsätzlich die Leistungsfähigkeit eines Modells widerspiegelt. Je mehr Parameter, desto eher ist ein KI-Sprachmodell in der Lage, komplexe Zusammenhänge zu beurteilen. Die Zahl der Parameter beeinflusst den Rechenaufwand, die Geschwindigkeit sowie die Präzision der Ergebnisse.
Die Kontextlänge definiert, wie viele Informationen - gemessen in Tokens - ein Modell gleichzeitig verarbeiten kann. Während die Mehrheit der großen KI-Sprachmodelle problemlos mit Texten von der Länge einiger weniger DIN-A4-Seiten umgehen können, stoßen Modelle mit kleiner Kontextlänge bei umfangreicheren Texten, wie einem Buchkapitel oder gar einem ganzen Buch, an ihre Grenzen und können diese nicht mehr im Rahmen einer einzigen Anfrage verarbeiten. Aus diesem Grund werden Modelle mit großer Kontextlänge entwickelt.
Bei den Kennzahlen gilt üblicherweise: Je höher der Wert der Kennzahlen, desto leistungsstarker ist in der Regel das KI-Sprachmodell - das heißt, es kommt mit komplexeren Aufgaben besser zurecht und erledigt Aufgaben mit größerer Präzision. Wichtig sei hierbei aber auch, was genau im Training des KI-Modells passiert sei, sagt Flores-Herr:
Im Moment ist das wie ein Kochwettbewerb. Welche Zutaten brauche ich für mein Modell? Wie muss ich diesen Zutaten verarbeiten?
„
Nicolas Flores-Herr, KI-Forscher
Neben der Art und Qualität der Trainingsdaten, könne etwa die Reihenfolge, in dem das KI-Modell die Daten erhalten hat, sowie der spezifische Prozess des Trainings entscheidend für seine Leistungsfähigkeit sein, erklärt Flores-Herr. "Da gibt es viele Stellschrauben und jedes Unternehmen geht da seinen eigenen Weg - was da genau passiert, ist häufig nicht wirklich transparent."
Zudem können Tests, sogenannte "Benchmarks", helfen, KI-Sprachmodelle miteinander zu vergleichen. Diese gab es zum Teil auch schon vor dem 'GPT-Boom' - jetzt werden diese auf die neue Welt der KI-Sprachmodelle angewendet", so Flores-Herr. Die Tests umfassen verschiedene Aufgaben - etwa Textzusammenfassungen, Mathematikaufgaben oder Multiple-Choice-Fragen zu Wissen über die Welt.
Ein wichtiger Test ist beispielsweise der MMLU (Massive Multi-task Language Understanding), der die generellen Fähigkeiten anhand von Aufgaben aus diversen Bereichen überprüft. Ebenfalls erwähnenswert ist das speziell für große KI-Sprachmodelle entwickelte BIG-bench (Beyond the Imitation Game Benchmark), der mehr als 200 Aufgaben beinhaltet. Zusammengefasst existieren spezifische Tests für einzelne Fachgebiete, wie Medizin oder Jura, die eine gewisse Vergleichbarkeit ermöglichen.
KI-Modelle: Auch Sprachen und Transparenz entscheidend
Nach aktuellen "Benchmarks" haben laut Flores-Herr die Modelle ChatGPT 4 von OpenAI und Claude 3 von Anthropic die Nase vorn. "Dennoch muss man bei den Ergebnissen und der Test-Systematik immer sehr genau hinschauen, damit man nicht Äpfel mit Birnen vergleicht." Zudem sei es wichtig, dass künftige Tests die tatsächliche Anwendung der KI-Modelle in der Praxis besser widerspiegeln. Ein weiteres Problem sei zudem die Sprache:
Wenn ein KI-Modell einen englischsprachigen Test meistert, heißt das nicht notwendigerweise, dass es auch auf deutsch oder französisch sehr gut abschneidet.
„
Nicolas Flores-Herr, KI-Forscher
"Open-Source-Modelle bieten aus meiner Sicht den besten Weg, Transparenz und Verständnis zu fördern", erklärt Flores-Herr. "Deshalb forschen wir bei Fraunhofer an offenen KI-Sprachmodellen."
Probefahrt: Wie gut passt ein KI-Modell zur Anwendung?
Zuletzt sei die Beurteilung des besten KI-Sprachmodells eine persönliche Wahl, die stark von der spezifischen Nutzung abhänge, sagt Flores-Herr - genau wie beim Autokauf:
Ich kann mir ein Dutzend Autos in Prospekten anschauen, aber entscheidend ist am Ende die Probefahrt.
Um dir eine optimale Website der ZDFmediathek, ZDFheute und ZDFtivi präsentieren zu können, setzen wir Cookies und vergleichbare Techniken ein. Einige der eingesetzten Techniken sind unbedingt erforderlich für unser Angebot. Mit deiner Zustimmung dürfen wir und unsere Dienstleister darüber hinaus Informationen auf deinem Gerät speichern und/oder abrufen. Dabei geben wir deine Daten ohne deine Einwilligung nicht an Dritte weiter, die nicht unsere direkten Dienstleister sind. Wir verwenden deine Daten auch nicht zu kommerziellen Zwecken.
Zustimmungspflichtige Datenverarbeitung • Personalisierung: Die Speicherung von bestimmten Interaktionen ermöglicht uns, dein Erlebnis im Angebot des ZDF an dich anzupassen und Personalisierungsfunktionen anzubieten. Dabei personalisieren wir ausschließlich auf Basis deiner Nutzung der ZDFmediathek, der ZDFheute und ZDFtivi. Daten von Dritten werden von uns nicht verwendet. • Social Media und externe Drittsysteme: Wir nutzen Social-Media-Tools und Dienste von anderen Anbietern. Unter anderem um das Teilen von Inhalten zu ermöglichen.
Du kannst entscheiden, für welche Zwecke wir deine Daten speichern und verarbeiten dürfen. Dies betrifft nur dein aktuell genutztes Gerät. Mit "Zustimmen" erklärst du deine Zustimmung zu unserer Datenverarbeitung, für die wir deine Einwilligung benötigen. Oder du legst unter "Einstellungen/Ablehnen" fest, welchen Zwecken du deine Zustimmung gibst und welchen nicht. Deine Datenschutzeinstellungen kannst du jederzeit mit Wirkung für die Zukunft in deinen Einstellungen widerrufen oder ändern.