News & Trends

Meta beim Beschönigen von KI-Benchmarks erwischt

9/4/2025

Bei der Veröffentlichung seiner neuesten KI «Llama 4» prahlte Meta mit hohen Punktzahlen auf einer Benchmark-Plattform. Doch diese erreicht das Modell nur in einer speziellen Version, die gar nicht verfügbar ist.

Künstliche Intelligenzen (KI) werden mittels Benchmarks auf ihre Leistungsfähigkeit getestet. Eine der führenden Plattformen dafür ist LM Arena. Gute Resultate sorgen für Aufmerksamkeit – so auch bei Metas neuem «Llama 4», welches das Unternehmen am Wochenende veröffentlichte. Nun wird allerdings klar: Meta hat mit gezinkten Karten gespielt, um sein Modell möglichst gut dastehen zu lassen. Das berichtet das Portal «TechCrunch».

In seiner Pressemitteilung hebt Meta die ELO-Punktzahl von 1417 von «Maverick» hervor (das mittelgrosse Modell der LLama-4-Familie). Dieser sehr hohe Score bedeutet, dass Maverick direkte Benchmark-Duelle gegen Konkurrenten oft gewinnt. Er suggeriert, dass Metas Modell vor OpenAIs 4o und nur knapp hinter dem aktuell führenden Gemini 2.5 Pro von Google liegt.

Mittlerweile ist auf der Rangliste von LM Arena deklariert, dass es sich bei Metas Modell auf Platz 2 um eine experimentelle Version handelt.

Entsprechend hoch waren die Wellen, die Maverick in der Community schlug. Es schien, als ob Meta damit ganz vorne mitspielt, nachdem seine bisherigen Modelle stets hinterher hinkten. Wie sich nun herausstellt, haben die Entwickler für die Benchmarks auf LM Arena jedoch nicht die öffentlich verfügbare Version von Maverick verwendet, sondern eine «experimental chat version». Dies wurde aber erst im Kleingedruckten erwähnt.

Praktik widerspricht dem Sinn von Benchmarks

Metas Vorgehen verstösst nicht explizit gegen die Regeln von LM Arena – aber sehr wohl der Idee hinter der Plattform. Denn die Benchmarks verlieren ihren Sinn, wenn Entwickler speziell optimierte Versionen ihrer Modelle ins Rennen schicken, die nirgends zur Verfügung stehen, weil sie andere Nachteile haben. So repräsentieren die Scores nicht mehr die realistische Leistung und taugen nicht mehr zur Beurteilung.

Hintergrund
7 Fragen und Antworten zu DeepSeek
von Samuel Buchmann

Die Episode zeigt, wie stark Meta im KI-Rennen unter Druck steht. Besonders, seit mit dem chinesischen DeepSeek ein zweites Open-Weight-Model auf dem Markt ist. Vor seinem Launch wurde Llama 4 Berichten zufolge schon mehrmals verschoben, weil es die internen Erwartungen nicht erfüllte. Am Ende erschien es seltsamerweise an einem Samstag (5. April) satt wie ursprünglich geplant am darauf folgenden Montag (7. April). Auf die Frage nach dem Grund entgegnete Meta-CEO Mark Zuckerberg auf Threads: «Dann war es fertig.»

Titelbild: Shutterstock

10 Personen gefällt dieser Artikel

Samuel Buchmann

Senior Editor

Samuel.Buchmann@digitecgalaxus.ch

Mein Fingerabdruck verändert sich regelmässig so stark, dass mein MacBook ihn nicht mehr erkennt. Der Grund: Wenn ich nicht gerade vor einem Bildschirm oder hinter einer Kamera hänge, dann an meinen Fingerspitzen in einer Felswand.

Diese Beiträge könnten dich auch interessieren

News & Trends
Meta AI erscheint in Europa: KI-Chatbot bald auf Facebook, Whatsapp & Co.
von Debora Pape
News & Trends
Wir haben es (teilweise) geahnt: Die coolsten Streetwear-Kooperationen des letzten Jahres
von Laura Scholz
News & Trends
Google zeigt jetzt KI-generierte Texte als Antwort auf deine Fragen
von Debora Pape