
Hintergrund
7 Fragen und Antworten zu DeepSeek
von Samuel Buchmann
Bei der Veröffentlichung seiner neuesten KI «Llama 4» prahlte Meta mit hohen Punktzahlen auf einer Benchmark-Plattform. Doch diese erreicht das Modell nur in einer speziellen Version, die gar nicht verfügbar ist.
Künstliche Intelligenzen (KI) werden mittels Benchmarks auf ihre Leistungsfähigkeit getestet. Eine der führenden Plattformen dafür ist LM Arena. Gute Resultate sorgen für Aufmerksamkeit – so auch bei Metas neuem «Llama 4», welches das Unternehmen am Wochenende veröffentlichte. Nun wird allerdings klar: Meta hat mit gezinkten Karten gespielt, um sein Modell möglichst gut dastehen zu lassen. Das berichtet das Portal «TechCrunch».
In seiner Pressemitteilung hebt Meta die ELO-Punktzahl von 1417 von «Maverick» hervor (das mittelgrosse Modell der LLama-4-Familie). Dieser sehr hohe Score bedeutet, dass Maverick direkte Benchmark-Duelle gegen Konkurrenten oft gewinnt. Er suggeriert, dass Metas Modell vor OpenAIs 4o und nur knapp hinter dem aktuell führenden Gemini 2.5 Pro von Google liegt.
Entsprechend hoch waren die Wellen, die Maverick in der Community schlug. Es schien, als ob Meta damit ganz vorne mitspielt, nachdem seine bisherigen Modelle stets hinterher hinkten. Wie sich nun herausstellt, haben die Entwickler für die Benchmarks auf LM Arena jedoch nicht die öffentlich verfügbare Version von Maverick verwendet, sondern eine «experimental chat version». Dies wurde aber erst im Kleingedruckten erwähnt.
Metas Vorgehen verstösst nicht explizit gegen die Regeln von LM Arena – aber sehr wohl der Idee hinter der Plattform. Denn die Benchmarks verlieren ihren Sinn, wenn Entwickler speziell optimierte Versionen ihrer Modelle ins Rennen schicken, die nirgends zur Verfügung stehen, weil sie andere Nachteile haben. So repräsentieren die Scores nicht mehr die realistische Leistung und taugen nicht mehr zur Beurteilung.
Die Episode zeigt, wie stark Meta im KI-Rennen unter Druck steht. Besonders, seit mit dem chinesischen DeepSeek ein zweites Open-Weight-Model auf dem Markt ist. Vor seinem Launch wurde Llama 4 Berichten zufolge schon mehrmals verschoben, weil es die internen Erwartungen nicht erfüllte. Am Ende erschien es seltsamerweise an einem Samstag (5. April) satt wie ursprünglich geplant am darauf folgenden Montag (7. April). Auf die Frage nach dem Grund entgegnete Meta-CEO Mark Zuckerberg auf Threads: «Dann war es fertig.»
Mein Fingerabdruck verändert sich regelmässig so stark, dass mein MacBook ihn nicht mehr erkennt. Der Grund: Wenn ich nicht gerade vor einem Bildschirm oder hinter einer Kamera hänge, dann an meinen Fingerspitzen in einer Felswand.