Nieuws en trends

Meta betrapt op het witwassen van AI-benchmarks

9/4/2025

Vertaling: machinaal vertaald

Toen de nieuwste AI "Llama 4" werd uitgebracht, kon Meta bogen op hoge scores op een benchmarkplatform. Het model haalt deze scores echter alleen in een speciale versie die niet eens verkrijgbaar is.

De prestaties van kunstmatige intelligentie (AI) worden getest met behulp van benchmarks. Een van de toonaangevende platforms hiervoor is LM Arena. Goede resultaten trekken de aandacht - zoals het geval was met de nieuwe "Llama 4" van Meta, die het bedrijf in het weekend uitbracht. Het is nu echter duidelijk dat Meta zijn kaarten dicht bij de borst heeft gehouden om zijn model er zo goed mogelijk uit te laten zien. Dit meldt het portaal "TechCrunch".

In zijn persbericht benadrukt Meta de ELO-score van 1417 voor "Maverick" (het middelgrote model in de LLama 4-familie). Deze zeer hoge score betekent dat Maverick vaak directe benchmarkduels tegen concurrenten wint. Het suggereert dat het model van Meta voorloopt op de 4o van OpenAI en maar net achterblijft bij de huidige leider Gemini 2.5 Pro van Google.

In de ranglijst van LM Arena staat dat het model van Meta op de tweede plaats een experimentele versie is.

De golven die Maverick maakte in de community waren navenant. Het leek alsof Meta ermee vooropliep, nadat de vorige modellen altijd waren achtergebleven. Nu blijkt echter dat de ontwikkelaars niet de publiek beschikbare versie van Maverick hebben gebruikt voor de benchmarks op LM Arena, maar een "experimentele chatversie". Dit werd echter alleen in de kleine lettertjes vermeld.

De praktijk is in tegenspraak met het doel van benchmarks

Meta's aanpak is niet expliciet in strijd met de regels van LM Arena - maar wel met het idee achter het platform. Dit komt omdat de benchmarks hun betekenis verliezen als ontwikkelaars speciaal geoptimaliseerde versies van hun modellen naar de wedstrijd sturen die nergens beschikbaar zijn omdat ze andere nadelen hebben. Dit betekent dat de scores niet langer realistische prestaties weergeven en niet langer geschikt zijn voor beoordeling.

Achtergrond
7 vragen en antwoorden over DeepSeek
van Samuel Buchmann

De aflevering laat zien onder hoeveel druk Meta staat in de AI-race. Vooral sinds er een tweede open-gewicht model, het Chinese DeepSeek, op de markt is gekomen. Voor de lancering werd Llama 4 naar verluidt meerdere keren uitgesteld omdat het niet aan de interne verwachtingen voldeed. Uiteindelijk werd het vreemd genoeg uitgebracht op een zaterdag (5 april) in plaats van de daaropvolgende maandag (7 april) zoals origineel gepland. Op de vraag waarom, antwoordde Meta CEO Mark Zuckerberg op Threads: "Toen was het klaar."

Omslagfoto: Shutterstock

10 mensen vinden dit artikel leuk

Samuel Buchmann

Senior Editor

Samuel.Buchmann@digitecgalaxus.ch

Mijn vingerafdruk verandert vaak zo drastisch dat mijn MacBook hem niet meer herkent. De reden? Als ik me niet vastklamp aan een beeldscherm of camera, dan klamp ik me waarschijnlijk aan mijn vingertoppen vast aan een rotswand.

Deze artikelen kunnen je ook interesseren

Nieuws en trends
Meta AI verschijnt in Europa: AI chatbot binnenkort op Facebook, Whatsapp & Co.
van Debora Pape
Nieuws en trends
We hebben het (deels) geraden: de coolste streetwear samenwerkingen van het afgelopen jaar
van Laura Scholz
Nieuws en trends
Google toont nu AI-gegenereerde teksten als antwoord op je vragen
van Debora Pape