Shutterstock
Nieuws en trends

Meta betrapt op het witwassen van AI-benchmarks

Samuel Buchmann
9/4/2025
Vertaling: machinaal vertaald

Toen de nieuwste AI "Llama 4" werd uitgebracht, kon Meta bogen op hoge scores op een benchmarkplatform. Het model haalt deze scores echter alleen in een speciale versie die niet eens verkrijgbaar is.

De prestaties van kunstmatige intelligentie (AI) worden getest met behulp van benchmarks. Een van de toonaangevende platforms hiervoor is LM Arena. Goede resultaten trekken de aandacht - zoals het geval was met de nieuwe "Llama 4" van Meta, die het bedrijf in het weekend uitbracht. Het is nu echter duidelijk dat Meta zijn kaarten dicht bij de borst heeft gehouden om zijn model er zo goed mogelijk uit te laten zien. Dit meldt het portaal "TechCrunch".

In zijn persbericht benadrukt Meta de ELO-score van 1417 voor "Maverick" (het middelgrote model in de LLama 4-familie). Deze zeer hoge score betekent dat Maverick vaak directe benchmarkduels tegen concurrenten wint. Het suggereert dat het model van Meta voorloopt op de 4o van OpenAI en maar net achterblijft bij de huidige leider Gemini 2.5 Pro van Google.

In de ranglijst van LM Arena staat dat het model van Meta op de tweede plaats een experimentele versie is.
In de ranglijst van LM Arena staat dat het model van Meta op de tweede plaats een experimentele versie is.

De golven die Maverick maakte in de community waren navenant. Het leek alsof Meta ermee vooropliep, nadat de vorige modellen altijd waren achtergebleven. Nu blijkt echter dat de ontwikkelaars niet de publiek beschikbare versie van Maverick hebben gebruikt voor de benchmarks op LM Arena, maar een "experimentele chatversie". Dit werd echter alleen in de kleine lettertjes vermeld.

De praktijk is in tegenspraak met het doel van benchmarks

Meta's aanpak is niet expliciet in strijd met de regels van LM Arena - maar wel met het idee achter het platform. Dit komt omdat de benchmarks hun betekenis verliezen als ontwikkelaars speciaal geoptimaliseerde versies van hun modellen naar de wedstrijd sturen die nergens beschikbaar zijn omdat ze andere nadelen hebben. Dit betekent dat de scores niet langer realistische prestaties weergeven en niet langer geschikt zijn voor beoordeling.

  • Achtergrond

    7 vragen en antwoorden over DeepSeek

    van Samuel Buchmann

De aflevering laat zien onder hoeveel druk Meta staat in de AI-race. Vooral sinds er een tweede open-gewicht model, het Chinese DeepSeek, op de markt is gekomen. Voor de lancering werd Llama 4 naar verluidt meerdere keren uitgesteld omdat het niet aan de interne verwachtingen voldeed. Uiteindelijk werd het vreemd genoeg uitgebracht op een zaterdag (5 april) in plaats van de daaropvolgende maandag (7 april) zoals origineel gepland. Op de vraag waarom, antwoordde Meta CEO Mark Zuckerberg op Threads: "Toen was het klaar."

Omslagfoto: Shutterstock

10 mensen vinden dit artikel leuk


User Avatar
User Avatar

Mijn vingerafdruk verandert vaak zo drastisch dat mijn MacBook hem niet meer herkent. De reden? Als ik me niet vastklamp aan een beeldscherm of camera, dan klamp ik me waarschijnlijk aan mijn vingertoppen vast aan een rotswand.

Deze artikelen kunnen je ook interesseren

  • Nieuws en trends

    Meta AI verschijnt in Europa: AI chatbot binnenkort op Facebook, Whatsapp & Co.

    van Debora Pape

  • Nieuws en trends

    We hebben het (deels) geraden: de coolste streetwear samenwerkingen van het afgelopen jaar

    van Laura Scholz

  • Nieuws en trends

    Google toont nu AI-gegenereerde teksten als antwoord op je vragen

    van Debora Pape

3 opmerkingen

Avatar
later