
Achtergrond
7 vragen en antwoorden over DeepSeek
van Samuel Buchmann
Toen de nieuwste AI "Llama 4" werd uitgebracht, kon Meta bogen op hoge scores op een benchmarkplatform. Het model haalt deze scores echter alleen in een speciale versie die niet eens verkrijgbaar is.
De prestaties van kunstmatige intelligentie (AI) worden getest met behulp van benchmarks. Een van de toonaangevende platforms hiervoor is LM Arena. Goede resultaten trekken de aandacht - zoals het geval was met de nieuwe "Llama 4" van Meta, die het bedrijf in het weekend uitbracht. Het is nu echter duidelijk dat Meta zijn kaarten dicht bij de borst heeft gehouden om zijn model er zo goed mogelijk uit te laten zien. Dit meldt het portaal "TechCrunch".
In zijn persbericht benadrukt Meta de ELO-score van 1417 voor "Maverick" (het middelgrote model in de LLama 4-familie). Deze zeer hoge score betekent dat Maverick vaak directe benchmarkduels tegen concurrenten wint. Het suggereert dat het model van Meta voorloopt op de 4o van OpenAI en maar net achterblijft bij de huidige leider Gemini 2.5 Pro van Google.
De golven die Maverick maakte in de community waren navenant. Het leek alsof Meta ermee vooropliep, nadat de vorige modellen altijd waren achtergebleven. Nu blijkt echter dat de ontwikkelaars niet de publiek beschikbare versie van Maverick hebben gebruikt voor de benchmarks op LM Arena, maar een "experimentele chatversie". Dit werd echter alleen in de kleine lettertjes vermeld.
Meta's aanpak is niet expliciet in strijd met de regels van LM Arena - maar wel met het idee achter het platform. Dit komt omdat de benchmarks hun betekenis verliezen als ontwikkelaars speciaal geoptimaliseerde versies van hun modellen naar de wedstrijd sturen die nergens beschikbaar zijn omdat ze andere nadelen hebben. Dit betekent dat de scores niet langer realistische prestaties weergeven en niet langer geschikt zijn voor beoordeling.
De aflevering laat zien onder hoeveel druk Meta staat in de AI-race. Vooral sinds er een tweede open-gewicht model, het Chinese DeepSeek, op de markt is gekomen. Voor de lancering werd Llama 4 naar verluidt meerdere keren uitgesteld omdat het niet aan de interne verwachtingen voldeed. Uiteindelijk werd het vreemd genoeg uitgebracht op een zaterdag (5 april) in plaats van de daaropvolgende maandag (7 april) zoals origineel gepland. Op de vraag waarom, antwoordde Meta CEO Mark Zuckerberg op Threads: "Toen was het klaar."
Mijn vingerafdruk verandert vaak zo drastisch dat mijn MacBook hem niet meer herkent. De reden? Als ik me niet vastklamp aan een beeldscherm of camera, dan klamp ik me waarschijnlijk aan mijn vingertoppen vast aan een rotswand.