
Chatbot lacht, grapt en zingt: Open AI presenteert GPT-4o

Het nieuwe AI-model van Open AI is ontworpen als persoonlijke AI-begeleider. Met behulp van de camera van de smartphone interpreteert de software de omgeving en kan erop reageren.
Open AI heeft maandagavond zijn nieuwe taalmodel GPT-4o gepresenteerd. In de livestream demonstreerden drie medewerkers verschillende functies van het model.
GPT-4o is gebaseerd op de mogelijkheden van het huidige AI-model GPT-4, maar probeert nu ook emoties te herkennen en uit te drukken. Het gebruikt video- en audio-input om te reageren op de omgeving. Dit zou de AI in staat moeten stellen om diepgaande gesprekken te voeren. De reactietijden zouden ook verbeterd zijn. Volgens Open AI voelen gesprekken hierdoor natuurlijker aan.
Lerende hulp, real-time vertaling en persoonlijke assistentie
Op de Open AI website staan verschillende demovideo's die de mogelijkheden van GPT-4o demonstreren. De video's laten zien hoe de AI optreedt als realtime vertaler in meertalige gesprekken, een student handige tips geeft voor wiskundehuiswerk, reageert op gebeurtenissen in het gezichtsveld van de camera en interactie heeft met andere GPT-4o clients. Een indrukwekkend voorbeeld is hoe een AI zonder cameratoegang praat met een andere AI met een camera en deze vragen stelt over zijn omgeving. De AI kan ook gesprekken of spelletjes zoals steen, papier, schaar modereren.
In deze video kun je zien hoe twee AI's met elkaar communiceren op basis van menselijke instructies:
Open AI wil GPT-4 positioneren als een volwaardige gesprekspartner die reageert op de omgeving en het verloop van een dialoog. Je kunt zien dat het model is getraind voor gesprekken: De AI reageert geanimeerd, lacht en reageert ongevraagd met kleine grapjes. Hij reageert op goed nieuws met opwinding en vreugde en reageert gevoelig op depressieve stemmingen. Het is ook mogelijk om GPT-4o alleen sarcastisch te laten reageren, sneller of langzamer of met dramatische nadruk te laten spreken, of zelfs te laten zingen.
Hier laat Open AI zien hoe GPT-4o een student kan helpen bij het leren van wiskunde:
Eén AI-model voor alle processen
Het was al mogelijk om met ChatGPT te praten. Hiervoor waren drie verschillende AI-modellen nodig. Open AI beschrijft het proces op de website van het bedrijf als volgt: Een taalmodel zette de gesproken taal om in tekst en leverde die aan GPT, het eigenlijke brein van de AI. Het antwoord van GPT in tekstvorm werd door een ander taalmodel als spraak weergegeven.
Omdat GPT alleen de pure tekst tot zijn beschikking had, ging er veel informatie verloren tijdens de verwerking: de AI was niet in staat om de toonhoogte of achtergrondgeluiden van de spreker te herkennen en ook niet of er verschillende sprekers bij betrokken waren. Omgekeerd was GPT niet in staat om emoties uit te drukken, te lachen of zelfs te zingen door het mondstuk van een tekst-naar-spraak model.
De belangrijkste innovatie van GPT-4o is dat één AI-model alle taken op zich neemt. Het kan multimodale input verwerken, interpreteren en erop reageren, d.w.z. spraak, tekst, afbeeldingen en audio.
Op dit moment slechts voor enkelen beschikbaar
Op dit moment is GPT-4o nog niet beschikbaar voor het grote publiek. Volgens de Open AI website zal in eerste instantie een "kleine groep vertrouwde partners" toegang krijgen tot de nieuwe audio- en videomogelijkheden van de AI. Op de middellange termijn zullen gebruikers met een gratis GPT-account ook gebruik kunnen maken van GPT-4o, maar met beperkte prestaties vergeleken met het Plus-account.
Er komen prijsaanpassingen voor ontwikkelaars: Open AI stelt dat GPT-4o twee keer zo snel en de helft goedkoper is dan het vorige vlaggenschipmodel "GPT-4 Turbo".


Voelt zich net zo thuis voor de spelcomputer als in de hangmat in de tuin. Houdt onder andere van het Romeinse Rijk, containerschepen en sciencefictionboeken. Bovenal speurt hij naar news uit de IT-sector en slimme dingen.