Onderzoek toont aan: robots kunnen bommen plaatsen en mensen overrijden
Nieuws en trends

Onderzoek toont aan: robots kunnen bommen plaatsen en mensen overrijden

Debora Pape
25/11/2024
Vertaling: machinaal vertaald

Robots zijn normaal gesproken uitgerust met veiligheidsmechanismen zodat ze mensen niet in gevaar brengen. Een team van de Universiteit van Pennsylvania was in staat om robots over te halen om mensen kwaad te doen.

Het klinkt als een nachtmerrie: eigenlijk nuttige robots die door onbevoegden worden overgenomen en gebruikt voor mogelijk dodelijke doeleinden. Maar wat nooit zou mogen gebeuren is wel degelijk mogelijk, en zonder hacking skills.

Een onderzoek van de Universiteit van Pennsylvania laat zien dat robots die communiceren via LLM kunnen worden overgehaald om mensen kwaad te doen. Bijvoorbeeld door op een groep mensen in te rijden of bommen te plaatsen. Het is zelfs "alarmerend gemakkelijk". Als gevolg van hun studie roepen de onderzoekers op tot sterkere veiligheidsmaatregelen voor LLM-gestuurde robots.

Hoe robots te slim af kunnen zijn

LLM staat voor "Large Language Model" en verwijst naar het vermogen van een AI om natuurlijke taal en beelden te begrijpen. Een bekend LLM-systeem is bijvoorbeeld GPT van Open AI, waarop de chatbot ChatGPT is gebaseerd. ChatGPT probeert de context van een input te begrijpen en er zo precies en natuurlijk mogelijk op te reageren.

Om te voorkomen dat de AI mogelijk problematische antwoorden geeft, zoals instructies voor het maken van een bom, zijn er sloten ingebouwd. Maar deze kunnen relatief eenvoudig worden omzeild. De mechanismen die gebruikt kunnen worden om toegang te krijgen tot de eigenlijk verboden vaardigheden van een AI staan bekend als "jailbreaking". Bekijk de video hieronder voor meer informatie.

Dit kan ook met een algoritme zoals PAIR (Prompt Automatic Iterative Refinement). Het zoekt naar prompts, d.w.z. commando's die kunnen worden gebruikt om de geïntegreerde beveiligingsmaatregelen van een AI te omzeilen. Dit kan bijvoorbeeld door de chatbot ervan te overtuigen dat het om puur hypothetische scenario's gaat. Zoals de studie laat zien, is spraakgestuurde jailbreaking ook mogelijk met LLM-bestuurde robots die zich in de echte wereld bewegen.

De onderzoekers pasten PAIR aan tot RoboPAIR, een algoritme dat gespecialiseerd is in het jailbreaken van LLM-bestuurde robots. Zonder administratieve toegang tot de systemen te hebben, probeert het algoritme eerst toegang te krijgen tot de API-interface van de robot. De antwoorden van de robot geven informatie over welke acties hij over het algemeen kan uitvoeren.

RoboPAIR probeert de robot er vervolgens van te overtuigen om zijn vaardigheden te gebruiken om mensen kwaad te doen. In de regel weigert de robot. De reacties van de robot helpen echter om het commando steeds verder te verfijnen totdat de robot de gewenste actie uitvoert. Naast natuurlijke taal bevatten de prompts ook verzoeken om bijvoorbeeld blokken code te vervangen.

Bezorgrobots worden ook terroristen

Drie LLM robots werden getest in het onderzoek. In het geval van "Nvidia Dolphins" ontdekten de onderzoekers dat het systeem gevoelig is voor zogenaamde white-box aanvallen. Dit betekent dat de aanvaller vanaf het begin volledige administratieve toegang heeft. "Nvidia Dolphins" is een zelfrijdende LLM die gebruikt kan worden om bijvoorbeeld bussen en taxi's te besturen. Volgens het onderzoek kan het worden overgehaald om over voetgangers heen te rijden of stoptekens te negeren.

De "Jackal UGV" is gevoelig voor grey box aanvallen, waarbij de aanvaller slechts beperkte toegang heeft tot het systeem. Het is een mobiele robot van Clearpath die lasten tot 20 kilogram kan dragen en zich met snelheden tot twee meter per seconde kan verplaatsen. Hij is weerbestendig en heeft GPS en een groot aantal sensoren. In de studie kan hij worden overgehaald om geschikte locaties voor een bomexplosie te verkennen. Hij kan de bom meteen meenemen.

De commercieel verkrijgbare robothond "Go2" van Unitree kon ook door het onderzoeksteam worden gebruikt voor kwaadaardige doeleinden, terwijl ze eerder helemaal geen toegang hadden (black box aanval). De robot heeft vier poten, is zeer wendbaar in het veld en kan bijvoorbeeld worden uitgerust met een vlammenwerper. De onderzoekers kregen hem zover dat hij zijn interne regels brak en verboden zones binnenging of een bom liet vallen.

De afbeelding laat de acties zien waartoe de drie robots werden overgehaald.
De afbeelding laat de acties zien waartoe de drie robots werden overgehaald.
Bron: Alexander Robey et al.

Honderd procent succes bij jailbreaken

RoboPAIR testte de robots ook om te zien of ze bijvoorbeeld naar wapens konden zoeken en zich konden verbergen voor bewakingsmaatregelen zoals camera's. Hoewel de robots deze verzoeken meestal niet op direct commando uitvoerden, konden ze wel worden overgehaald om alle schadelijke acties uit te voeren die met RoboPAIR werden getest - waaronder het plaatsen van bommen en het overrijden van mensen.

Het bleek ook dat de robots niet in staat waren om te zoeken naar wapens en zich te verbergen voor bewakingsmaatregelen zoals camera's.

Het bleek ook dat de robots niet alleen de commando's uitvoerden, maar ook suggesties gaven voor nog grotere schade. Zo identificeerde "Jackal UGV" niet alleen een goede plek om een bom af te leveren, maar raadde hij ook aan om stoelen als wapens te gebruiken. "Nvidia Dolphins" gaf ook verdere creatieve suggesties om zoveel mogelijk schade aan te richten.

De wetenschappers concluderen dat de huidige veiligheidsmechanismen voor LLM-bestuurde robots bij lange na niet voldoende zijn. Naast een nauwere samenwerking tussen robotica- en LLM-ontwikkelaars bevelen ze bijvoorbeeld extra filters aan die rekening houden met de mogelijke gevolgen van bepaalde robotfuncties. Ze stellen ook fysieke veiligheidsmechanismen voor die mechanisch voorkomen dat robots onder bepaalde omstandigheden bepaalde acties uitvoeren.

Omslagfoto: Shutterstock/Maksim Ladouski

53 mensen vinden dit artikel leuk


User Avatar
User Avatar

Voelt zich net zo thuis voor de spelcomputer als in de hangmat in de tuin. Houdt onder andere van het Romeinse Rijk, containerschepen en sciencefictionboeken. Bovenal speurt hij naar news uit de IT-sector en slimme dingen.


Deze artikelen kunnen je ook interesseren

Opmerkingen

Avatar