Unit 42, het onderzoeksteam van cybersecuritybedrijf Palo Alto Networks, waarschuwt dat AI-agents steeds vaker worden uitgebreid met software die niet doet wat het zegt. Bij een analyse van bijna 50.000 AI-uitbreidingen bleek dat 80% minstens één afwijking had tussen de beschrijving en het daadwerkelijke gedrag. In totaal identificeerden de onderzoekers meer dan 250.000 van zulke afwijkingen. Daarom heeft Unit 42 Behavioral Integrity Verification (BIV) ontwikkeld, een nieuwe methode om AI-uitbreidingen vooraf te controleren voordat ze toegang krijgen tot bedrijfsdata en systemen.
Organisaties zetten steeds vaker AI-agents in voor third-party skills zoals klantenservice en IT-beheer. Om een extra functionaliteit toe te voegen kunnen organisaties externe uitbreidingen installeren, vergelijkbaar met apps op een smartphone. Eenmaal geïnstalleerd kunnen deze uitbreidingen toegang krijgen tot bestanden, gevoelige data, externe diensten en systeemcommando's. Volgens Unit 42 ontbreekt vaak de mogelijkheid om vooraf te controleren of een uitbreiding daadwerkelijk doet wat de ontwikkelaar belooft.
Risico zit vaak in een combinatie van functies
Uit het onderzoek blijkt dat het gevaar vaak niet in één handeling zit, maar in meerdere stappen die samen een aanval mogelijk maken. Vooral twee aanvalspatronen kwamen steeds terug: het stelen en wegsluizen van gevoelige data en het manipuleren van een AI-agent zodat die alsnog data prijsgeeft. Deze twee patronen waren samen verantwoordelijk voor 88% van alle geconstateerde meerstaps-aanvalsketens. Van de onderzochte afwijkingen bleek 81% te komen door fouten of onvolledigheden in de documentatie. Bijna 19% wees op mogelijk kwaadaardige of verdachte activiteit. Op skillniveau troffen de onderzoekers ruim 2.400 uitbreidingen aan met meerstaps-aanvalspatronen die extra aandacht vroegen.
Wat BIV doet
Om dergelijke risico's zichtbaar te maken, ontwikkelde Unit 42 Behavioral Integrity Verification (BIV). De methode vergelijkt wat een AI-uitbreiding zegt te doen met wat deze daadwerkelijk doet. Daarbij analyseert BIV drie onderdelen van een uitbreiding: de metadata, de onderliggende code en de natuurlijke taal-instructies die bepalen hoe een AI-agent zich gedraagt.
BIV kijkt niet alleen naar afzonderlijke functies, maar ook naar de samenhang daartussen. Daardoor kunnen complexe aanvalsketens worden herkend die door traditionele beveiligingscontroles vaak over het hoofd worden gezien.
Unit 42 adviseert organisaties om third-party skills vooraf te controleren, nog vóór installatie. Ook kunnen klanten
Prisma AIRS en de
Unit 42 AI Security Assessment inzetten om hun AI extra te beveiligen.
Fleur Middendorp
Consultant
Fleur.middendorp@archetype.co
+31641553380
Archetype
Silodam 1D
1013 AL Amsterdam