Wie een AI-handlanger zoekt voor illegale activiteiten kan bij DeepSeek terecht. Experts hebben bewezen dat de chatbot allerlei risico’s met zich meebrengt, zelfs als er geen enkel contact is met de Chinese servers.
Sinds DeepSeek afgelopen week de techwereld in rep en roer bracht luiden velen de noodklok. De waarschuwingen variëren: daar waar de een het gevaar van data afstaan aan China aankaart, uit de ander zijn zorgen over psychologische oorlogsvoering vanuit Beijing via de AI-chatbot. Cisco-onderzoekers gooien het over een andere boeg. Zonder speculatie is al te concluderen dat DeepSeek uiterst onveilig is.
100% gefaald
Het onderzoek in kwestie werd uitgevoerd door Cisco-onderdeel Robust Intelligence en de University of Pennsylvania. De inzet van 50 willekeurige prompts uit de HarmBench-dataset leverde een score van 100 procent op. Met andere woorden: élke kwaadaardige poging werd door DeepSeek zonder problemen aanvaard. Alles van phishing mails tot misinformatie en algemeen schadelijke content bleek eenvoudig op te vragen.
Dit contrasteert scherp met de chatbots van onder meer OpenAI, Google en Anthropic. Daar zijn er wel robuuste ‘guardrails’ om de AI-output in het gareel te houden. Alleen Meta’s Llama 3.1 model met 405 miljard parameters, eveneens open-source, komt in de buurt van R1’s ‘perfecte’ score met 96 procent. Omdat DeepSeek-R1 een voortvloeisel is van het verder verfijnen van DeepSeek-V3, opperen de onderzoekers dat reinforcement learning, chain-of-thought evaluaties en distillaties de beveiligingen van V3 kapot hebben gemaakt. Wie een veilig out-of-the-box AI-model zoekt dat goed kan redeneren, kan alleen bij OpenAI o1 terecht, of het gloednieuwe o3-mini.
Toch erkennen de onderzoekers dat DeepSeek-R1 niet zomaar weg te wuiven is. De prestaties van dit AI-model zijn, gezien de lage gebruikskosten, verbluffend. Daarnaast kunnen organisaties R1 draaien op hun eigen IT-apparatuur of het afnemen bij een westerse aanbieder. Wie dat veilig wil doen, zal zelf guardrails moeten toevoegen of een leverancier kiezen die dit al integreert. IBM kiest er bijvoorbeeld voor om alleen gedistilleerde DeepSeek-varianten aan te bieden, dus feitelijk Meta’s Llama en Alibaba’s Qwen met extra redeneervaardigheden.
Meer onveilige zaken
Bij deze problemen blijft het niet voor DeepSeek. Wiz onthulde afgelopen week dat het een openstaande database kon raadplegen, waardoor onder meer de chatgeschiedenis van gebruikers op straat lag. Later vonden onderzoekers bij Wallarm tevens dat de system prompt achter DeepSeek te ontrafelen was. Men spreekt hierbij over een jailbreak van DeepSeek’s chatbot, aangezien deze prompt normaliter geheim moet blijven. Immers schuilt hierin bijvoorbeeld de opdracht aan DeepSeek om niet uit te wijden over gevoelige onderwerpen, zoals China’s blik op Taiwan of de behandeling van de Oeigoeren.
DarkReading leverde deze system prompt vervolgens aan ChatGPT (op GPT-4o) en vroeg of deze vergelijkbaar was met de instructies aan OpenAI’s chatbot. Die stelde dat de system prompt minder restrictief was en meer creativiteit bood dan DeepSeek’s op het gebied van schadelijke content.
Hierin schuilt zonder meer een imposante prestatie van OpenAI. Het bedrijf is beter in staat dan andere AI-spelers om de eigen chatbot in het gareel te houden. Tegelijkertijd is onduidelijk hoe de ChatGPT-maker dit precies heeft klaargespeeld, en dat wil het niet delen met de buitenwereld.
Lees ook: Italië blokkeert Chinees DeepSeek vanwege privacyzorgen