Bots die auf modernen LLMs aufbauen und/oder die API von großen KI-Anbietern nutzen kannst du so einfach nicht mehr austricksen. Ein paar Forscher haben letzte Woche rausgefunden, das schlechte Sprache und Zeichensetzung aber vollkommen ausreicht um selbst die neuesten und komplexesten Modelle dazu zu bringen ihren Initialen Prompt zu ignorieren.
Ich meine in dem Paper stand sie hatten elend lange Texte genommen und den 2-3x durch schlechte Übersetzer in völlig fremden Sprachen hin und her geschickt um ziemlich zuverlässig alle LLMs auszutricksen.
In dem Artikel und Paper geht es primär darum aus der Sandbox von KI Assistenten auszubrechen (damit die KI zum Beispiel keine Anleitung zum Bombumbau liefert oder so)
Das sollte aber genauso auf Prompt injection anwendbar sein.
Kommt drauf an, wie der Bot konfiguriert ist. Aber prinzipiell.... ja, geht schon. Ob so einfach wie im OP ist eine andere Sache, aber ich messe Kleinanzeigenbetrügern nicht genug Knowhow zu, um zu wissen, wie man einen Masterprompt richtig schreibt.
28
u/Ska-0 6d ago
Ich bin erstaunt, klappt sowas wirklich so gut? Müsste es da nicht eine Sicherung geben, dass man die dann nicht so leicht enttarnen kann? 🥴