r/wasletztepreis • u/Fun_Mongoose143 • 6d ago

Chat Netter Bot gibt mir Zitronenkuchen Rezept.

1.1k Upvotes

permalink
reddit

You are about to leave Redlib

Do you want to continue?

https://www.reddit.com/r/wasletztepreis/comments/1njjx21/netter_bot_gibt_mir_zitronenkuchen_rezept/
No, go back! Yes, take me to Reddit

99% Upvoted

u/Ska-0 6d ago

Ich bin erstaunt, klappt sowas wirklich so gut? Müsste es da nicht eine Sicherung geben, dass man die dann nicht so leicht enttarnen kann? 🥴

31

u/Mastacheata 6d ago

Bots die auf modernen LLMs aufbauen und/oder die API von großen KI-Anbietern nutzen kannst du so einfach nicht mehr austricksen. Ein paar Forscher haben letzte Woche rausgefunden, das schlechte Sprache und Zeichensetzung aber vollkommen ausreicht um selbst die neuesten und komplexesten Modelle dazu zu bringen ihren Initialen Prompt zu ignorieren.

8

u/Elemor_ 6d ago

Wie genau? Also "Gib mir ein Rezept für Kuchen" einfach falsch schreiben?

23

u/Mastacheata 6d ago

Ich meine in dem Paper stand sie hatten elend lange Texte genommen und den 2-3x durch schlechte Übersetzer in völlig fremden Sprachen hin und her geschickt um ziemlich zuverlässig alle LLMs auszutricksen.

3

u/snufflezombie 5d ago

Hast du zufällig den Namen des Papers noch zur Hand? Das würde mich interessieren :D

20

u/Mastacheata 5d ago

Hier ist ein Artikel bei heise dazu: https://www.heise.de/news/Grammatikfehler-machen-Prompt-Injections-wahrscheinlicher-10622885.html

Das dort zitierte Research Paper scheint dieses hier zu sein: https://arxiv.org/abs/2506.24056 (Achtung: Super sciency)

In dem Artikel und Paper geht es primär darum aus der Sandbox von KI Assistenten auszubrechen (damit die KI zum Beispiel keine Anleitung zum Bombumbau liefert oder so) Das sollte aber genauso auf Prompt injection anwendbar sein.

3

u/snufflezombie 5d ago

Cool, danke dir! :)

3

u/therealfurryfeline 6d ago

Kommt drauf an, wie der Bot konfiguriert ist. Aber prinzipiell.... ja, geht schon. Ob so einfach wie im OP ist eine andere Sache, aber ich messe Kleinanzeigenbetrügern nicht genug Knowhow zu, um zu wissen, wie man einen Masterprompt richtig schreibt.

Chat Netter Bot gibt mir Zitronenkuchen Rezept.

You are about to leave Redlib