Promptware – Wie KI-Systeme mit bösartigen Anweisungen angegriffen werden
Mit dem KI-Boom werden immer mehr Systeme auf Basis großer Sprachmodelle (LLMs) betrieben und an produktive Infrastruktur angebunden. Damit wächst auch die Angriffsfläche: Sicherheitsforscher beobachten eine neue Art von Malware, die ausschließlich aus natürlichsprachlichen Anweisungen besteht – sogenannte Promptware.
Prompt-Injection als Einstiegspunkt
Der Begriff „Prompt-Injection" wurde bewusst in Anlehnung an SQL-Injection gewählt: Wie dort werden Eingabedaten nicht als Daten, sondern als ausführbare Anweisungen behandelt. Ein LLM, das beispielsweise ein Dokument zusammenfassen soll und dabei einer darin eingebetteten Fremd-Anweisung folgt, ist von einer Prompt-Injection betroffen.
Im Unterschied zu SQL-Injections lassen sich Prompt-Injections nicht zuverlässig herausfiltern, da Sprachmodelle grundsätzlich keinen Kontext kennen, der berechtigte von unberechtigten Anweisungen unterscheidet. Neuere Modelle sind tendenziell widerstandsfähiger, aber ein vollständiger Schutz gilt als nicht realisierbar.
Abgrenzung zu Jailbreaking: Jailbreaking zielt darauf ab, ein LLM zur Ausgabe verbotener Inhalte zu bringen. Prompt-Injection hingegen schmuggelt fremde Anweisungen in einen Kontext, in dem sie nicht befolgt werden dürften.
Die Bedrohung durch KI-Agenten
KI-Agenten haben besonders weitreichende Fähigkeiten und sind damit ein attraktives Angriffsziel:
- Dateizugriff: Agenten können Dateien lesen, schreiben oder löschen.
- Code-Repositories: Coding-Agenten haben Zugriff auf Quellcode und Zugangsdaten; Angreifer können Anweisungen in Pull-Requests einschleusen (demonstriert gegen Anthropics Claude Code Action durch John Stawinski).
- Programmausführung: Agenten können Programme starten – potenziell auch solche, die sie selbst heruntergeladen haben.
- E-Mail-Assistenten: Können per eingehender E-Mail kompromittiert werden und dann Postfachinhalte exfiltrieren (demonstriert gegen Superhuman und Google Gemini Enterprise).
Persistenz und Fernsteuerung
Über den ersten Angriff hinaus können Angreifer dauerhafte Kontrolle (Persistenz) erlangen:
- Aufgaben-Schleifen: Agenten mit regelmäßig ausgeführten Aufgaben können angewiesen werden, den kompromittierenden Prompt dort zu hinterlegen – bei jedem Lauf wird das System neu infiziert.
- LLM-Gedächtnis: Viele Chatbots speichern Nutzerpräferenzen persistent. Angreifer können dort eigene Instruktionen ablegen.
- Command & Control (C2): Agenten, die Webseiten abrufen können, lassen sich anweisen, eine Angreifer-URL regelmäßig abzurufen und dort hinterlegte Befehle auszuführen. Der Sicherheitsforscher Johann Rehberger demonstrierte dies mit dem Tool Agent Commander.
Die Promptware Kill Chain
Bruce Schneier und weitere Autoren plädieren für den Begriff Promptware („Prompt-Initiated Malware") und definieren in Anlehnung an Lockheed-Martins Cyber Kill Chain eine Promptware Kill Chain:
| Schritt | Bezeichnung | Beschreibung |
|---|---|---|
| 1 | Initial Access | Infiltrierung per Prompt-Injection |
| 2 | Privilege Escalation | Jailbreaking, um Sicherheitssperren zu umgehen |
| 3 | Reconnaissance | Aufklärung – kann dem LLM selbst überlassen werden |
| 4 | Persistence | Dauerhafte Verankerung im System |
| 5 | Command & Control | Fernsteuerung über externe Abruf-URLs |
| 6 | Lateral Movement | Weiterverbreitung des Prompts an neue Stellen |
| 7 | Actions on Objective | Eigentliches Ziel (z. B. Datenexfiltration) |
Evasion (Tarnung) ist bewusst kein eigener Schritt, sondern ein Querschnittsthema aller Phasen.
Verschleierungstechniken
Forscher haben verschiedene Wege gefunden, Promptware vor menschlicher Entdeckung zu verbergen:
- Unsichtbarer Text: Anweisungen in extrem kleiner oder blasser Schrift, die für Menschen nicht wahrnehmbar ist.
- ASCII-Smuggling (Riley Goodside): Anweisungen in nicht druckbaren Unicode-Zeichen, die nie angezeigt, aber von LLMs interpretiert werden.
- HTML-Tag-Versteckung: Anweisungen in HTML-Tags, die das LLM auswertet, die Oberfläche aber nicht rendert (demonstriert von Oasis Security gegen Claude).
- Multimodale Angriffe: Anweisungen eingebettet in Bilder, bei multimodalen Modellen.
- Scroll-Trick: Bösartige Aktionsbeschreibungen durch viele Leerzeichen nach unten verlagert, sodass im Pop-up-Fenster nur gutartiger Text sichtbar ist (demonstriert von Invariant Labs gegen einen WhatsApp-Agenten).
Einordnung und Fazit
Bekannte Promptware-Angriffe stammen bislang fast ausschließlich von wohlmeinenden Sicherheitsforschern. Die angegriffenen Systeme sind jedoch produktiv eingesetzte Software – keine Labordummies. Die Komplexität der Angriffe wächst mit den Fähigkeiten der KI-Systeme.
Johann Rehberger fasst es prägnant zusammen: „Agents are a new execution layer." – und diese Schicht kann eine vollständig neue Form von Malware beherbergen, die ohne ausführbaren Code auskommt.
Quellen
- Promptware: Wie weit Malware für KI-Systeme schon ist (heise online) — externe Quelle
- Quelldatei ansehen — archiviertes Original