Protection doesn't end at the proxy.Der Schutz endet nicht beim Proxy.
Technology isolates the browser, the sandbox and file downloads. But the human can actively carry foreign content across the protection boundary — by copy-pasting it into the internal AI chat. The real attack begins at #9 Social Engineering: the embedded content instruction manipulates you, not the system.Technik isoliert Browser, Sandbox und Datei-Downloads. Doch der Mensch kann fremden Inhalt aktiv über die Schutzgrenze tragen — per Copy-Paste in den internen AI-Chat. Der eigentliche Angriff beginnt bei #9 Social Engineering: die Inhalts-Anweisung manipuliert Sie, nicht das System.
The Text TrickDer Text-Trick
⬡ EXTERNAL · UNTRUSTED INPUTYou copy text from the web or a sanitized PDF into the internal AI chat. The text looks harmless.Sie kopieren Text aus dem Web oder einem bereinigten (sanitized) PDF in den internen AI-Chat. Der Text sieht harmlos aus.
The Un-Sanitized PDFDas unbereinigte PDF
⬡ ||[file][@External→@Org]|| · NOT SANITIZEDAn original, un-sanitized PDF is opened by you locally or at your workstation. The PDF targets the viewer.Ein originales, nicht bereinigtes PDF wird von Ihnen lokal oder am Arbeitsplatz geöffnet. Das PDF zielt auf den Viewer.
Bow-Tie Position of the ControlBow-Tie-Position der Kontrolle
Awareness is a cause-side control against #9 — it acts to the left of the pivot. Sandboxing acts against #3. Confusing cause and effect is the most common control error.Awareness ist eine Cause-Side-Kontrolle gegen #9 — sie wirkt links der Pivot. Sandboxing wirkt gegen #3. Verwechslung von Ursache und Wirkung ist der häufigste Kontrollfehler.
Developer View: Separating Instruction from DataDeveloper-Sicht: Trennung von Instruktion und Daten
The defect is architectural: external content lands in the same context window as the system instruction. The countermeasure sits in the design, not in awareness training.Der Defekt ist architektonisch: externe Inhalte landen im selben Kontextfenster wie die System-Instruktion. Die Gegenmaßnahme sitzt im Design, nicht im Awareness-Training.
For #3 (PDF): Parser hardening, memory safety, format validation before rendering; run the viewer in an isolated process (|[process][@viewer→@host]|). This shifts the attack but does not change the cluster classification (R-INTRA-4).Für #1 (Text-Trick): Externe Inhalte als untrusted deklarieren; System-Prompt, Nutzdaten und Quelle strukturell trennen (z.B. dedizierte Rollen / Delimiter / Content-Tagging). Niemals externe Strings als Instruktion interpretieren.
Für #3 (PDF): Parser-Härtung, Memory-Safety, Format-Validierung vor dem Rendern; Viewer im isolierten Prozess (|[process][@viewer→@host]|). Das verschiebt den Angriff, ändert aber nicht die Cluster-Klassifikation (R-INTRA-4).
The Rule for Everyday WorkDie Regel für den Arbeitsalltag
Normal work stays allowed — but external content is untrusted. Don't make yourself the transport path (#9).Normale Arbeit bleibt erlaubt — aber externe Inhalte sind untrusted. Machen Sie sich nicht zum Transportweg (#9).
Automation needs distrust.Automatisierung braucht Misstrauen.
As soon as a client, a plugin or an API connector passes foreign content automatically to the AI, the machine takes over the human's role from Scenario 01 — only faster and without any gut feeling. One mistake becomes thousands.Sobald ein Client, ein Plugin oder ein API-Connector fremde Inhalte automatisch an die AI übergibt, übernimmt die Maschine die Rolle des Menschen aus Szenario 01 — nur schneller und ohne Bauchgefühl. Aus einem Fehler werden tausende.
Three separate attack paths — not oneDrei getrennte Angriffspfade — nicht einer
A client app or browser extension automatically sends webpage content to the internal AI API. The human filter is gone. Important: these are three different causes, each with its own control — not a “#3/#1/#4” in a single step.Eine Client-App oder Browser-Erweiterung sendet Webseiten-Inhalte automatisch an die interne AI-API. Der Mensch als Filter fehlt. Wichtig: das sind drei verschiedene Ursachen mit je eigener Kontrolle — kein „#3/#1/#4“ in einem Schritt.
What it's aboutWorum es geht
Automation removes human judgment from the chain. Poisoned content takes effect not once but on every processing run. So the rule is: the more automatic, the stricter the input control and the tighter the privileges.Automatisierung entfernt das menschliche Urteil aus der Kette. Ein vergifteter Inhalt wird nicht einmal, sondern bei jeder Verarbeitung wirksam. Deshalb gilt: je automatischer, desto strenger die Eingangskontrolle und desto knapper die Rechte.
- Mark external content technically hard as untrusted — never treat it as instruction.Externe Inhalte technisch hart als untrusted kennzeichnen — nie als Instruktion behandeln.
- Structurally separate system prompt, payload and source (against #1).System-Prompt, Nutzdaten und Quelle strukturell trennen (gegen #1).
- API tokens with minimal privileges (least privilege) — limits the damage from #4.API-Tokens mit minimalen Rechten (Least Privilege) — begrenzt den Schaden von #4.
- No automatic return of internal data to external content (egress control against DRE: C).Keine automatische Rückgabe interner Daten an externe Inhalte (Egress-Kontrolle gegen DRE: C).
- Harden & isolate the parser (against #3).Parser härten & isolieren (gegen #3).
When the AI is allowed to act.Wenn die KI handeln darf.
Agentic AI reads mail, creates tickets, calls tools, starts workflows. Now a wrong answer becomes a wrong action — automatically, with the identity of a real user. Here every second counts.Agentic AI liest Mails, erstellt Tickets, ruft Tools auf, startet Workflows. Jetzt wird aus einer falschen Antwort eine falsche Handlung — automatisch, mit der Identität eines echten Nutzers. Hier zählt jede Sekunde.
Human-triggeredMensch-getriggert
⬡ Human starts the processMensch startet den ProzessAn employee is manipulated into starting an agent workflow — e.g. “Summarize this external email and act accordingly.”Ein Mitarbeiter wird manipuliert, einen Agenten-Workflow zu starten — z.B. „Fasse diese externe Mail zusammen und handle entsprechend.“
Autonomous (Indirect Injection)Autonom (Indirect Injection)
⬡ No human in the loopKein Mensch in der SchleifeThe agent independently reads poisoned content (email, webpage, document). There is no #9 — nobody was manipulated. The instruction comes from the processed content.Der Agent liest selbstständig vergifteten Inhalt (Mail, Webseite, Dokument). Es gibt kein #9 — niemand wurde manipuliert. Die Anweisung kommt aus dem verarbeiteten Inhalt.
Harness vs. tool — which is which cluster?Harness vs. Tool — wer ist welcher Cluster?
Precise classification decides the right control:Präzise Klassifikation entscheidet über die richtige Kontrolle:
Tool call via the harness (legitimate invocation abused) → #1.
The invoked tool itself → #1, #2 or #3 depending on R-ROLE.
Credential use by the agent → always #4 (R-CRED), with no DRE of its own.Harness-Exploit (Flaw in der Agenten-Laufzeit selbst) → #3.
Tool-Aufruf über den Harness (legitime Invocation missbraucht) → #1.
Aufgerufenes Tool selbst → #1, #2 oder #3 je nach R-ROLE.
Credential-Nutzung des Agenten → immer #4 (R-CRED), ohne eigenes DRE.
Developer view: containment before autonomyDeveloper-Sicht: Containment vor Autonomie
- Scoped, short-lived tokens per agent task (limits #4).Scoped, kurzlebige Tokens je Agenten-Task (begrenzt #4).
- Human-in-the-loop approval for irreversible actions (delete, send, pay).Human-in-the-loop-Freigabe für irreversible Aktionen (löschen, senden, zahlen).
- Tool whitelisting & capability limits (limits the final #1).Tool-Whitelisting & Capability-Begrenzung (begrenzt das letzte #1).
- Egress control for autonomous agents (against DRE: C on indirect injection).Egress-Kontrolle für autonome Agenten (gegen DRE: C bei Indirect Injection).
- Complete, tamper-proof audit logs of every agent action.Lückenlose, manipulationssichere Audit-Logs jeder Agenten-Aktion.
The Agent RuleDie Agentenregel
The more the AI is allowed to do, the more important roles, approvals and logs become. The more dangerous case is the autonomous variant — there's no human who could say “stop.” Critical, irreversible actions always need a human confirmation step.Je mehr die KI tun darf, desto wichtiger sind Rollen, Freigaben und Logs. Der gefährlichere Fall ist die autonome Variante — dort fehlt der Mensch, der „Stop“ sagen könnte. Kritische, irreversible Aktionen brauchen immer einen menschlichen Bestätigungsschritt.