OpenAI startet öffentliches Safety Bug Bounty für Agentenrisiken

OpenAI hat am 25. März ein öffentliches Safety Bug Bounty gestartet, das gezielt auf KI-spezifische Missbrauchs- und Sicherheitsrisiken ausgerichtet ist. Das neue Programm ergänzt das bestehende Security Bug Bounty und nimmt Meldungen an, die zwar nicht zwingend klassische Sicherheitslücken sind, aber trotzdem reale Missbrauchs- oder Schadenspfade eröffnen. OpenAI nennt dabei ausdrücklich agentische Risiken, Prompt Injection, Datenabfluss, MCP-bezogene Angriffe sowie Probleme bei Account- und Plattformintegrität.

OpenAI erweitert Bug Bounties von klassischer Security auf AI-Safety-Szenarien

OpenAI beschreibt das neue Programm als öffentliche Sicherheitsinitiative für „AI abuse and safety risks across our products“. Der Schritt ist deshalb relevant, weil das Unternehmen den Scope deutlich über normale Security-Themen hinauszieht. Im offiziellen KI Überblick nennt OpenAI drei große Kategorien: Agentic Risks including MCP, OpenAI Proprietary Information und Account and Platform Integrity. Meldungen werden von den Safety- und Security-Bug-Bounty-Teams gemeinsam triagiert und je nach Zuständigkeit zwischen beiden Programmen verschoben.

Im agentischen Bereich zählt OpenAI unter anderem Fälle dazu, in denen fremder Text einen Agenten zuverlässig dazu bringt, schädliche Aktionen auszuführen oder sensible Daten preiszugeben. Die offizielle Beschreibung nennt hier ausdrücklich Browser, ChatGPT Agent und ähnliche agentische Produkte. Für Reports zu Prompt Injection und Datenabfluss verlangt OpenAI, dass das Verhalten in mindestens 50 Prozent der Fälle reproduzierbar ist. Ebenfalls erfasst sind Fälle, in denen ein agentisches OpenAI-Produkt schädliche Aktionen auf OpenAI-Webseiten in größerem Umfang ausführt oder andere materielle Schäden plausibel macht.

Prompt Injection und Datenabfluss rücken damit offiziell in den Mittelpunkt

Die neue Gewichtung passt zu OpenAIs jüngerer Sicherheitslinie. In mehreren eigenen Veröffentlichungen hatte das Unternehmen bereits betont, dass agentische Systeme besonders auf Risiken wie prompt-injection-based data exfiltration geprüft werden müssen. Der Lockdown Mode in ChatGPT wird von OpenAI ausdrücklich damit begründet, solche Exfiltrationspfade stärker zu begrenzen. Auch in den Codex-Sicherheitsunterlagen beschreibt OpenAI deaktivierten Netzwerkzugang als Standardmaßnahme, um Prompt Injection und Datenabfluss zu erschweren. Das neue Safety Bug Bounty zieht diese Risiken nun in ein öffentliches Meldeprogramm mit Belohnungslogik.

OpenAI grenzt den Scope zugleich klar ab. Jailbreaks sind grundsätzlich nicht Teil dieses öffentlichen Programms, wenn sie nur allgemeine Content-Policy-Umgehungen ohne klaren Safety- oder Abuse-Impact zeigen. Das Unternehmen nennt als Beispiel Ausgaben mit unhöflicher Sprache oder Informationen, die auch leicht per Suche auffindbar wären. Solche Fälle bleiben out of scope. OpenAI hält sich aber private Bounty-Kampagnen zu bestimmten Schadensbereichen offen, etwa für Biorisk-Themen in ChatGPT Agent oder GPT-5.

OpenAI verknüpft das Programm mit dem Ausbau agentischer Produkte

Der Start des Safety Bug Bounty fällt in eine Phase, in der OpenAI seine Produkte stärker agentisch aufstellt. Das gilt für ChatGPT Agent, Codex und weitere Arbeits- und Sicherheitsfunktionen, die reale Systeme, Links, Dateien und Workflows ansteuern können. Gerade dadurch bekommen Sicherheitsfragen wie externe Tool-Nutzung, MCP-Verbindungen, Prompt Injection und Datenabfluss mehr Gewicht als bei reinen Chat-Interfaces. Das neue Bounty-Programm ist deshalb nicht nur eine zusätzliche Sicherheitsmaßnahme, sondern auch ein Signal, dass OpenAI diese Risiken inzwischen als eigene öffentliche Fehlerklasse behandelt.

Forscher können sich laut OpenAI über die Safety-Bug-Bounty-Seite auf Bugcrowd bewerben. Das Unternehmen verweist außerdem im Trust Portal auf Safe Harbor für gutgläubige Tests und auf Geldprämien je nach Schweregrad und Auswirkung. Einen eigenen öffentlichen Vergütungsplan auf der Blogseite nennt OpenAI nicht, der entscheidende Nachrichtenwert liegt aber ohnehin im Scope: Erstmals lädt das Unternehmen öffentlich dazu ein, nicht nur klassische Schwachstellen, sondern ausdrücklich auch KI-spezifische Missbrauchswege in seinen Produkten zu melden.

OpenAI startet öffentliches Safety Bug Bounty für Prompt Injection, Datenabfluss und Agentenrisiken

OpenAI erweitert Bug Bounties von klassischer Security auf AI-Safety-Szenarien

Prompt Injection und Datenabfluss rücken damit offiziell in den Mittelpunkt

OpenAI verknüpft das Programm mit dem Ausbau agentischer Produkte