OpenAI bringt neue Realtime Voice Modelle für API Entwickler

OpenAI hat drei neue Realtime Voice Modelle für die API veröffentlicht und erweitert damit Sprachfunktionen für Entwickler deutlich. Die neuen AI Modelle heißen GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Sie sollen Voice Apps ermöglichen, die nicht nur einfache Frage-Antwort-Dialoge führen, sondern live zuhören, reasoning nutzen, übersetzen, transkribieren und Tools aufrufen können. GPT-Realtime-2 ist dabei das wichtigste Modell, weil OpenAI es als erstes Live Voice Modell mit GPT-5-class reasoning beschreibt. Die Modelle sind in der Realtime API und im Playground verfügbar.

OpenAI Realtime API bekommt drei neue Voice Modelle

GPT-Realtime-2 ist für komplexe Sprachagenten gedacht. Das Modell kann während eines Gesprächs reasoning einsetzen, längere Kontexte verarbeiten, Tools nutzen und Gespräche natürlicher fortsetzen. OpenAI nennt ein erweitertes Kontextfenster von 128.000 Tokens. Entwickler können außerdem einstellen, wie stark das Modell reasoning einsetzen soll. Die Stufen reichen von minimal bis very high, wobei low als Standard vorgesehen ist.

GPT-Realtime-Translate ist auf Live-Übersetzung spezialisiert. Das Modell erkennt die Eingabesprache automatisch und übersetzt gesprochene Sprache in Echtzeit in eine Zielausgabe. OpenAI nennt mehr als 70 Eingabesprachen und 13 Ausgabesprachen. Die Funktion richtet sich an Kundensupport, Live-Events, Bildungsplattformen, Video-Tools und internationale Produkte.

GPT-Realtime-Whisper ist ein neues Streaming Speech-to-Text Modell. Es transkribiert Sprache live, während eine Person spricht. Das ist besonders relevant für Live-Untertitel, Meeting-Notizen, Callcenter-Workflows, Assistenzsysteme und Anwendungen, die während eines Gesprächs bereits mit Text weiterarbeiten müssen.

ModellHauptfunktionTypische Nutzung
GPT-Realtime-2Realtime Voice mit GPT-5-class reasoning, Tool-Nutzung und 128k KontextVoice Agents, Support Bots, Terminbuchung, Tool-Aufrufe und längere Gespräche
GPT-Realtime-TranslateLive-Übersetzung von Sprache in andere SprachenMehrsprachiger Support, Live-Events, Creator-Tools und Lernplattformen
GPT-Realtime-WhisperStreaming Speech-to-Text während des SprechensLive Captions, Meeting Notes, Call Transcripts und Voice Assistants

Preise, Sicherheit und Einsatzbereiche

Die neuen Audio Modelle sind auf unterschiedliche Kostenmodelle verteilt. GPT-Realtime-2 wird nach Tokens abgerechnet. Audio Input kostet 32 Dollar pro 1 Million Tokens, gecachter Input 0,40 Dollar pro 1 Million Tokens und Audio Output 64 Dollar pro 1 Million Tokens. GPT-Realtime-Translate kostet 0,034 Dollar pro Minute. GPT-Realtime-Whisper kostet 0,017 Dollar pro Minute.

ModellPreisAbrechnung
GPT-Realtime-2 Audio Input32 Dollar pro 1 Million TokensTokenbasiert
GPT-Realtime-2 cached Input0,40 Dollar pro 1 Million TokensTokenbasiert
GPT-Realtime-2 Audio Output64 Dollar pro 1 Million TokensTokenbasiert
GPT-Realtime-Translate0,034 Dollar pro MinuteMinutenbasiert
GPT-Realtime-Whisper0,017 Dollar pro MinuteMinutenbasiert

OpenAI positioniert die Modelle klar für produktive Voice Apps. GPT-Realtime-2 kann kurze Preambles sprechen, bevor ein Tool-Aufruf läuft, etwa wenn ein Assistent einen Kalender prüft oder Informationen nachschlägt. Das soll Pausen in Sprachdialogen natürlicher machen. Außerdem soll das Modell besser mit Fachbegriffen, Eigennamen und domänenspezifischer Sprache umgehen.

Für Entwickler sind Sicherheit und Transparenz wichtig. OpenAI verweist auf aktive Schutzmechanismen in der Realtime API und empfiehlt zusätzliche Guardrails über eigene Sicherheitslogik oder den Agents SDK. Bei Sprachausgabe verlangt OpenAI außerdem eine klare Offenlegung, dass die gehörte Stimme KI-generiert ist und nicht von einem Menschen stammt.

Der Schritt macht Realtime Voice zu einem wichtigeren Teil der OpenAI API. Bisher waren viele Sprachassistenten auf kurze Turn-by-Turn-Interaktionen beschränkt. Mit Realtime Reasoning, Live-Übersetzung und Streaming-Transkription können Entwickler komplexere Produkte bauen, etwa mehrsprachigen Kundensupport, Live-Coaching, barrierefreie Untertitel, Meeting-Assistenten oder Voice Agents mit Tool-Zugriff.