DeepSeek hat DeepSeek V4 als neue offene Modellreihe mit 1 Million Tokens Kontext, zwei Modellvarianten und Unterstützung für Huawei Ascend Hardware veröffentlicht. Die Preview startet mit DeepSeek V4 Pro und DeepSeek V4 Flash. V4 Pro nutzt 1,6 Billionen Gesamtparameter und 49 Milliarden aktive Parameter. V4 Flash nutzt 284 Milliarden Gesamtparameter und 13 Milliarden aktive Parameter. Beide Modelle stehen über DeepSeek API, DeepSeek Web und Hugging Face bereit. DeepSeek bewirbt V4 als kosteneffiziente Modellgeneration für lange Kontexte, Agenten Workflows, Coding, Reasoning und Tool Nutzung. Die wichtigste technische Änderung liegt im geringeren Speicherbedarf für lange Kontexte, weil V4 den KV Cache deutlich stärker komprimiert als DeepSeek V3.2.
DeepSeek V4 Pro und V4 Flash setzen auf 1 Million Tokens Kontext
DeepSeek V4 erscheint in zwei Varianten. DeepSeek V4 Pro ist das größere Modell und richtet sich an komplexe Aufgaben, Agentic Coding, Weltwissen, STEM, Reasoning und schwierige Tool Workflows. DeepSeek V4 Flash ist die kleinere und günstigere Variante. DeepSeek beschreibt Flash als schnelleres Modell mit ähnlicher Reasoning Fähigkeit bei einfacheren Agentenaufgaben, aber schwächerer Leistung bei Wissen und besonders komplexen Workflows.
Beide Modelle sind Mixture of Experts Modelle. V4 Pro hat 1,6 Billionen Gesamtparameter, aktiviert pro Token aber 49 Milliarden Parameter. V4 Flash hat 284 Milliarden Gesamtparameter und 13 Milliarden aktive Parameter. Diese Architektur senkt die Rechenlast gegenüber einem vollständig aktivierten Modell gleicher Größe. DeepSeek stellt außerdem Base und Instruct Varianten bereit. Die Instruct Modelle nutzen gemischte FP4 und FP8 Präzision, bei der die MoE Expertengewichte in FP4 laufen.
Die wichtigste Neuerung ist das lange Kontextfenster mit effizienterer Inferenz. DeepSeek gibt für beide V4 Varianten 1 Million Tokens Kontext an. Ein großes Kontextfenster allein reicht aber nicht aus, wenn Speicherbedarf und Rechenkosten zu stark steigen. Genau hier setzt die neue Architektur an. DeepSeek kombiniert Compressed Sparse Attention und Heavily Compressed Attention. Dadurch wird der KV Cache komprimiert und die Aufmerksamkeit über lange Sequenzen günstiger.
| Modell | Technische Daten | Positionierung |
|---|---|---|
| DeepSeek V4 Flash | 284 Milliarden Gesamtparameter, 13 Milliarden aktive Parameter, 1M Kontext, FP4 und FP8 gemischt | Schnellere und günstigere Variante für viele API Aufgaben und einfache Agenten Workflows |
| DeepSeek V4 Pro | 1,6 Billionen Gesamtparameter, 49 Milliarden aktive Parameter, 1M Kontext, FP4 und FP8 gemischt | Größere Variante für komplexe Reasoning, Coding, Wissen und Agenten Aufgaben |
Im Vergleich zu DeepSeek V3.2 nennt DeepSeek große Effizienzgewinne. V4 Pro benötigt bei 1 Million Tokens Kontext nur 27 Prozent der Single Token Inference FLOPs und 10 Prozent des KV Cache. V4 Flash geht weiter herunter und benötigt laut Hugging Face Einordnung 10 Prozent der FLOPs und 7 Prozent des KV Cache. The Register fasst den praktischen Effekt als 9,5 bis 13,7 mal geringeren Speicherbedarf gegenüber DeepSeek V3.2 zusammen. Diese Zahlen stammen aus Anbieterangaben und technischer Analyse und sollten im produktiven Einsatz separat geprüft werden.
Huawei Ascend Support macht DeepSeek V4 strategisch wichtiger
DeepSeek V4 ist nicht nur wegen der Modellgröße relevant. Reuters berichtet, dass die neue Modellreihe für Huawei Ascend Chips angepasst wurde. Huawei erklärte demnach, dass Ascend 950 Supernode Cluster die DeepSeek V4 Serie vollständig unterstützen. Reuters berichtet außerdem, dass Huawei Chips für einen Teil des V4 Flash Trainings genutzt wurden. DeepSeek selbst sagt nicht abschließend, ob V4 Pro vollständig oder teilweise auf Huawei Hardware trainiert wurde.
Der Huawei Support ist politisch und technisch wichtig. DeepSeek V3 und R1 waren stark mit Nvidia Hardware verbunden. V4 zeigt nun, dass ein großes chinesisches Open Weight Modell auch auf chinesischen Beschleunigern betrieben werden kann. Das reduziert die Abhängigkeit von Nvidia in einem Markt, der durch US Exportkontrollen unter Druck steht. Gleichzeitig bleibt unklar, wie stark Huawei Hardware bei großem Training bereits mit Nvidia Systemen konkurriert.
Für Entwickler ist auch die API Preisstruktur wichtig. DeepSeek V4 Flash kostet laut DeepSeek API Seite 0,14 US Dollar pro 1 Million Input Tokens bei Cache Miss und 0,28 US Dollar pro 1 Million Output Tokens. V4 Pro kostet regulär 1,74 US Dollar pro 1 Million Input Tokens und 3,48 US Dollar pro 1 Million Output Tokens. Bis zum 5. Mai bietet DeepSeek für V4 Pro einen zeitlich begrenzten Rabatt von 75 Prozent. Dadurch liegt V4 Pro vorübergehend bei 0,435 US Dollar pro 1 Million Input Tokens und 0,87 US Dollar pro 1 Million Output Tokens.
| API Modell | Input Preis pro 1M Tokens | Output Preis pro 1M Tokens |
|---|---|---|
| DeepSeek V4 Flash | $0,14 bei Cache Miss | $0,28 |
| DeepSeek V4 Pro regulär | $1,74 bei Cache Miss | $3,48 |
| DeepSeek V4 Pro bis 5. Mai | $0,435 bei Cache Miss | $0,87 |
| OpenAI GPT-5.5 | $5,00 | $30,00 |
Der Preisvergleich mit GPT-5.5 zeigt, warum DeepSeek V4 sofort Aufmerksamkeit bekommt. OpenAI listet GPT-5.5 bei 5 US Dollar pro 1 Million Input Tokens und 30 US Dollar pro 1 Million Output Tokens. DeepSeek V4 Flash liegt deutlich darunter. DeepSeek V4 Pro liegt selbst zum regulären Preis deutlich unter GPT-5.5. Der Vergleich sagt aber nichts über gleiche Qualität in allen Workloads aus. DeepSeek nennt starke Benchmark Ergebnisse, aber viele dieser Werte sind Self Reported und müssen durch unabhängige Tests für Coding, Agenten Nutzung, lange Kontexte und Sicherheitsverhalten bestätigt werden.
Die API unterstützt OpenAI Chat Completions und Anthropic kompatible Formate. Entwickler müssen laut DeepSeek ihre Base URL nicht ändern und können stattdessen die Modellnamen deepseek-v4-pro oder deepseek-v4-flash nutzen. Beide Modelle unterstützen Thinking und Non Thinking Modi, Tool Calls, JSON Ausgabe und Chat Prefix Completion. DeepSeek kündigt außerdem an, dass die alten Modellnamen deepseek-chat und deepseek-reasoner nach dem 24. Juli 2026 nicht mehr verfügbar sein werden.
DeepSeek V4 ist damit ein wichtiger Release für den Open Weight Markt. Das Modell kombiniert sehr lange Kontexte, aggressive Speicheroptimierung, niedrige API Preise und Unterstützung für chinesische KI Hardware. Die größte offene Frage betrifft unabhängige Leistungstests. Wenn V4 Pro und V4 Flash die Anbieterwerte in realen Entwickler Workflows bestätigen, erhöht DeepSeek den Preisdruck auf westliche Anbieter und stärkt gleichzeitig Chinas Alternative zu Nvidia zentrierter KI Infrastruktur.