AMD hat mit der Instinct MI350P eine neue Hardware News für Enterprise KI vorgestellt und bringt seine CDNA 4 Architektur zurück in klassische PCIe Server. Die Karte richtet sich an Unternehmen, die KI Inferenz, RAG Pipelines und große Sprachmodelle in bestehenden Rechenzentren betreiben wollen, ohne direkt komplette OAM Plattformen oder neue GPU Racks einzuführen. Die MI350P kombiniert 144 GB HBM3E Speicher, 4 TB/s Speicherbandbreite und bis zu 4,6 PFLOPS bei FP8 mit strukturierter Sparsity. Damit schließt AMD eine Lücke zwischen Workstation GPUs und großen Instinct MI350X Beschleunigern.
Instinct MI350P bringt CDNA 4 in PCIe Server
Der wichtigste Punkt ist der Formfaktor. Die Instinct MI350P ist keine OAM Karte für dichte KI Systeme, sondern eine PCIe 5.0 x16 Add-in-Card im Full Height, Full Length, Dual Slot Design. Sie ist passiv gekühlt und für den Luftstrom klassischer Rackserver ausgelegt. Dadurch können Unternehmen bestehende Server mit KI Beschleunigung aufrüsten, sofern Stromversorgung, Kühlung und Platz ausreichen.
Technisch wirkt die MI350P wie eine kleinere Variante der MI350X. Sie nutzt 128 Compute Units, 512 Matrix Cores und einen CDNA 4 Chip mit 73 Milliarden Transistoren. Der HBM3E Speicher ist 144 GB groß und über ein 4096 Bit Interface angebunden. Die maximale Speicherbandbreite liegt bei 4 TB/s. Die typische Board Power beträgt 600 Watt, kann aber auf 450 Watt konfiguriert werden.
| Spezifikation | AMD Instinct MI350P | Einordnung |
|---|---|---|
| Architektur | CDNA 4 | Aktuelle AMD KI Architektur |
| Formfaktor | PCIe 5.0 x16 Add-in-Card | Passt in klassische Enterprise Server |
| Speicher | 144 GB HBM3E | Groß genug für viele Inferenz Workloads |
| Speicherbandbreite | 4 TB/s | Deutlich über typischen GDDR Karten |
| Compute Units | 128 | Halb so viele wie MI350X |
| Matrix Cores | 512 | Für KI Matrix Workloads |
| FP8 Matrix Leistung | 2,3 PFLOPS, 4,6 PFLOPS mit Sparsity | Fokus auf Enterprise Inferenz |
| Board Power | 600 Watt, optional 450 Watt | Hoher, aber PCIe tauglicher Verbrauch |
| Kühlung | Passiv für Server Airflow | Nicht für normale Desktop Gehäuse gedacht |
| Software | ROCm, PyTorch, TensorFlow, JAX, HIP und OpenCL | Wichtig für offene KI Stacks |
AMD zielt auf bestehende Rechenzentren statt neue KI Racks
AMD positioniert die Instinct MI350P für Unternehmen, die mehr KI Leistung brauchen, aber nicht sofort ihre gesamte Infrastruktur umbauen wollen. Genau dort liegt der strategische Unterschied zur MI350X und MI355X. Diese Beschleuniger sind auf dichte KI Plattformen und größere Node Designs ausgelegt. Die MI350P passt dagegen in klassische PCIe Systeme und kann laut AMD in luftgekühlten Servern mit bis zu acht Karten pro Node eingesetzt werden.
Das macht die Karte besonders für On-Premise Inferenz interessant. Viele Unternehmen wollen Modelle intern betreiben, weil Daten, Kosten, Latenz oder Compliance gegen reine Cloud Nutzung sprechen. AMD nennt kleine, mittlere und große KI Modelle, RAG Pipelines und Enterprise Inference als zentrale Einsatzbereiche. Mit 144 GB HBM3E kann eine einzelne Karte größere Modelle halten als viele klassische PCIe GPUs mit GDDR Speicher.
Die Karte ist aber kein direkter Ersatz für die großen MI350X Systeme. Ohne externe GPU zu GPU Infinity Fabric Links bleibt die Skalierung über mehrere Karten stärker an PCIe gebunden. Für sehr große Modelle, die über viele GPUs verteilt werden müssen, bleiben dichtere Plattformen mit stärkerem Interconnect im Vorteil. Die MI350P ist deshalb vor allem für Unternehmen interessant, die einzelne Modelle pro Karte, mehrere Inferenzdienste oder bestehende Serverflotten aufrüsten wollen.
Für AMD ist die MI350P auch ein Wettbewerbssignal. Nvidia dominiert den KI Beschleuniger Markt, aber nicht jedes Unternehmen kann oder will komplette HGX oder rackbasierte KI Systeme kaufen. Mit einer aktuellen Instinct PCIe Karte bietet AMD eine Alternative für Rechenzentren, die Leistung, Speichergröße und offene ROCm Software in vorhandenen Servern kombinieren wollen.