AMD bringt Instinct MI350P als PCIe Karte für Enterprise KI

AMD hat mit der Instinct MI350P eine neue Hardware News für Enterprise KI vorgestellt und bringt seine CDNA 4 Architektur zurück in klassische PCIe Server. Die Karte richtet sich an Unternehmen, die KI Inferenz, RAG Pipelines und große Sprachmodelle in bestehenden Rechenzentren betreiben wollen, ohne direkt komplette OAM Plattformen oder neue GPU Racks einzuführen. Die MI350P kombiniert 144 GB HBM3E Speicher, 4 TB/s Speicherbandbreite und bis zu 4,6 PFLOPS bei FP8 mit strukturierter Sparsity. Damit schließt AMD eine Lücke zwischen Workstation GPUs und großen Instinct MI350X Beschleunigern.

Instinct MI350P bringt CDNA 4 in PCIe Server

Der wichtigste Punkt ist der Formfaktor. Die Instinct MI350P ist keine OAM Karte für dichte KI Systeme, sondern eine PCIe 5.0 x16 Add-in-Card im Full Height, Full Length, Dual Slot Design. Sie ist passiv gekühlt und für den Luftstrom klassischer Rackserver ausgelegt. Dadurch können Unternehmen bestehende Server mit KI Beschleunigung aufrüsten, sofern Stromversorgung, Kühlung und Platz ausreichen.

Technisch wirkt die MI350P wie eine kleinere Variante der MI350X. Sie nutzt 128 Compute Units, 512 Matrix Cores und einen CDNA 4 Chip mit 73 Milliarden Transistoren. Der HBM3E Speicher ist 144 GB groß und über ein 4096 Bit Interface angebunden. Die maximale Speicherbandbreite liegt bei 4 TB/s. Die typische Board Power beträgt 600 Watt, kann aber auf 450 Watt konfiguriert werden.

SpezifikationAMD Instinct MI350PEinordnung
ArchitekturCDNA 4Aktuelle AMD KI Architektur
FormfaktorPCIe 5.0 x16 Add-in-CardPasst in klassische Enterprise Server
Speicher144 GB HBM3EGroß genug für viele Inferenz Workloads
Speicherbandbreite4 TB/sDeutlich über typischen GDDR Karten
Compute Units128Halb so viele wie MI350X
Matrix Cores512Für KI Matrix Workloads
FP8 Matrix Leistung2,3 PFLOPS, 4,6 PFLOPS mit SparsityFokus auf Enterprise Inferenz
Board Power600 Watt, optional 450 WattHoher, aber PCIe tauglicher Verbrauch
KühlungPassiv für Server AirflowNicht für normale Desktop Gehäuse gedacht
SoftwareROCm, PyTorch, TensorFlow, JAX, HIP und OpenCLWichtig für offene KI Stacks

AMD zielt auf bestehende Rechenzentren statt neue KI Racks

AMD positioniert die Instinct MI350P für Unternehmen, die mehr KI Leistung brauchen, aber nicht sofort ihre gesamte Infrastruktur umbauen wollen. Genau dort liegt der strategische Unterschied zur MI350X und MI355X. Diese Beschleuniger sind auf dichte KI Plattformen und größere Node Designs ausgelegt. Die MI350P passt dagegen in klassische PCIe Systeme und kann laut AMD in luftgekühlten Servern mit bis zu acht Karten pro Node eingesetzt werden.

Das macht die Karte besonders für On-Premise Inferenz interessant. Viele Unternehmen wollen Modelle intern betreiben, weil Daten, Kosten, Latenz oder Compliance gegen reine Cloud Nutzung sprechen. AMD nennt kleine, mittlere und große KI Modelle, RAG Pipelines und Enterprise Inference als zentrale Einsatzbereiche. Mit 144 GB HBM3E kann eine einzelne Karte größere Modelle halten als viele klassische PCIe GPUs mit GDDR Speicher.

Die Karte ist aber kein direkter Ersatz für die großen MI350X Systeme. Ohne externe GPU zu GPU Infinity Fabric Links bleibt die Skalierung über mehrere Karten stärker an PCIe gebunden. Für sehr große Modelle, die über viele GPUs verteilt werden müssen, bleiben dichtere Plattformen mit stärkerem Interconnect im Vorteil. Die MI350P ist deshalb vor allem für Unternehmen interessant, die einzelne Modelle pro Karte, mehrere Inferenzdienste oder bestehende Serverflotten aufrüsten wollen.

Für AMD ist die MI350P auch ein Wettbewerbssignal. Nvidia dominiert den KI Beschleuniger Markt, aber nicht jedes Unternehmen kann oder will komplette HGX oder rackbasierte KI Systeme kaufen. Mit einer aktuellen Instinct PCIe Karte bietet AMD eine Alternative für Rechenzentren, die Leistung, Speichergröße und offene ROCm Software in vorhandenen Servern kombinieren wollen.