AMD kündigt MI350 Spezifikationen an: 185 Milliarden Transistoren und 288 GB Speicher

kyojuro Mittwoch, 27. August 2025

AMD hat auf der Hot Chips 2025 umfassende Details der Instinct MI350-Serie vorgestellt. Basierend auf der CDNA 4-Architektur ist dieses GPU-Beschleunigungsgerät darauf ausgelegt, den Anforderungen groß angelegter Sprachmodelle und Hochleistungsrechenaufgaben gerecht zu werden. Die MI350-Serie kommt in einem 3D-Multi-Chip-Paket mit 185 Milliarden Transistoren und wird mithilfe der N3P- und N6-Dual-Prozesse von TSMC gefertigt. Hochdichte Verbindungen werden durch die COWOS-S-Verpackungsmethode ermöglicht. Ein einzelnes Paket enthält acht Accelerator Composite Chips (XCDs) und zwei I/A-Chips. Während die XCDs die Berechnungen durchführen, sorgen die IODs für die Infinity Fabric-Verbindung und verwalten den HBM3e-Speichercontroller.

Abb. 1

Ein zentrales Merkmal dieser Generation ist die Speicher-Konfiguration. Die MI350-Serie besitzt 288 GB HBM3e-Speicher, die bis zu 8 TB/s Bandbreite bieten – ein wesentliches Upgrade gegenüber den 6 TB/s des MI300. Jeder I/A-Chip verbindet vier HBM3e-Stacks, wobei jeder Stack über eine Kapazität von 36 GB verfügt, die in einem 12-Hi-Paket angeordnet sind. Diese Architektur verbessert nicht nur den Durchsatz beim Training großer Modelle, sondern auch die kontextualen Verarbeitungsfähigkeiten für Inferenzaufgaben. In Bezug auf die Cache-Hierarchie ist der MI350 mit einem 256 MB Infinity Cache ausgestattet und bietet größere Register sowie LDS-Platz in jeder Recheneinheit, um dichte Matrix-Operationen zu unterstützen.

Bezüglich der Rechenleistung bietet die MI350-Serie 2,5 PFLOP Matrix FP16/BF16 und 5 PFLOP FP8 Rechenleistung auf einer einzelnen Karte mit Unterstützung für die MXFP6/MXFP4-Formate, die insgesamt 10 PFLOP erreichen. Für Doppelpräzisionsberechnungen ist die Vektorleistung des FP64 mit 78,6 TFLOP beibehalten, wobei die Matrixleistung im Vergleich zum MI300 leicht unterdurchschnittlich abschneidet. Dennoch zeigen die Optimierungen für KI-Inferenz und -Training bemerkenswerte Verbesserungen. AMDs Tests vor Ort ergaben, dass der MI355X bei Inferenzaufgaben von Llama 3.1 405B die Durchsatzrate im Vergleich zur MI300-Serie um das 35-Fache steigert.

Abb. 2

Ein weiteres wichtiges Merkmal ist die Interkonnektivität und Skalierbarkeit. Die MI350-Serie erreicht über das Infinity Fabric der vierten Generation eine bidirektionale aggregierte Bandbreite von 1075 GB/s pro Karte. Es unterstützt die Vernetzung von bis zu acht Karten und steigert die Kommunikationsgeschwindigkeiten um etwa 20%. Für die Systemintegration bietet AMD sowohl die luftgekühlte MI350X- als auch die flüssiggekühlte MI355X-Option mit thermischen Leistungsgrenzen (TDP) von 1000 W bzw. 1400 W an. Die luftgekühlte Konfiguration ist auf bis zu 10U-Schränken skalierbar, während die flüssiggekühlte Option eine höhere Dichte in einer 5U-Ausstattung ermöglicht. Die Standard-Cluster-Lösung bietet 80 PFLOPs FP8-Leistung und 2,25 TB Grafikspeicher pro Rack.

Im Vergleich zu NVIDIA hebt AMD hervor, dass der MI355X einen 1,6-fachen Speicherkapazitätsvorteil bietet, die FP64-Leistung verdoppelt und in Mainstream-Präzisionen wie FP8 und FP16 eng mit dem GB200 konkurriert. Die Einbeziehung des FP6-Datenformats macht den MI350 für spezifische Inferenzszenarien außergewöhnlich effizient. AMD betont auch die Flexibilität in der Partitionierung seiner Chips, sodass eine einzelne Karte in mehrere logische GPUs aufgeteilt werden kann, um mehrere Instanzen des 70B-Modells gleichzeitig auszuführen und die Ressourcen optimal zu nutzen.

Abb. 3

Die MI350-Serie soll bis zum dritten Quartal 2025 an Partner und Rechenzentren ausgeliefert werden. Zudem bestätigte AMD, dass die Entwicklung der MI400-Serie voranschreitet, die für 2026 erwartet wird. Während KI-Modelle weiterhin expandieren, unterstreicht das Design der MI350 die Bedeutung großer Speicherkapazitäten, skalierbarer Bandbreite und Energieeffizienz und positioniert AMD als starken Mitbewerber zu NVIDIA. Die Enthüllungen auf der Hot Chips verdeutlichen AMDs Expertise in fortschrittlichen Verpackungs- und Chip-Interfacetechnologien und deuten auf einen jährlichen Produktiterationszyklus hin, um mit den schnellen Fortschritten in der generativen KI Schritt zu halten.

Verwandte Nachrichten

© 2025 - TopCPU.net