AMD、MI350の仕様を発表: 1850億トランジスタと288GBメモリ

kyojuro 2025年8月27日水曜日

AMDはHot Chips 2025でInstinct MI350シリーズの詳細を明らかにしました。このGPUアクセラレータは、CDNA 4アーキテクチャに基づき、大規模な言語モデルと高性能コンピューティングの要求を満たすために設計されています。MI350シリーズは、1850億個のトランジスタを組み込んだ3Dマルチチップパッケージで構成され、TSMCのN3PとN6デュアルプロセスを使用して製造されています。高密度な相互接続は、COWOS-Sパッケージング手法によって可能になっています。ひとつのパッケージには、8つのXCDと2つのI/Oチップが含まれ、XCDは計算を処理し、IODはInfinity Fabricインターコネクトを提供し、HBM3eメモリコントローラを管理しています。

メモリ構成は、この世代での重要な特徴です。MI350シリーズは288GBのHBM3eメモリを搭載し、最大8TB/秒の帯域幅を備えており、MI300の6TB/秒から大きく向上しています。各I/Oチップは、12 Hiパッケージで配列された36GBの各スタックを持つ4つのHBM3eスタックに接続されています。このアーキテクチャは、大規模モデルのトレーニングのスループットを向上させるだけでなく、推論タスクのコンテキスト処理能力をも向上させます。キャッシュ階層に関しては、MI350は256MBのインフィニティキャッシュを搭載し、各コンピューティングユニットに大きなレジスタとLDSスペースを提供し、密行列演算をサポートします。

計算仕様に関して、MI350シリーズは1枚のカードでマトリックスFP16/BF16の2.5 PFLOPとFP8の5 PFLOPの計算能力を提供し、MXFP6 / MXFP4フォーマットをサポートし、合計10 PFLOPを達成します。FP64による二重精度計算では、ベクトル性能は78.6 TFLOPを維持しており、行列性能はMI300に比べてわずかに劣るものの、AI推論とトレーニングの最適化で顕著な改善を果たしています。AMDのオンサイトデータによれば、MI355XはLlama 3.1 405B推論タスク中にMI300シリーズに対して35倍のスループット向上を達成しています。

MI350シリーズは、第4世代Infinity Fabricを通じてカードあたり1075GB/秒の双方向集計帯域幅を達成しています。最大8枚のカードをサポートし、通信速度を約20%向上させます。システム統合のために、AMDは空冷のMI350Xと液冷のMI355Xを提供しており、熱設計出力はそれぞれ1000Wと1400Wです。空冷構成は10Uキャビネットまで拡張でき、液冷オプションは5Uセットアップで高密度性能をサポートします。標準クラスタソリューションは、80 PFLOPのFP8パフォーマンスとラックあたり2.25TBのグラフィックスメモリを提供します。

NVIDIAと比較すると、AMDはMI355Xが1.6倍のメモリ容量の優位性を提供し、FP64での2倍の性能を発揮し、FP8やFP16などの主要な精度でGB200と密接に競合することを強調しています。FP6データフォーマットが含まれていることで、MI350は特定の推論シナリオで非常に効率的です。AMDはさらに、チップのパーティションの柔軟性を強調しており、ひとつのカードを複数の論理GPUに分割でき、70Bモデルの複数のインスタンスを同時に実行してリソース利用率を向上させることが可能です。

MI350シリーズは、2025年第3四半期までにパートナーおよびデータセンターに配布される予定です。さらに、AMDはMI400シリーズの開発中であり、2026年のリリースを視野に入れています。AIモデルが拡大し続ける中、MI350の設計は大メモリ容量、スケーラブルな帯域幅、エネルギー効率に重きを置き、AMDはNVIDIAとの競争の最前線に立っています。Hot Chipsでの発表は、AMDの先進的なパッケージングとチップ相互接続におけるエンジニアリング力を強調しており、生成AIの急速な進歩に対応するための毎年の製品イテレーションサイクルを示しています。

関連ニュース

© 2025 - TopCPU.net