Oracle hat die Bereitstellung mehrerer CPU-Computercluster angekündigt, die für KI-Trainingsdienste über die Oracle-Cloud-Infrastruktur konzipiert sind. Es handelt sich dabei um die leistungsfähigsten Cluster, die bis zu 131.072 NVIDIA-B200-GPU-Beschleunigerkarten nutzen und eine maximale FP8-Gleitpunkt- und INT8-Ganzzahlleistung von bis zu 2,4 ZFlops bzw. 24 Billionen Operationen pro Sekunde erreichen.
Die Basisknoten bestehen aus flüssiggekühlten Boxen des Typs NVIDIA-G200 NVL72, von denen jede 72 integrierte GPU-Beschleunigerkarten enthält. Diese Gehäuse sind über den NVLink-Bus mit einer Bandbreite von 129,6 TB verbunden.
Trotz der beeindruckenden Anzahl an Beschleunigerkarten und der Spitzenleistung hat dieses Set die allgemeine Verfügbarkeit noch nicht erreicht. Trotzdem ist die Ankündigung spannend, da Oracle angibt, dass NVIDIA im ersten Halbjahr des nächsten Jahres keine Blackwell-GPUs in großen Mengen liefern wird. Ein konkretes Startdatum für diesen riesigen Cluster gibt es noch nicht.
Ein zweiter Cluster ist mit 16.384 NVIDIA-H100-GPUs ausgestattet. Die Spitzenleistung bei FP8/INT8 beträgt 65 PFlops (650 Millionen Operationen pro Sekunde) und der Bandbreitendurchsatz insgesamt liegt bei 13 Pbps.
Der dritte Cluster verfügt über 65.536 NVIDIA-H200-GPUs, eine Spitzenleistung von FP8/INT8 von 260 EFlops (2,6 Billionen Operationen pro Sekunde) und einen Bandbreitendurchsatz von 52 Prozentpunkten pro Sekunde. Dieser Cluster soll noch in diesem Jahr live gehen.
Organisationen wie WideLab und Zoom haben bereits begonnen, die neuen Clustering-Dienste von Oracle zu nutzen.