NVIDIA ha annunciato l'inizio delle prove del suo acceleratore Rubin AI di prossima generazione per i clienti a settembre, solo sei mesi dopo il lancio di Blackwell Ultra, dimostrando un ritmo di sviluppo straordinariamente rapido. Le GPU Rubin R100 e le nuove CPU Vera utilizzano il processo produttivo a 3 nm di TSMC, incorporano memoria HBM4 e adottano il design Chiplet. Questi progressi offrono un miglioramento complessivo in termini di prestazioni, efficienza energetica e architettura.
La GPU Rubin R100 rappresenta l'ultimo acceleratore di intelligenza artificiale di NVIDIA, basato sull'architettura Blackwell, progettato per soddisfare le crescenti esigenze di elaborazione dei data center. Basato sul processo N3P (performance-enhanced 3nm) di TSMC, il R100 offre un aumento del 20% nella densità dei transistor, una riduzione del consumo energetico del 25 - 30% e un incremento delle prestazioni compreso tra il 10 - 30% rispetto al processo a 4nm utilizzato nel Blackwell B100. Questo progresso tecnologico migliora significativamente l'efficienza energetica del R100, rendendola ideale per compiti intensi di formazione e inferenza di intelligenza artificiale. In particolare, l'R100 introduce il design Chiplet, che migliora i rendimenti di produzione e la flessibilità architettonica integrando più moduli di chip più piccoli. Il suo design con reticolo 4x aumenta l'area del chip rispetto al reticolo 3,3x di Blackwell, consentendo di includere più unità di calcolo e interfacce di memoria.
Per quanto riguarda la memoria, l'R100 utilizza otto stack HBM4 con una capacità totale di 288 GB e può raggiungere larghezza di banda fino a 13 TB/s, un notevole miglioramento rispetto all'HBM3E del Blackwell B100, che raggiunge circa 8 TB/s. L'HBM4 utilizza la tecnologia di impilamento a 12 o 16 livelli, offrendo capacità singola stack di 24 o 32 Gb, garantendo un robusto supporto di memoria essenziale per modelli di linguaggio di grandi dimensioni e ragionamento AI complesso. Inoltre, l'R100 sfrutta la tecnologia di packaging CoWoS-L di TSMC, che ospita substrati da 100x100 mm e fino a 12 stack HBM4, ponendo una solida base per ulteriori espansioni di Rubin Ultra. Il chip I/O utilizza il processo N5B (5nm enhanced), ottimizzando ulteriormente l'efficienza del trasferimento dati.
Accompagnando la GPU Rubin, la CPU Vera rappresenta una revisione completa della CPU Grace, costruita su un core ARM Olympus su misura con 88 core e 176 thread. Si tratta di un notevole miglioramento rispetto a Grace, che aveva 72 core e 144 thread. La larghezza di banda della memoria di Vera di 1,8 TB/s è 2,4 volte quella di Grace, e la sua capacità di memoria è stata aumentata di 4,2 volte, migliorando significativamente le capacità di elaborazione dati. Vera si collega perfettamente alle GPU Rubin tramite l'interconnessione ad alta velocità NVLink-C2C, con una larghezza di banda di 1,8 TB/s che consente una comunicazione inter-chip efficiente. Le sue prestazioni sono sostanzialmente raddoppiate rispetto a quelle di Grace, rendendola eccezionalmente adatta per l'inferenza AI, la preelaborazione dei dati e le attività multi-threaded. NVIDIA ha ottimizzato il set di istruzioni ARM e la microarchitettura per rendere Vera ottimale per le esigenze backend dei carichi di lavoro di AI.
Dal suo annuncio dell'architettura Rubin a Computex 2024, NVIDIA ha continuato a migliorare la sua roadmap di prodotto. Si prevede che il Rubin R100 entri in produzione in serie nel quarto trimestre del 2025, con i relativi sistemi DGX e HGX che saranno implementati nella prima metà del 2026. Entro la seconda metà del 2026, NVIDIA presenterà la piattaforma Vera Rubin NVL144, che integrerà 144 GPU Rubin e numerose CPU Vera in un rack Oberon raffreddato a liquido che consuma 600 kW di potenza. Questa configurazione offrirà 3,6 exaFLOPS di prestazioni di inferenza FP4 e 1,2 exaFLOPS di prestazioni di addestramento FP8, il che equivale a un miglioramento di 3,3 volte rispetto al Blackwell GB300 NVL72. Entro il 2027, la piattaforma Rubin Ultra NVL576 ospiterà 576 GPU Rubin Ultra, tra cui 16 stack HBM4e e fino a 1 TB di memoria. Questa piattaforma è prevista per fornire 15 exaFLOPS di prestazioni di inferenza FP4 e 5 exaFLOPS di prestazioni di formazione FP8, rappresentando un miglioramento di 14 volte rispetto a GB300. Verrà inoltre incorporata l'interconnessione NVLink 7 e la NIC ConnectX-9 (1.6 Tbps), amplificando collettivamente la scalabilità del sistema.
Per garantire il rapido lancio di Rubin, NVIDIA ha rafforzato le collaborazioni con partner chiave della catena di fornitura come TSMC e SK Hynix. TSMC prevede di aumentare la capacità di packaging CoWoS a 80.000 wafer al mese entro il quarto trimestre del 2025 per soddisfare le richieste di Rubin e il SoC M5 di Apple. SK Hynix ha completato lo sviluppo di HBM4 nell'ottobre 2024, consegnando campioni HBM4 a 12 strati a NVIDIA con una produzione di massa imminente nel 2025. I primi campioni di produzione pilota delle GPU Rubin e delle CPU Vera sono stati completati nel giugno 2025 presso TSMC, con il campionamento della produzione iniziato a settembre e la produzione di massa prevista per l'inizio del 2026.
La crescente domanda di energia all'interno dei data center ha focalizzato l'attenzione sull'efficienza energetica nella progettazione. Il Rubin R100 consuma energia in maniera ottimale grazie al processo a 3 nm e alla memoria HBM4, ottimizzando la gestione termica tramite tecnologia di raffreddamento a liquido e rack ad alta densità. Sebbene la piattaforma Vera Rubin NVL144 possa consumare fino a 600 kW, la sua densità di calcolo e prestazioni offrono un vantaggio notevole per unità di potenza rispetto ai modelli precedenti. Le analisi di mercato prevedono che il mercato globale dei data center AI raggiungerà i 200 miliardi di dollari entro il 2025, con le tecnologie Blackwell e Rubin di NVIDIA che si preparano a dominare. Le principali aziende tecnologiche come Microsoft, Google e Amazon hanno riservato preventivamente i chip Blackwell fino alla fine del 2025, e l'introduzione anticipata di Rubin rafforza ulteriormente la posizione di mercato di NVIDIA.
Guardando al futuro, NVIDIA prevede di svelare l'architettura Feynman nel 2028, perpetuando la sua tradizione di denominare i chip con nomi di scienziati celebri. La riuscita implementazione di Rubin e Vera rafforzerà le applicazioni emergenti come l'inferenza AI, la formazione e l'AI agente, orientando la tecnologia AI verso un quadro più generale. Con le consegne di campione previste per settembre 2025 e le implementazioni di produzione entro il 2026, NVIDIA si posiziona per mantenere la sua leadership nel mercato globale dell'AI, guidando l'evoluzione dei data center e delle applicazioni di intelligenza artificiale.