La rivoluzione del raffreddamento a liquido di Nvidia per i server AI

Mar 12, 2024

Il consumo energetico dei chip AI all'avanguardia è in costante aumento, il che è diventato un catalizzatore per il passaggio della prossima generazione di server AI DGX al raffreddamento a liquido. L'attuale TDP (thermal design power) della GPU H100 di punta di Nvidia è di 700 W, che ha superato il limite del tradizionale raffreddamento ad aria. Si prevede che Nvidia lancerà la GPU B100 con architettura Blackwell con un TDP di circa 1000 W entro la fine dell'anno, e in quel momento sarà sicuramente necessario il raffreddamento a liquido.

Nvidia liquid cooling

Per i sistemi informatici ad alte prestazioni, il raffreddamento a liquido presenta diversi vantaggi chiave rispetto al raffreddamento ad aria:
L'eccellente efficienza di trasferimento del calore consente il raffreddamento completo dei componenti con TDP più elevato
A causa della ridotta domanda di ventilatori ad alta velocità, il funzionamento è più silenzioso
Il design del sistema è più denso e i dissipatori di calore e le ventole ingombranti occupano meno spazio
Potenziale per catturare e riutilizzare il calore di scarto negli scambiatori di calore liquido-liquido

GPU liquid cooling

Utilizzando il raffreddamento a liquido, Nvidia può continuare a superare i limiti prestazionali degli acceleratori AI senza essere limitata dal sistema di raffreddamento. Poiché la complessità del carico di addestramento dell’intelligenza artificiale continua ad aumentare e il corrispondente consumo energetico dell’hardware, questo è fondamentale. Il server DGX AI di Nvidia racchiude più GPU in un sistema ottimizzato per i carichi di lavoro AI, che è stato rapidamente adottato dalle aziende su larga scala. I principali fornitori di servizi cloud come Google Cloud, Meta e Microsoft hanno implementato sistemi DGX nei loro data center. Negli ultimi anni, mentre sempre più organizzazioni cercano di sfruttare il potere di trasformazione dell’intelligenza artificiale, l’adozione dei sistemi di intelligenza artificiale Nvidia DGX è cresciuta in modo esponenziale.

GPU LIQUID COOLING

Il sistema Nvidia DGX può utilizzare progetti avanzati di raffreddamento ad immersione che utilizzano fluidi dielettrici. Il raffreddamento diretto dei chip pompa i fluidi dielettrici direttamente sui chip GPU e altri componenti termici, senza la necessità di piastre fredde, ottenendo un trasferimento di calore più diretto. Può supportare livelli TDP molto elevati (500 W+) su un singolo chip, ottenendo sistemi più densi.

Direct chip immersion cooling

Poiché l’intelligenza artificiale continua a svilupparsi a una velocità sorprendente, l’infrastruttura hardware supportata deve evolversi in modo sincrono. Il raffreddamento a liquido è una tecnologia abilitante fondamentale che consentirà agli acceleratori di raggiungere livelli di prestazioni senza precedenti. Questa trasformazione non è priva di sfide. Poiché i data center richiedono la trasformazione dell'infrastruttura di raffreddamento a liquido e lo sviluppo di nuovi programmi di manutenzione, i vantaggi in termini di efficienza energetica, densità e prestazioni sono significativi e non possono essere ignorati.

Un paio di: Tecnologia di raffreddamento a piastre fredde impilate CPU/GPU

IL prossimo Articolo: Dissipatore di calore 3D-VC, la tendenza del raffreddamento nell'era dei big data AI

Conoscenza

La rivoluzione del raffreddamento a liquido di Nvidia per i server AI