Soluzione termica di calcolo AI

Nov 16, 2023

Le applicazioni AI accelerano l'evoluzione dei data center verso l'alta densità. Di fronte alla crescita esplosiva dei dati e dell’elaborazione determinata dall’intelligenza artificiale e alla crescente scarsità delle risorse dei data center, soprattutto nelle città di primo livello, solo migliorando la potenza di calcolo, l’archiviazione e le capacità di trasmissione per unità di area della sala computer è possibile massimizzare il valore del data center. L’introduzione di chip AI ad alta capacità di calcolo accelererà il trend evolutivo dell’elevata densità di potenza dei server.

AI thermal cooling SINK

Mentre ChatGPT accende un nuovo ciclo di entusiasmo per le applicazioni di intelligenza artificiale, data center nazionali ed esteri e produttori di cloud business hanno iniziato a promuovere la costruzione di infrastrutture AI e la percentuale di spedizioni di server AI in tutti i server sta gradualmente aumentando. Secondo i dati TrendForce, nel 2022 il volume annuo di spedizioni di server AI dotati di GPGPU rappresentava quasi l'1% di tutti i server. Nel 2023, con il supporto di applicazioni di intelligenza artificiale come ChatGPT, si prevede che il volume di spedizioni di server AI aumenterà dell’8% su base annua. Dal 2022 al 2026, il CAGR del volume delle spedizioni dovrebbe raggiungere il 10,8%. Le GPU vengono utilizzate principalmente per i server AI, principalmente Nvidia H100, A100, A800 (spediti principalmente in Cina), nonché le serie AMD MI250 e MI250X. La proporzione tra NVIDIA e AMD è di circa 8:2.

AI computing thermal sink

L'effetto di una velocità della ventola superiore a 4000 giri/min sulla resistenza termica è limitato. Secondo CNKI, in un sistema raffreddato ad aria, la velocità della ventola aumenta da 1000 giri/min a 4000 giri/min e la convezione domina la dissipazione del calore del chip. Con l'aumento della portata, il coefficiente di scambio termico convettivo aumenta in modo significativo. Il raffreddamento ad aria può migliorare efficacemente i problemi di dissipazione del calore dei chip. Quando la velocità della ventola supera i 4000 giri/min, la diminuzione della resistenza al trasferimento di calore è relativamente lieve e un aumento della velocità può solo migliorare il trasferimento di calore con l'aria, con conseguente diminuzione dell'effetto di dissipazione del calore. Il raffreddamento a liquido a livello di chip è la tendenza di sviluppo futura. In uno spazio server di 2U, 250 W rappresentano circa il limite per il raffreddamento ad aria e la dissipazione del calore; Sopra 4U il raffreddamento ad aria può raggiungere 400-600W; Il TDP dei chip AI generalmente supera i 400 W, utilizzando principalmente 4-8U. La tradizionale dissipazione del calore con raffreddamento ad aria ha raggiunto il suo limite. Il controllo della temperatura del chip è particolarmente importante per un funzionamento stabile e continuo, con una temperatura massima non superiore a 85 gradi. Una temperatura eccessiva può causare danni ai trucioli. Entro 70-80 gradi, ogni aumento di 10 gradi della temperatura di un singolo componente elettronico riduce l'affidabilità del sistema del 50%. Pertanto, nel contesto di una maggiore potenza, il sistema di raffreddamento verrà aggiornato al raffreddamento a liquido a livello di chip.

air cooling heatsink module

Rispetto al raffreddamento ad aria, il raffreddamento a liquido non solo può soddisfare i requisiti di dissipazione del calore degli armadi ad alta densità di potenza, ma anche ottenere un PUE inferiore e una potenza in uscita (GUE) più elevata. Rispetto al tradizionale raffreddamento ad aria, il PUE del raffreddamento a liquido con piastra fredda è generalmente 1,1x, con un GUE superiore al 75%, mentre il PUE del raffreddamento a liquido a immersione può arrivare fino a 1,0x, con un GUE di oltre l'80%. Utilizzando contemporaneamente la tecnologia di raffreddamento a liquido è possibile rimuovere alcune o addirittura tutte le ventole delle apparecchiature IT (di solito il consumo energetico delle ventole viene calcolato anche nel consumo energetico delle apparecchiature server). Per il raffreddamento a liquido immerso, la rimozione della ventola del server può ridurre il consumo energetico del server di circa il 4% -15%.

immersion cooling liquid

L'attuale maturità della tecnologia di raffreddamento a liquido a piastre fredde è relativamente elevata ed è mainstream nel percorso della tecnologia di raffreddamento a liquido. Supponendo che la percentuale attuale sia dell'80%. In futuro, con la maturità della tecnologia di raffreddamento a liquido ad immersione, si prevede che la proporzione complessiva aumenterà gradualmente. Sulla base di calcoli esaustivi, l’addestramento e l’inferenza di grandi modelli di intelligenza artificiale porteranno uno spazio di mercato del raffreddamento a liquido di 4 miliardi di RMB. Con l’aumento dei parametri dei modelli e la promozione dell’uso, il mercato del raffreddamento a liquido registrerà un tasso di crescita annuo composto del 60% nei prossimi quattro anni.

AI liquid cooling

Riteniamo che si prevede che il grande modello dell’intelligenza artificiale guiderà l’aggiornamento della domanda di potenza di calcolo, guiderà la costruzione di centri di calcolo e supercalcolo intelligenti ad alta densità di potenza, accelererà l’introduzione di strutture di supporto come i sistemi di raffreddamento a liquido nel mercato e, in futuro, , con la costruzione di nuovi data center e la trasformazione di quelli esistenti, si prevede che il tasso di penetrazione complessivo aumenterà rapidamente. Allo stato attuale, l’industria del raffreddamento a liquido è ancora nelle sue fasi iniziali di sviluppo ed è ottimista nei confronti dei produttori con un layout leader in termini di tecnologia e capacità produttiva.

Un paio di: Le normative PFAS dell'EPA avranno un impatto significativo sul raffreddamento a liquido

IL prossimo Articolo: Soluzione di raffreddamento a termosifone per Data Center

Conoscenza

Soluzione termica di calcolo AI