NVIDIA-ini takozvani "Hot Chips" su zapravo "vruće platforme"

Sep 03, 2024

Ostavi poruku

NVIDIA se fokusira na inženjerske projekte na nivou sistema i data centra koji imaju za cilj stvaranje naprednih sistema i platformi sposobnih da se nose sa složenim generativnim izazovima veštačke inteligencije.

Ranije ovog mjeseca, NVIDIA je naišla na rijetke loše vijesti kada su se pojavili izvještaji da bi dugo očekivani "Blackwell" GPU akceleratori kompanije mogli biti odloženi čak tri mjeseca zbog nedostataka u dizajnu. Međutim, portparol NVIDIA-e je izjavio da se sve odvija po planu. Neki dobavljači su naveli da se ništa nije promijenilo, dok su drugi primijetili neka normalna kašnjenja.

Insajderi iz industrije očekuju da će, kada NVIDIA sljedeće srijede objavi svoje finansijske rezultate za Q2 FY2025, korisnici dobiti više uvida u status Blackwella.

Izvještava se da će Blackwell chips-B100, B200 i GB200-biti vrhunac ovogodišnje konferencije Hot Chips, koja će se održati sljedeće sedmice na Univerzitetu Stanford u Kaliforniji. NVIDIA će predstaviti svoju arhitekturu, sa detaljima o nekim novim inovacijama, navodeći upotrebu AI u dizajnu čipova i raspravljajući o istraživanju tečnog hlađenja u centrima podataka koji se koriste za pokretanje ovih rastućih AI radnih opterećenja. Prema rečima NVIDIA-inog direktora za ubrzane računarske proizvode, Davea Salvatora, kompanija će takođe predstaviti Blackwell čipove koji već rade u jednom od njenih data centara.

Blackwell chips

▲ Blackwell čipovi

Mnogo toga o čemu NVIDIA raspravlja o Blackwellu već je poznato, kao što je Blackwell Ultra GPU koji će biti lansiran sljedeće godine, a nova generacija Rubin GPU-a i Vera CPU-a koji počinju da se pojavljuju 2026. Međutim, Salvator je naglasio da kada govori o Blackwellu, ključno je posmatrati ga kao platformu, a ne kao jedan čip. Salvator je to rekao na brifingu za novinare i analitičare ove sedmice u sklopu priprema za Hot Chips.

"Kada razmišljate o NVIDIA-i i platformama koje gradimo, GPU, umrežavanje, pa čak i naš CPU su samo početak", rekao je. „Radimo inženjering na nivou sistema i na nivou podatkovnog centra kako bismo izgradili ove sisteme i platforme koje zaista mogu izaći i uhvatiti se u koštac s tim zaista teškim generativnim izazovima AI. Vidjeli smo kako skala modela raste tokom vremena, a većina generativnih AI aplikacija Potrebno je raditi u realnom vremenu, s tim da su zahtjevi za zaključivanjem dramatično porasli u posljednjih nekoliko godina. Zaključivanje velikog jezičkog modela u realnom vremenu zahtijeva više GPU-a, a u bliskoj budućnosti će zahtijevati više serverskih čvorova.

ANNOUNCING NVIDIA BLACKWELLPLATFORM FOR TRILLION-PARAMETER SCALE GENERATIE AI

Ovo ne uključuje samo Blackwell GPU i Grace CPU, već i NVLink Switch čipove, Bluefield-3 DPU, ConnextX-7 i ConnectX{2}} NIC-ove, Spectrum-4 Ethernet prekidače i Quantum -3 InfiniBand prekidači. Salvator je takođe pružio različite uvide za NVLink Switch (ispod), compute, Spectrum-X800 i Quantum-X800.

NVIDIA je predstavila dugo očekivanu Blackwell arhitekturu na svojoj GTC 2024 konferenciji u martu ove godine, sa hiperscale dobavljačima i OEM-ima koji su se brzo prijavili. Kompanija cilja na generativnu umjetnu inteligenciju koja se brzo širi, gdje modeli velikih jezika (LLM) postaju još masovniji. Meta's Llama 3.1, lansiran u junu, svedoči o ovom trendu, sa modelom sa 4,05 triliona parametara. Salvator je napomenuo da kako LLM rastu sve veći, potražnja za zaključivanjem u realnom vremenu i dalje postoji, što zahtijeva više računanja i manje kašnjenja, što zahtijeva pristup platformi.

„Kao i kod većine drugih LLM-ova, očekuje se da će usluge koje pokreće ovaj model raditi u realnom vremenu. Da biste to postigli, potrebno vam je više GPU-ova. Izazov je kako postići ogromnu ravnotežu između visokih performansi GPU-a, visoke iskorištenosti GPU-a i pružanja dobrog korisničkog iskustva za krajnje korisnike koji koriste ove usluge vođene umjetnom inteligencijom", rekao je.

Potreba za brzinom

Uz Blackwell, NVIDIA je udvostručila propusni opseg svakog prekidača, povećavši ga sa 900 GB/s na 1,8 TB/s. Tehnologija kompanije Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) donosi više računarstva u sisteme koji se zapravo nalaze unutar prekidača. Omogućava nam da rasteretimo neke zadatke sa GPU-a kako bismo ubrzali performanse, a također pomaže uglađivanju mrežnog prometa preko NVLink tkanine. Ovo su inovacije koje nastavljamo da pokrećemo na nivou platforme.

Multi-node GB200 NVL72 je kućište hlađeno tekućinom koje povezuje 72 Blackwell GPU-a i 36 Grace CPU-a u dizajnu rack-skale. NVIDIA tvrdi da pruža veće performanse zaključivanja za LLM-ove sa trilion parametara kao što je GPT-MoE-1.8T, efektivno funkcionišući kao jedan GPU. Njegove performanse su 30 puta veće od HGX H100 sistema, a brzina treninga je četiri puta veća od H100.

NVIDIA je također dodala izvornu podršku za FP4, koristeći Quasar Quantization System kompanije, koji pruža istu preciznost kao FP16, a smanjuje korištenje propusnog opsega za 75%. Quasar Quantization System je softver koji koristi Blackwellov Transformer Engine kako bi se osigurala tačnost. Salvator je to demonstrirao upoređujući generativne AI slike stvorene pomoću FP4 i FP16, sa malo ili nimalo vidljive razlike između njih.

Koristeći FP4, modeli mogu koristiti manje memorije i raditi čak i bolje od FP8 u Hopper GPU-u.

Sistemi za hlađenje tečnosti

Što se tiče tekućeg hlađenja, NVIDIA će uvesti direktnu metodu tople vode od čipa do čipa, koja može smanjiti potrošnju energije centra podataka za 28%.

Salvator je rekao: "Ono što je interesantno u vezi s ovom metodom su neke od njenih prednosti, koje uključuju povećanu efikasnost hlađenja, niže operativne troškove, produženi vijek trajanja servera i potencijal prenamjene uhvaćene topline u druge svrhe. Definitivno pomaže u poboljšanju efikasnosti hlađenja. Jedna od Načini na koje se to postiže, kao što sugerira ime, je da ovaj sistem zapravo ne koristi hladnjake ne morate koristiti rashladne uređaje, što nam štedi energiju i smanjuje operativne troškove."

Druga tema je kako NVIDIA koristi AI da dizajnira svoje AI čipove koristeći Verilog, jezik opisa hardvera koji se koristi četrdeset godina za opisivanje kola u kodu. NVIDIA unapređuje ovaj napor kroz autonomni Verilog agent pod nazivom VerilogCoder.

AI chips

Rekao je: "Naši istraživači su razvili veliki jezički model koji može ubrzati stvaranje Verilog koda koji opisuje naše sisteme. Koristit ćemo ga u budućim generacijama proizvoda da pomognemo u izgradnji ovih kodova. Može učiniti mnogo stvari. Može pomoći ubrzati proces dizajna i verifikacije može ubrzati ručne operacije dizajna i u osnovi automatizirati mnoge zadatke."