PGEgaHJlZj0iaHR0cHM6Ly9oeXVuZGFpLmh1L21vZGVsbGVrL3VqLWtvbmEtZWxlY3RyaWMvIiBvbmNsaWNrPSJqYXZhc2NyaXB0OndpbmRvdy5vcGVuKCdodHRwczovL2h5dW5kYWkuaHUvbW9kZWxsZWsvdWota29uYS1lbGVjdHJpYy8nLCAnX2JsYW5rJywgJ25vb3BlbmVyJyk7IHJldHVybiBmYWxzZTsiPjxwaWN0dXJlPjxzb3VyY2Ugc3Jjc2V0PSJodHRwczovL3ZpbGxhbnlhdXRvc29rLmh1L3dwLWNvbnRlbnQvdXBsb2Fkcy8yMDI0LzA0L2h5dS1lZ3llYi1vbmxpbmUtZXZ6b2xkYXV0b2phYmFubmVyLTYwMHg1MDBweC5qcGciIG1lZGlhPSIobWF4LXdpZHRoOiA3MDBweCkiPjxzb3VyY2Ugc3Jjc2V0PSJodHRwczovL3ZpbGxhbnlhdXRvc29rLmh1L3dwLWNvbnRlbnQvdXBsb2Fkcy8yMDI0LzA0L2h5dS1lZ3llYi1vbmxpbmUtZXZ6b2xkYXV0b2phYmFubmVyLTE5NDB4NTAwcHguanBnIiBtZWRpYT0iKG1pbi13aWR0aDogNzAwcHgpIj48aW1nIHNyYz0iaHR0cHM6Ly92aWxsYW55YXV0b3Nvay5odS93cC1jb250ZW50L3VwbG9hZHMvMjAyNC8wNC9oeXUtZWd5ZWItb25saW5lLWV2em9sZGF1dG9qYWJhbm5lci0xOTQweDUwMHB4LmpwZyIgYWx0PSIiPjwvcGljdHVyZT48L2E+
auto
2024. 04. 24. szerda

Dojo – brutális teljesítményű chipet fejlesztett a Tesla

elektromos autó

Amikor 2019 tavaszán a Tesla bemutatta az FSD számítógép, azaz a Autopilotot és az önvezetést vezérlő egység új, harmadik verzióját, a legnagyobb felhördülést nem is a gép számítási teljesítménye keltette, hanem az, hogy a Mesterséges Intelligencia (MI) chipet a cég saját maga fejlesztette. Egy mikroprocesszor kifejlesztése messze nem triviális feladat, nem is nagyon próbálkozik meg vele senki pár jól ismert nagy piaci szereplő kivételével. Az x86-os vonalon igazából két vállalat, az AMD és az Intel uralja a piacot, az ARM rendszereknél pedig bár papíron több szereplő van, szinte mind egy referencia dizájnból indulnak ki, azt reszelgetik tovább. Hiába nagy cég a számítástechnikában a Dell, vagy a HP, egyik sem gyárt saját processzort, vagy grafikus kártyát, hanem vásárolja azt az Inteltől, az AMD-től és az Nvidiától.

A Tesla lépését akkor az indokolta, hogy úgy érezték az önvezetéshez nem volt igazán megfelelő számítástechnikai megoldás a piacon. A legtöbb ilyen rendszer egy meglévő grafikus processzort (GPU) használ – így a Tesla által korábban alkalmazott Nvidia lapka is -, ami nagyon hasonló ahhoz, ami az MI-hez, illetve az azt alkotó neurális hálókhoz (NN) kell, de mégsem teljesen tökéletes a feladatra, ami jórészt nagy mennyiségű mátrixszámításokból áll. Ezért fejlesztettek egy saját megoldást, amit kifejezetten az önvezető rendszereik igényeinek megfelelően terveztek, a gyártást pedig a Samsungra bízták. (A chipek gyártása ha lehet még a tervezésnél is komplexebb és nagyobb szaktudást igényel, itt aztán tényleg nincs sok szereplő a piacon).

Most, a Dojo projekt kapcsán is hasonló okokról van szó.

De mi is ez a Dojo?

A szó eredetileg a japán küzdősportoktól ered és nagyjából egy olyan termet, szobát jelent, ahol tanulni, meditálni lehet. Itt képzik az új jelentkezőket. A kifejezés ma az agilis szoftverfejlesztési metódus kapcsán különösen divatos lett, hiszen ez a munkaszervezési iskola is dojonak hívja a tréningtermeit.

Innen már sejthetjük, hogy a Tesla miért ezt a nevet választotta új szuperszámítógépének, ami az önvezetés mesterséges intelligenciáját fogja tanítani, képezni. A cég jelenleg két szervercsoportot üzemeltet erre a célra, ebben közel 10 ezer GPU és 20 petabájt háttértár teljesít szolgálatot, és a második ebből olyan erős, hogy a Cleantechnica elemzése szerint a világ 5. legnagyobb teljesítményű szuperszámítógépe. Azonban ez a nyers erő nem mindig realizálható, ha nem speciálisan erre a feladatra tervezték az eszközt. A Tesla jelenlegi szerverparkja az Nvidia A100 Ampere megoldásait használja, amely rendkívül fejlettnek számít, de alapvetően mégiscsak a világ legnagyobb GPU gyártójáról van szó, amelyik a legújabb grafikus magja köré épített egy rendszert.

A D1 chip, a Tesla Dojo lelke ezzel szemben egy kifejezetten a cég saját igényeire szabott megoldás, SoC, azaz egy olyan lapka, ami több különböző funkciójú áramkört integrál egy fedél alatt – de erre majd még visszatérünk, mert ez legalább olyan izgalmas, mint maga a chip.

D1

A Dojo rendszer lelke a D1 chip, amelyet a Tesla teljesen házon belül tervezett, és 7 nm-es technológiával kerül gyártásba. (Arra tippelnénk, hogy a Samsungnál, vagy a TSMC-nél).

Amikor CPU-k, GPU-k, és úgy általában számítógépek teljesítményéről beszélünk, akkor röpködnek a gigaflop (GFLOP) és teraflop (TFLOP) számok, amelyek mezei földi halandónak nem mondanak sokat, azon túl, hogy a magasabb érték jobb, a tera meg több mint a giga. Az ördög azonban a részletekben rejlik, hiszen a felhasználási területtől függően nem mindegy milyen számítási műveletnél mérjük ezt az értéket. Ismét csak a Cleantechnica remek, 4 részes cikksorozatára utalnék vissza, ami ennél az írásnál sokkal mélyebben belemegy az új architektúrába, és amelynek következtetései ennek a cikknek a készítését is segítették. Szerintük például a Dojo a jelenlegi formájában, 68,75 PFLOP FP32 teljesítményével a 6. legerősebb szuperszámítógép lesz a világon, ami érdekes módon a Tesla által jelenleg használt Nvidia alapú gép mögött van. Azonban ez a nyers erő a 32 bites lebegőpontos számítási teljesítményre értendő, miközben a Tesla MI rendszeréhez a cég által BF16/CFP8 névre keresztelt adata a releváns. Hogy ez miben más, az most talán lényegtelen is, ami ebből a szempontból fontos, hogy a Tesla a saját MI tréning rendszeréhez készített processzort, ezen a felhasználási területen pedig gyorsabb lesz minden jelenleg kapható rendszernél.

A D1 chip maga ún. tréning csomópontokból épül fel. Ezek mindegyike 1024 GFLOP teljesítményre képes a Teslának releváns BF16/CFP8 számítási módszerben és 512 GB/s sebességgel tud kommunikálni minden irányba. Egy-egy ilyen csomópontban 4 darab többszálas üzemmódra képes skalár processzor üzemel, és 1,25 MB SRAM van még a fedélzeten. Ez a gyakorlatban azt jelenti, hogy a Dojoban nincs a mai számítógépekben megszokott hagyományos értelemben vett RAM, azaz memória, hanem D1 chipenként 428,4 MB L2 cache áll rendelkezésre közvetlenül az SoC-ba integrálva. Egy D1 chip 354 darab ilyen csomópontból áll, teljesítménye pedig 362 TFLOP (ami 362.496 GFLOP) BF16/CFP8-ban.

A 7 nm-es technológiával készülő chip 645 négyzetmilliméter nagyságú, 50 milliárd tranzisztor van rajta, és több mint 18 kilométernyi vezetéket integráltak bele. Összehasonlításképp az Nvidia leggyorsabb otthoni grafikus vezérlője, az RTX 3090 8nm-rel készül és 628 négyzetmilliméteres, tehát hasonló nagyságú és gyártástechnológiai fejlettségű, de „csak” 28 milliárd tranzisztor van rajta. A D1 maximális hőleadása 400 W (az említett Nvidia chipé 350 W). Az RTX egyébként az FP32-es teljesítményversenyt megnyerné, mivel ebben másfélszer olyan gyors, mint a D1, de a Tesla területén ez az adat kevésbé lényeges, ráadásul az ő chipjük nem csak egy grafikus mag, hanem annál jóval több. Egy egészen brutális SoC.

SoC szörnyeteg

Az SoC, azaz system-on-chip egy olyan lapkát jelent, amely több, tradicionálisan külön megtalálható áramkört integrál egy fedél alá. Nem arról van szó tehát, hogy egy általános CPU van a grafikától kezdve a hálózati vezérlésen át mindennel megterhelve – bele is szakadna -, továbbra is megvannak a dedikált áramkörök, de ezek nem egy alaplapon hevernek szanaszét, hanem a processzor mellett, ugyanazon a szilícium darabon foglalnak helyet. A megoldást a mobil eszközök tették népszerűvé, mivel így kisebb helyen elfér minden, ráadásul a közvetlen, nagy sávszélességű kapcsolat a teljesítménynek is jót tesz. A Tesla szempontjából azért volt logikus a nagyfokú integráció, mivel így a rendszer minden komponensét az igényeikhez igazíthatták.

A Dojo architektúrájában eddig példátlan mértékben fűzték össze a tradicionálisan különálló hardver elemeket.

Egy ún. tréning-csempe 25 darab D1 chipből áll, 5×5-ös elrendezésben, amelyek ugyanazon a szilícium ostyán találhatóak. Egy hagyományos számítógépes rendszer nagyjából úgy néz ki, hogy a 200-300 mm átmérőjű magas minőségű, és drága szilícium ostyára litográfiai eljárásossal fényképeznek/nyomtatnak processzorokat, vagy mondjuk grafikus magokat, esetleg egész SoC-okat, majd ezeket kivágják. A többprocesszoros számítógépben a többmagos CPU-k az alaplapon külön foglalatokban ülnek, és az alaplapra integrált rézszálakon keresztül kommunikálnak a többi eszközzel, illetve processzorral. Ha már látott valaki alaplapot, vagy csak simán egy nyomtatott áramkört, akkor ezek a huzalok néznek úgy ki, mint egy Burda szabásminta. Ehhez képest a Tesla azt csinálta, hogy egy ilyen szilícium ostyára 25 darab D1 chipet nyomtatott, de ezeket nem vágja ki, rajta hagyta és e köré építette fel az egész rendszert. Tulajdonképpen a szilícium ostya lett a 25 processzoros rendszer alaplapja, közvetlenül ezen keresztül kommunikálnak egymással a chipek. A Cleantechnica szúrta ezt ki, és ha igaz, akkor egészen elképesztően pimasz húzás ez, ami hihetetlen teljesítményt tesz lehetővé. Ezzel a megoldással elméleti szinten akár 500.000 számítási csomópontot, azaz 1500 D1 chipet is össze lehetne fűzni.

A 25 D1 chipből álló egység 4 oldalára nagyteljesítményű hálózatai kommunikációs eszközöket telepítettek, amelyek minden irányban 9 TB/s sebességgel képesek kommunikálni (összesen 36 TB/s), ami nagyságrendekkel gyorsabb, mint a kereskedelmi forgalomban lévő PCI-e szabvány, és kétszer olyan gyors mint a mai leggyorsabb hálózati chipek. Ezért ezekhez a Tesla egyedi csatlakozókat tervezett, amelyekből 40 darabot raktak a 25-ös csempe köré, azaz csatlakozónként 900 GB/s sebességgel képesek kommunikálni –  de a protokoll továbbra is a standard PCI-e. És ez még nem is a legdöbbenetesebb.

Egy normál számítógépben a CPU, illetve a GPU mellett az áramköri lapon találunk különböző az áramellátást biztosító eszközöket, amelyeket VRM-nek hívunk. A Dojoban azonban nincs külön alaplap, így a VRM-eket közvetlenül a D1 chipek szilíciumija fölé integrálták, így az áramellátás is direktben megy, nincsen NYÁK, meg rézszál, 18000 Amper kerül leszállításra a chipekhez.

Ehhez persze megfelelő hőleadás is kell, ezért a tréning-csempe másik oldalán, közvetlenül a D1 chipekre integrálták a folyadékhűtést, amely 15 kW hőmennyiség elvezetésére lett tervezve.

Egy szekrényben, két tálcán, 2×3 ilyen tréning-csempe kerül elhelyezésre – a 12 csempéből, azaz 300 D1 chipből álló szekrény teljesítménye 100+ PFLOP másodpercenként, a Dojo első verziója pedig 10 ilyen szekrényből fog állni és 1,1 exaflop (1018) teljesítményre lesz képes. A rendszer helyigénye ötöde a ma használt tréning szervereikének, a teljesítmény négyszeres lesz, és azonos költség mellett 1,3× több teljesítményt tudnak kisajtolni minden elhasznált watt áramból.

Az első csempe prototípus már működik, 2 GHz-en üzemel, de eközben már tervezik a D2-es chipet, a következő generációt, ami tízszeres teljesítménynövekedést ígér.

Az AI DAY további érdekességeiről itt írtunk még:

A szintetikus állat – itt tart a Tesla önvezetése

Jön a Tesla Bot, a villanyautós cég humanoid robotja

Biró Balázs

A fenntartható közlekedés elkötelezett híve, akit elsősorban a Tesla céltudatos és piacot felforgató tevékenysége rántott magával ebbe a világba, így publikációi elsősorban erre a területre koncentrálnak.