PGEgaHJlZj0iaHR0cHM6Ly9oeXVuZGFpLmh1L21vZGVsbGVrLz91dG1fc291cmNlPXZpbGxhbnlhdXRvc29rX2tvbmEtaW9uaXE1JnV0bV9tZWRpdW09dmlsbGFueWF1dG9zb2tfa29uYS1pb25pcTUmdXRtX2NhbXBhaWduPXZpbGxhbnlhdXRvc29rX2tvbmEtaW9uaXE1JnV0bV9pZD12aWxsYW55YXV0b3Nva19rb25hLWlvbmlxNSZ1dG1fdGVybT12aWxsYW55YXV0b3Nva19rb25hLWlvbmlxNSZ1dG1fY29udGVudD12aWxsYW55YXV0b3Nva19rb25hLWlvbmlxNSNlbGVrdHJvbW9zIiBvbmNsaWNrPSJqYXZhc2NyaXB0OndpbmRvdy5vcGVuKCdodHRwczovL2h5dW5kYWkuaHUvbW9kZWxsZWsvP3V0bV9zb3VyY2U9dmlsbGFueWF1dG9zb2tfa29uYS1pb25pcTUmdXRtX21lZGl1bT12aWxsYW55YXV0b3Nva19rb25hLWlvbmlxNSZ1dG1fY2FtcGFpZ249dmlsbGFueWF1dG9zb2tfa29uYS1pb25pcTUmdXRtX2lkPXZpbGxhbnlhdXRvc29rX2tvbmEtaW9uaXE1JnV0bV90ZXJtPXZpbGxhbnlhdXRvc29rX2tvbmEtaW9uaXE1JnV0bV9jb250ZW50PXZpbGxhbnlhdXRvc29rX2tvbmEtaW9uaXE1I2VsZWt0cm9tb3MnLCAnX2JsYW5rJywgJ25vb3BlbmVyJyk7IHJldHVybiBmYWxzZTsiPjxwaWN0dXJlPjxzb3VyY2Ugc3Jjc2V0PSJodHRwczovL3ZpbGxhbnlhdXRvc29rLmh1L3dwLWNvbnRlbnQvdXBsb2Fkcy8yMDI2LzAxL2h5dS1lZ3llYi1vbmxpbmUtdmlsbGFueWF1dG9zb2stYmFubmVyLWlvbmlxNWtvbmEtNjAweDUwMC12NC5qcGciIG1lZGlhPSIobWF4LXdpZHRoOiA3MDBweCkiPjxzb3VyY2Ugc3Jjc2V0PSJodHRwczovL3ZpbGxhbnlhdXRvc29rLmh1L3dwLWNvbnRlbnQvdXBsb2Fkcy8yMDI2LzAxL2h5dS1lZ3llYi1vbmxpbmUtdmlsbGFueWF1dG9zb2stYmFubmVyLWlvbmlxNWtvbmEtMTk0MHg1MDAtdjQuanBnIiBtZWRpYT0iKG1pbi13aWR0aDogNzAwcHgpIj48aW1nIHNyYz0iaHR0cHM6Ly92aWxsYW55YXV0b3Nvay5odS93cC1jb250ZW50L3VwbG9hZHMvMjAyNi8wMS9oeXUtZWd5ZWItb25saW5lLXZpbGxhbnlhdXRvc29rLWJhbm5lci1pb25pcTVrb25hLTE5NDB4NTAwLXY0LmpwZyIgYWx0PSIiPjwvcGljdHVyZT48L2E+

auto

Dojo – brutális teljesítményű chipet fejlesztett a Tesla

elektromos autó

2021. 08. 25 - Biró Balázs - 0

#fsd #önvezetés #Tesla #Tesla AI Day

PGEgaHJlZj0iaHR0cHM6Ly9rb25maWd1cmF0b3IuY3VwcmFvZmZpY2lhbC5odS9jYy1odS9odV9IVV9DVVBSQTI0L1MvYXV2LzQwMj92YXJpYW50PUVuZHVyYW5jZT91dG1fc291cmNlPWxvY2FsLWRpc3BsYXkmdXRtX21lZGl1bT12aWxsYW55YXV0b3NvayZ1dG1fY2FtcGFpZ249Q3VwcmEtUmF2YWwtTWF5LTIwMjYmdXRtX2NvbnRlbnQ9YmFubmVyLWRlc2t0b3AmdXRtX3Rlcm09YnJhbmQtYXdhcmVuZXNzIiBvbmNsaWNrPSJqYXZhc2NyaXB0OndpbmRvdy5vcGVuKCdodHRwczovL2tvbmZpZ3VyYXRvci5jdXByYW9mZmljaWFsLmh1L2NjLWh1L2h1X0hVX0NVUFJBMjQvUy9hdXYvNDAyP3ZhcmlhbnQ9RW5kdXJhbmNlP3V0bV9zb3VyY2U9bG9jYWwtZGlzcGxheSZ1dG1fbWVkaXVtPXZpbGxhbnlhdXRvc29rJnV0bV9jYW1wYWlnbj1DdXByYS1SYXZhbC1NYXktMjAyNiZ1dG1fY29udGVudD1iYW5uZXItZGVza3RvcCZ1dG1fdGVybT1icmFuZC1hd2FyZW5lc3MnLCAnX2JsYW5rJywgJ25vb3BlbmVyJyk7IHJldHVybiBmYWxzZTsiPjxwaWN0dXJlPjxzb3VyY2Ugc3Jjc2V0PSJodHRwczovL3ZpbGxhbnlhdXRvc29rLmh1L3dwLWNvbnRlbnQvdXBsb2Fkcy8yMDI2LzA2L2N1cHJhLXJhdmFsLWJhbm5lci1tb2JpbGUtNjAweDUwMC0xMC5qcGciIG1lZGlhPSIobWF4LXdpZHRoOiA3MDBweCkiPjxzb3VyY2Ugc3Jjc2V0PSJodHRwczovL3ZpbGxhbnlhdXRvc29rLmh1L3dwLWNvbnRlbnQvdXBsb2Fkcy8yMDI2LzA2L2N1cHJhLXJhdmFsLWJhbm5lci0xMzAweDYwMC0zMC5qcGciIG1lZGlhPSIobWluLXdpZHRoOiA3MDBweCkiPjxpbWcgc3JjPSJodHRwczovL3ZpbGxhbnlhdXRvc29rLmh1L3dwLWNvbnRlbnQvdXBsb2Fkcy8yMDI2LzA2L2N1cHJhLXJhdmFsLWJhbm5lci0xMzAweDYwMC0zMC5qcGciIGFsdD0iIj48L3BpY3R1cmU+PC9hPg==

Amikor 2019 tavaszán a Tesla bemutatta az FSD számítógép, azaz a Autopilotot és az önvezetést vezérlő egység új, harmadik verzióját, a legnagyobb felhördülést nem is a gép számítási teljesítménye keltette, hanem az, hogy a Mesterséges Intelligencia (MI) chipet a cég saját maga fejlesztette. Egy mikroprocesszor kifejlesztése messze nem triviális feladat, nem is nagyon próbálkozik meg vele senki pár jól ismert nagy piaci szereplő kivételével. Az x86-os vonalon igazából két vállalat, az AMD és az Intel uralja a piacot, az ARM rendszereknél pedig bár papíron több szereplő van, szinte mind egy referencia dizájnból indulnak ki, azt reszelgetik tovább. Hiába nagy cég a számítástechnikában a Dell, vagy a HP, egyik sem gyárt saját processzort, vagy grafikus kártyát, hanem vásárolja azt az Inteltől, az AMD-től és az Nvidiától.

A Tesla lépését akkor az indokolta, hogy úgy érezték az önvezetéshez nem volt igazán megfelelő számítástechnikai megoldás a piacon. A legtöbb ilyen rendszer egy meglévő grafikus processzort (GPU) használ – így a Tesla által korábban alkalmazott Nvidia lapka is -, ami nagyon hasonló ahhoz, ami az MI-hez, illetve az azt alkotó neurális hálókhoz (NN) kell, de mégsem teljesen tökéletes a feladatra, ami jórészt nagy mennyiségű mátrixszámításokból áll. Ezért fejlesztettek egy saját megoldást, amit kifejezetten az önvezető rendszereik igényeinek megfelelően terveztek, a gyártást pedig a Samsungra bízták. (A chipek gyártása ha lehet még a tervezésnél is komplexebb és nagyobb szaktudást igényel, itt aztán tényleg nincs sok szereplő a piacon).

Most, a Dojo projekt kapcsán is hasonló okokról van szó.

De mi is ez a Dojo?

A szó eredetileg a japán küzdősportoktól ered és nagyjából egy olyan termet, szobát jelent, ahol tanulni, meditálni lehet. Itt képzik az új jelentkezőket. A kifejezés ma az agilis szoftverfejlesztési metódus kapcsán különösen divatos lett, hiszen ez a munkaszervezési iskola is dojonak hívja a tréningtermeit.

Innen már sejthetjük, hogy a Tesla miért ezt a nevet választotta új szuperszámítógépének, ami az önvezetés mesterséges intelligenciáját fogja tanítani, képezni. A cég jelenleg két szervercsoportot üzemeltet erre a célra, ebben közel 10 ezer GPU és 20 petabájt háttértár teljesít szolgálatot, és a második ebből olyan erős, hogy a Cleantechnica elemzése szerint a világ 5. legnagyobb teljesítményű szuperszámítógépe. Azonban ez a nyers erő nem mindig realizálható, ha nem speciálisan erre a feladatra tervezték az eszközt. A Tesla jelenlegi szerverparkja az Nvidia A100 Ampere megoldásait használja, amely rendkívül fejlettnek számít, de alapvetően mégiscsak a világ legnagyobb GPU gyártójáról van szó, amelyik a legújabb grafikus magja köré épített egy rendszert.

A D1 chip, a Tesla Dojo lelke ezzel szemben egy kifejezetten a cég saját igényeire szabott megoldás, SoC, azaz egy olyan lapka, ami több különböző funkciójú áramkört integrál egy fedél alatt – de erre majd még visszatérünk, mert ez legalább olyan izgalmas, mint maga a chip.

D1

A Dojo rendszer lelke a D1 chip, amelyet a Tesla teljesen házon belül tervezett, és 7 nm-es technológiával kerül gyártásba. (Arra tippelnénk, hogy a Samsungnál, vagy a TSMC-nél).

Amikor CPU-k, GPU-k, és úgy általában számítógépek teljesítményéről beszélünk, akkor röpködnek a gigaflop (GFLOP) és teraflop (TFLOP) számok, amelyek mezei földi halandónak nem mondanak sokat, azon túl, hogy a magasabb érték jobb, a tera meg több mint a giga. Az ördög azonban a részletekben rejlik, hiszen a felhasználási területtől függően nem mindegy milyen számítási műveletnél mérjük ezt az értéket. Ismét csak a Cleantechnica remek, 4 részes cikksorozatára utalnék vissza, ami ennél az írásnál sokkal mélyebben belemegy az új architektúrába, és amelynek következtetései ennek a cikknek a készítését is segítették. Szerintük például a Dojo a jelenlegi formájában, 68,75 PFLOP FP32 teljesítményével a 6. legerősebb szuperszámítógép lesz a világon, ami érdekes módon a Tesla által jelenleg használt Nvidia alapú gép mögött van. Azonban ez a nyers erő a 32 bites lebegőpontos számítási teljesítményre értendő, miközben a Tesla MI rendszeréhez a cég által BF16/CFP8 névre keresztelt adata a releváns. Hogy ez miben más, az most talán lényegtelen is, ami ebből a szempontból fontos, hogy a Tesla a saját MI tréning rendszeréhez készített processzort, ezen a felhasználási területen pedig gyorsabb lesz minden jelenleg kapható rendszernél.

A D1 chip maga ún. tréning csomópontokból épül fel. Ezek mindegyike 1024 GFLOP teljesítményre képes a Teslának releváns BF16/CFP8 számítási módszerben és 512 GB/s sebességgel tud kommunikálni minden irányba. Egy-egy ilyen csomópontban 4 darab többszálas üzemmódra képes skalár processzor üzemel, és 1,25 MB SRAM van még a fedélzeten. Ez a gyakorlatban azt jelenti, hogy a Dojoban nincs a mai számítógépekben megszokott hagyományos értelemben vett RAM, azaz memória, hanem D1 chipenként 428,4 MB L2 cache áll rendelkezésre közvetlenül az SoC-ba integrálva. Egy D1 chip 354 darab ilyen csomópontból áll, teljesítménye pedig 362 TFLOP (ami 362.496 GFLOP) BF16/CFP8-ban.

A 7 nm-es technológiával készülő chip 645 négyzetmilliméter nagyságú, 50 milliárd tranzisztor van rajta, és több mint 18 kilométernyi vezetéket integráltak bele. Összehasonlításképp az Nvidia leggyorsabb otthoni grafikus vezérlője, az RTX 3090 8nm-rel készül és 628 négyzetmilliméteres, tehát hasonló nagyságú és gyártástechnológiai fejlettségű, de „csak” 28 milliárd tranzisztor van rajta. A D1 maximális hőleadása 400 W (az említett Nvidia chipé 350 W). Az RTX egyébként az FP32-es teljesítményversenyt megnyerné, mivel ebben másfélszer olyan gyors, mint a D1, de a Tesla területén ez az adat kevésbé lényeges, ráadásul az ő chipjük nem csak egy grafikus mag, hanem annál jóval több. Egy egészen brutális SoC.

SoC szörnyeteg

Az SoC, azaz system-on-chip egy olyan lapkát jelent, amely több, tradicionálisan külön megtalálható áramkört integrál egy fedél alá. Nem arról van szó tehát, hogy egy általános CPU van a grafikától kezdve a hálózati vezérlésen át mindennel megterhelve – bele is szakadna -, továbbra is megvannak a dedikált áramkörök, de ezek nem egy alaplapon hevernek szanaszét, hanem a processzor mellett, ugyanazon a szilícium darabon foglalnak helyet. A megoldást a mobil eszközök tették népszerűvé, mivel így kisebb helyen elfér minden, ráadásul a közvetlen, nagy sávszélességű kapcsolat a teljesítménynek is jót tesz. A Tesla szempontjából azért volt logikus a nagyfokú integráció, mivel így a rendszer minden komponensét az igényeikhez igazíthatták.

A Dojo architektúrájában eddig példátlan mértékben fűzték össze a tradicionálisan különálló hardver elemeket.

Egy ún. tréning-csempe 25 darab D1 chipből áll, 5×5-ös elrendezésben, amelyek ugyanazon a szilícium ostyán találhatóak. Egy hagyományos számítógépes rendszer nagyjából úgy néz ki, hogy a 200-300 mm átmérőjű magas minőségű, és drága szilícium ostyára litográfiai eljárásossal fényképeznek/nyomtatnak processzorokat, vagy mondjuk grafikus magokat, esetleg egész SoC-okat, majd ezeket kivágják. A többprocesszoros számítógépben a többmagos CPU-k az alaplapon külön foglalatokban ülnek, és az alaplapra integrált rézszálakon keresztül kommunikálnak a többi eszközzel, illetve processzorral. Ha már látott valaki alaplapot, vagy csak simán egy nyomtatott áramkört, akkor ezek a huzalok néznek úgy ki, mint egy Burda szabásminta. Ehhez képest a Tesla azt csinálta, hogy egy ilyen szilícium ostyára 25 darab D1 chipet nyomtatott, de ezeket nem vágja ki, rajta hagyta és e köré építette fel az egész rendszert. Tulajdonképpen a szilícium ostya lett a 25 processzoros rendszer alaplapja, közvetlenül ezen keresztül kommunikálnak egymással a chipek. A Cleantechnica szúrta ezt ki, és ha igaz, akkor egészen elképesztően pimasz húzás ez, ami hihetetlen teljesítményt tesz lehetővé. Ezzel a megoldással elméleti szinten akár 500.000 számítási csomópontot, azaz 1500 D1 chipet is össze lehetne fűzni.

A 25 D1 chipből álló egység 4 oldalára nagyteljesítményű hálózatai kommunikációs eszközöket telepítettek, amelyek minden irányban 9 TB/s sebességgel képesek kommunikálni (összesen 36 TB/s), ami nagyságrendekkel gyorsabb, mint a kereskedelmi forgalomban lévő PCI-e szabvány, és kétszer olyan gyors mint a mai leggyorsabb hálózati chipek. Ezért ezekhez a Tesla egyedi csatlakozókat tervezett, amelyekből 40 darabot raktak a 25-ös csempe köré, azaz csatlakozónként 900 GB/s sebességgel képesek kommunikálni – de a protokoll továbbra is a standard PCI-e. És ez még nem is a legdöbbenetesebb.

Egy normál számítógépben a CPU, illetve a GPU mellett az áramköri lapon találunk különböző az áramellátást biztosító eszközöket, amelyeket VRM-nek hívunk. A Dojoban azonban nincs külön alaplap, így a VRM-eket közvetlenül a D1 chipek szilíciumija fölé integrálták, így az áramellátás is direktben megy, nincsen NYÁK, meg rézszál, 18000 Amper kerül leszállításra a chipekhez.

Ehhez persze megfelelő hőleadás is kell, ezért a tréning-csempe másik oldalán, közvetlenül a D1 chipekre integrálták a folyadékhűtést, amely 15 kW hőmennyiség elvezetésére lett tervezve.

Egy szekrényben, két tálcán, 2×3 ilyen tréning-csempe kerül elhelyezésre – a 12 csempéből, azaz 300 D1 chipből álló szekrény teljesítménye 100+ PFLOP másodpercenként, a Dojo első verziója pedig 10 ilyen szekrényből fog állni és 1,1 exaflop (10¹⁸) teljesítményre lesz képes. A rendszer helyigénye ötöde a ma használt tréning szervereikének, a teljesítmény négyszeres lesz, és azonos költség mellett 1,3× több teljesítményt tudnak kisajtolni minden elhasznált watt áramból.

Az első csempe prototípus már működik, 2 GHz-en üzemel, de eközben már tervezik a D2-es chipet, a következő generációt, ami tízszeres teljesítménynövekedést ígér.

Az AI DAY további érdekességeiről itt írtunk még:

A szintetikus állat – itt tart a Tesla önvezetése

Jön a Tesla Bot, a villanyautós cég humanoid robotja

Ha új Teslát vásárolsz, most 1000 km-re elegendő ingyenes Supercharger töltést kaphatsz. Ehhez használhatod Tibor ajánlói kódját is.

PGEgaHJlZj0iaHR0cHM6Ly93d3cudm9sdGllLmV1Lz91dG1fc291cmNlPXZpbGxhbnlhdXRvc29rJnV0bV9tZWRpdW09ZWxla3Ryb21vc2F1dG8mdXRtX2NhbXBhaWduPXJvdmF0IiBvbmNsaWNrPSJqYXZhc2NyaXB0OndpbmRvdy5vcGVuKCdodHRwczovL3d3dy52b2x0aWUuZXUvP3V0bV9zb3VyY2U9dmlsbGFueWF1dG9zb2smdXRtX21lZGl1bT1lbGVrdHJvbW9zYXV0byZ1dG1fY2FtcGFpZ249cm92YXQnLCAnX2JsYW5rJywgJ25vb3BlbmVyJyk7IHJldHVybiBmYWxzZTsiPjxwaWN0dXJlPjxzb3VyY2Ugc3Jjc2V0PSJodHRwczovL3ZpbGxhbnlhdXRvc29rLmh1L3dwLWNvbnRlbnQvdXBsb2Fkcy8yMDI1LzAyL3ZvbHRpZS1zemFiYWRzYWctMTMwMHg2MC1iYW5uZXItMjAyNi0wNS0xNC0xLnBuZyIgbWVkaWE9IihtaW4td2lkdGg6IDcwMHB4KSI+PGltZyBzcmM9Imh0dHBzOi8vdmlsbGFueWF1dG9zb2suaHUvd3AtY29udGVudC91cGxvYWRzLzIwMjUvMDIvdm9sdGllLXN6YWJhZHNhZy0xMzAweDYwLWJhbm5lci0yMDI2LTA1LTE0LTEucG5nIiBhbHQ9IiI+PC9waWN0dXJlPjwvYT4=

Biró Balázs

A fenntartható közlekedés elkötelezett híve, akit elsősorban a Tesla céltudatos és piacot felforgató tevékenysége rántott magával ebbe a világba, így publikációi elsősorban erre a területre koncentrálnak.