A szintetikus állat - itt tart a Tesla önvezetése

Legutóbb 2019. áprilisában számolt be a Tesla az önvezetéshez kapcsolatos fejlesztéseiről – a prezentáció akkor talán kicsit közérthetőbb volt, most azonban a célközönség egyértelműen a területen dolgozó, vagy tanuló szakemberek voltak, hiszen a rendezvény fő célja a toborzás volt. Magyarul nem nagyon foglalkoztak azzal, hogy akár az egyszeri mezei érdeklődő, akár a Wall Street ebből mennyit ért meg. Mindenesetre mi most megpróbálkozunk az elhangzottak közérthető csomagolásával, ami kétség kívül elnagyolt és felületes lesz egy szakembernek – nekik azt javaslom, nézzék meg az eredeti videót a további részletekért.

A Tesla az AI Day, azaz a Mesterséges Intelligencia Nap (MI Nap) alkalmával 3 olyan területet emelt ki, amelyeken jelentős előrelépést értek el az elmúlt időszakban, és amelyek további kihívásaihoz új kollégákat várnak, toboroznak. Nézzük meg ezeket sorjában.

A szintetikus állat és a neurális háló

A cég szakemberei azzal kezdték a prezentációt, hogy az autóikra úgy tekintenek, mint egy mesterséges, ha úgy tetszik szintetikus állatra. Ennek ők építik a testét (az autó váza), az idegrendszerét (szenzorok, vezetékek, elektronika), és az agyát is (FSD számítógép). Az elsőről most ezen a prezentáción értelem szerűen nem volt szó, és a második kapcsán is leginkább annyit árultak el, hogy a jelfeldolgozás kapcsán van visszacsatolás – akár még a kamerák tervezéséhez is. A fő fogás most az agy, pontosabban a vason futó neurális háló volt.

Korábban a Teslák számítógépe kép szinten dolgozta fel az információkat. Ez azt jelentette, hogy a 8 kamera képeit egyenként, 1280×960-as 36Hz-es HDR képként értelmezte a szoftver. Nem az egész képet teljes részletességben egyszerre emésztette meg az FSD számítógép, hanem voltak bizonyos mesterséges neuronok, amelyek egy áttekintő, elnagyolt részletességű képet láttak a kamera által rögzítettekből, míg mások az apró részletekért voltak felelősek.

A fejlesztés közben felmerült problémák kapcsán két példát említettek, amely bemutatja, miért tervezték át a korábbi megoldásokat.

Ezt látta az FSD szoftver korábbi verziója.

Az első a Smart Summon kapcsán merült fel. Ez az a szolgáltatás, amikor az autó a parkolóból kiállva elénk jön, felvesz minket, ami egyelőre nem több , mint egy – lassú, és- látványos parti trükk, de ha jobban belegondolunk a teljes önvezetéshez elégedhetetlen. A korábbi megoldásnál azonban az autó csak nagyon lassan és bizonytalanul haladt, mivel az útpadka vonalát, távolságát, csak nehezen tudta meghatározni. Bár a feladat látszólag egyszerűnek tűnik, ha jobban belegondolunk, pixel szinten az íves betonszegély egyes pontjairól nehéz megállapítani, hol is helyezkednek az egész formán belül, ráadásul, ha valami takarja az egyik, vagy másik részletet, az autó nem biztos benne mi van ott.

Alul balra az látszik mennyire volt biztos, vagy inkább bizonytalan az MI a korábbi verzióban, jobbra pedig, hogy mennyire magabiztosan húzza meg a vonalakat a mostani kiadásban.

A másik problémás terület a több kamerát átívelő tárgyak felismerése volt. Ha a mellettünk lévő sávban egy kamion megy el, akkor a hosszú jármű egészét egy idő után egyetlen kamera sem látja, így az MI csak egy-egy részlet alapján próbálja megsaccolni, mit is lát, és elég nehéz rájönnie, hogy a 8 videóból 5-ön feltűnő tárgy egy és ugyanaz.

5 kamera is látja kamion egy részletét – ebből kellene rájönnie az MI-nek, hogy ez egy és ugyanazon jármű.

A megoldás ezekre a problémákra az lett, hogy a 8 külön videojelet egy egységes képként kezelve egy virtuális térbe vetítve, vektorokra bontva dolgozzák fel. Létrehoztak egy idő, illetve egy tér alapú várósort is, amelyek felett önrendelkezési jogot adtak az MI-nek, így ő dönti el felülír-e valamit. A gyakorlatban ez azt jelenti, hogy ha például a kereszteződésben várakozva autók kanyarodnak át előttünk, és ezzel blokkolják a kép egy részét, akkor az MI úgy dönt, hogy az áthaladó autó nyomán nem írja fölül az előző képrészletet, hiszen az útpadka még mindig ott van ahol eddig, csak egy pár tized másodpercig nem látszik. A mellettünk elhaladó kamion pedig nem 5 külön tárgy 5 külön kamerában, hanem ugyanaz a jármű amit először a hátsó, majd az egyik oldalsó, utána pedig a 3 első kamera látott.

A zöld vonal a radar által mért távolság és sebesség, a narancssárga pedig a régi jelfeldolgozás által becsült adat a kamerák segítségével. Ehhez képest az új logika mentán már a kamera is közel azonos pontosságot ér el – kék vonal.

Ez a megközelítés tette lehetővé azt is, hogy a radar kivezetésénél elérjék ugyanazt a pontosságot a tárgyak távolságának és sebességének meghatározásában pusztán a videojelek segítségével, amit a fenti grafikon jól szemléltet is.

Jövőbe látás

Amikor az önvezetésről gondolkodunk, az egyik legnagyobb kérdőjel az lehet, hogy miként fogja a gép kiváltani az emberi intuíciót. Honnan fogja tudni, hogy a kocsma elöl induló biciklissel még a szokásosnál is óvatosabbnak kell lennünk, vagy hogy a mögöttünk hárommal villogó és nyomuló autós úgy érzi neki Budapest és Bécs között 160-as bérlete van a belső sávra, és mindenki ott száradjon meg a 100-zal menetelő kamionsor mögött ahol van, ki ne merjen előzni.

Nos, a válasz a rendkívül nagy számú lehetséges szituációk lemodellezése a másodperc törtrésze alatt.

A Tesla MI csapatának tervezésért felelős szakembere elmondta, hogy az ő területe igazán a városi vezetésnél bizonyult nehéznek. Az autópályán ugyan nagy a sebesség, de viszonylag behatárolt, jól szabályozott környezetről van szó. Ezzel szemben a városban sokkal kiszámíthatatlanabbul vezetnek az emberek, és eleve több a változó. Az autóik jelenleg 15-20 másodpercet terveznek meg előre, mégpedig úgy, hogy először egy durva modellt alkotnak, majd a szimuláció tovább finomodik.

2500 lehetséges megoldást elemez 15 ms alatt a rendszer.

Jó példa erre az az egyszerűnek tűnő eset, amikor át kell sorolnunk a balra kanyarodó sávba. Mi a helyes megközelítés? Gyorsítsunk fel, és a kocsisor előtt váltsunk sávot kétszer? Vagy inkább maradjunk le, és soroljunk be mögöttük? Előbbinél lehet ez nem sikerül időben és elszalasztjuk a balos fordulót. Utóbbinál pedig lehet, hogy durva fékezés kellene. A megoldás az, hogy az autó 15 milliszekundum alatt 2500 lehetséges megoldást elemez végig, hogy kiválassza az optimális utat.

Ki enged el kit a szűk utcában?

De a valóságban a kihívás még ennél is nagyobb. Ezt az elemzést ugyanis nem csak magunkra, hanem a közlekedés többi szereplőjére is el kell végeznünk. Az ehhez megmutatott példa ismerős lehet mindenkinek, aki autózott már olyan szűk utcában, ahol éppen csak meglenne a két sáv, de az autósok az utca mindkét oldalán parkolnak, így nekünk és a szembe forgalomnak is kerülgetniük kell őket. A példa videón a Tesla MI észreveszi, hogy jön szembe egy másik autó, de úgy ítéli meg, hogy ő lassít, megáll a parkoló kocsi mögött és elenged minket. Azonban ekkor előtűnik egy második autó is mögötte, aki nagyobb sebességgel jön és a gép már úgy számol, nekünk kell elengedni őt. Ám ekkor a második autós hirtelen lassít és lehúzódik, ezért az FSD számítógép újraszámol és rájön, hogy tovább mehetnünk, mindkét autós előzékeny volt velünk szemben.

Ez mind szép és jó, gondolhatnánk, de mi van ennél jóval komplexebb szituációkban? Ekkor a Tesla szakembere, aki maga is indiai származású, elővett egy indiai körforgalomról készült videót, ahol gyakorlatilag minden ismert szabályt ki lehet dobni az ablakon. Ezen a ponton hangosan felnevettem, mert két indiai úttal a hátam mögött a legnagyobb kételyem pont az volt, hogy miként fogja majd az önvezetés ezt a szituációt kezelni? Nos úgy néz ki egy ügyes algoritmussal, az ún. Monte Carlo keresési metódussal. Ezt egy az indiainál látszólag jóval egyszerűbb, de állítólag hasonlóan komplex példával mutatták be, mégpedig egy parkolóban botorkáló autó útkeresésével. Ha csak nyers erőt alkalmaznának, közel 400.000 potenciális opciót kellene végigelemeznie az MI-nek, de ezt sikerült mindössze 288 opcióra szűkíteniük, ami már kezelhető mennyiség.

Automata címkézés

A fenti két terület közös pontja, hogy a számítások az autó fedélzeti, FSD számítógépében mennek végbe. Ez az eszköz, ami HW3 néven is ismert, a Tesla saját fejlesztése, 2019 tavasza óta van gyártásban a Samsung austini chipgyárában, és a cég szerint elég lesz ahhoz, hogy 300-400× jobb sofőr legyen a gép, mint az ember. Emellett persze folyik a HW4 fejlesztése, ami ezt a számot az ezerszeresig szeretné majd feltornászni, és valamikor jövőre érkezik a Cybertruckkal.

De nem csak az autóban kell nagy számítási teljesítmény, a Tesla központjában is elkél a lóerő – a Dojo névre keresztelt, új szuperszámítógépről külön írásban számolunk majd be. Most nézzük inkább mi is folyik a jelenlegi 3 külön rendszeren amit a cég használ. Két, összesen közel 10.000 GPU-val és 20 petabájt, azaz 20 millió gigabájt háttértárral felszerelt rendszer az MI tréningjéért, okosításáért felel, egy kisebb, 1700 GPU-t és 5 petabájt háttértárat felvonultató szerverpark pedig a címkézést végzi.

De mi is ez a címkézés, és miért ennyire fontos?

A címkézés alatt azt értjük, amikor egy a képeken látható tárgyat meghatározunk, kategóriába sorolunk, megtanítunk az MI-nek. Ez korábban teljesen manuálisan ment és a munkát egy külsős cég végezte a Teslának. Ez persze rendkívül költséges, és lassú módszer volt, ráadásul tele volt hibákkal. Az önvezetés eléréséhez több száz millió paramétert kell több millió felvételen megadni, ez pedig emberi erővel szinte képtelenség.

Régen 2D-s térben jelölték meg mi a bója, lámpa, másik jármű

A Tesla jelenleg egy hibrid rendszert alkalmaz, ahol egy ezer fős házon belüli csapat, az FSD csapat mérnökeivel közösen dolgozik ezen, munkájukat pedig a korábban beharangozott automata címkézőrendszer segíti. Korábban 2D képeken folyt a munka, de most már 4D-ben, azaz egy háromdimenziós térben, adott időegységen keresztül történik ez, mozgóképek segítségével. A féleautomata rendszer százszoros gyorsulást eredményezett, de még ennél is tovább akarnak menni.

4D címkézés.

A címkézés, és az automatizációjuk fontosságára a közelmúltból hoztak példát, mégpedig a radar kivezetését. Mint anno mi is megírtuk, az Amerikában, a helyi piacra gyártott Model 3 és Y már egy pár hete nem kap radart, a rendszer csak a kamerákra hagyatkozik. Ennek elérése hatalmas feladat volt: a rendszer egy hét alatt 10 ezer videoklippet címkézett fel – ez korábban, manuálisan több hónapig tartott volna. Összesen mintegy 2,5 millió képkockán 10 milliárd címkét helyeztek el, mire ki merték kapcsolni a radart.

A munka része volt az is, hogy több mint 200 nehéz látási viszonyt okozó szcenáriót is kielemeztek, például azt is, amikor az esőben egy a vizet felverő kamion halad el mellettünk, de a kamerának így is látnia kell, hol vannak a tárgyak, járművek az úton.

Korábban egy ilyen esetben a kamerák képe lapján nem tudta mindig az MI, hogy mi van a vízfüggöny mögött. Most viszont a korábbi képkockákról emlékszik rá, hogy nézett ki az a jármű és így már hiába blokkolja a képet a felvert csapadék.

A címkézést tovább segíti a cég szimulációs munkája is. A valós körülmények között készült videók mellett mintegy 2000 mérföld közutat építettek meg virtuálisan, és könyvtáraikból több ezer tárgyat, járművet, gyalogost tudnak előhívni egy képzeletbeli szituáció felépítéséhez. Ilyenkor általában egy valós videót kreálnak újra a virtuális térben, majd itt változtatnak az időjáráson, forgalmon, tükröződéseken, árnyékokon.

Balra a valós videófelvétel, középen az automata címkézés, jobbra a digitálisan újraépített valóság.

Erre például akkor lehet szükség, amikor a valóságban nehezen beszerezhető felvételeket akarnak megvizsgálni, mint például ha egy gyalogos kocog az autópályán, vagy tömegen kell keresztülhajtania az autónak. Összesen 370 millió szimulált képen, 480 millió tárgy felcímkézésével tanították eddig az MI-t.

A teljes utca képet felhasználják.

Biró Balázs

A fenntartható közlekedés elkötelezett híve, akit elsősorban a Tesla céltudatos és piacot felforgató tevékenysége rántott magával ebbe a világba, így publikációi elsősorban erre a területre koncentrálnak.