A Tesla robotaxik támadása: Második rész – a szoftver

A Tesla önvezetéssel foglalkozó befektetői napjáról szóló beszámolónk első részében az új, saját fejlesztésű számítógépükről volt szó, amely 21× gyorsabb, mint a korábbi Nvidia hardver, miközben energiafelhasználása csak 25%-kal magasabb, költsége pedig 20%-kal kevesebb. Most a hardverről a szoftverre térünk át – nézzük mi is ez a neurális háló (NN) és hogyan használja a Tesla mesterséges intelligenciája.

A gépagy neuronjai

Mielőtt belevágunk az NN guru Andrej Karpathy prezentációjába, nem árt pár alapvető dolgot tisztáznunk az NN, illetve az erre épülő AI (mesterséges intelligencia) kapcsán. A hasonló cikkek kommentjei kapcsán úgy érzem ez az a terület, ami a leginkább zavaros a laikusok számára, ami nem is csoda. Még az informatikusok között is külön szakterület ez, amiről nekem is csak az alapok vannak meg. Reméljük ehhez ez elég lesz.

Amikor a számítógépes programokra gondolunk, alapvetően úgy működik a dolog, hogy a szoftver készítői definiálják a kódban, milyen felhasználói inputra, mit reagáljon az alkalmazás. Magyarul, ha lenyomom a billentyűzeten a „B” gombot, a Word írja ki a képernyőre, hogy „B”. A legtöbb ember így gondol az önvezető autókra és emiatt jogosan merül fel benne, hogy ez az egész csak humbug, hiszen hogyan lehetne minden váratlan, egyedi szituációt előre definiálni, előre beleírni a programba? Nem is lehet.

A neurális háló, illetve az ezt használó AI lényege pont az, hogy megtanítják gondolkodni a gépet. A program kódja több tízezer, százezer vagy millió úgynevezett neuronból áll, amely akárcsak az emberi agy arra van terezve, hogy mintákat ismerjen fel. Gyermekkorunkban mi is hasonlóan tanulunk. A nagyi vagy az anyu megmutatja nekünk a mesekönyvben, hogy néz ki az oroszlán, utána a tévében, meg az állatkertben is elgügyögik nekünk és láss csodát, a következő alkalommal, harsányan felnevet a 2 éves amikor a mesében megjelenik az oroszlyány. Nem adtak a gyereknek Brehm állathatározót a kezébe, sem biológia tankönyvet, hanem az agy felismerte a mintát.

A Tesla által írt NN is hasonlóan működik. Természetesen van egy előre programozott alap rész, pl a KRESZ szabályok, meg hogy ha valami akadályt lát akkor annak ne menjen neki, hanem kerülje ki, vagy álljon meg. De nem azt programozzák le, hogy, ha valaki ilyen és ilyen szögben tart a sáv széle felé és ennyire gyorsít, meg villog az indexe, akkor be fog jönni elénk, hanem több ezer képet, videót jelölnek meg, ahol valaki bevágott az autó elé – az AI pedig felismeri a mintát.  Sőt, most már ez az u.n. címkézés is, amikor a Tesla fejlesztői megjelölik a szituációkat a majd félmilliós önvezető flotta ezer és ezer videóján sokszor teljesen automatizált. A program szó szerint saját magát írja tovább.

Ha ettől valakinek borsódzik a háta és a Terminátor sorozat jut az eszébe, akkor nem jár túl messze az igazságtól. Bár Elon Musk biztosít bennünket, amit ők használnak az egy úgynevezett narrow, azaz szűk, vagy célzott AI. Tehát a Teslánk csak a vezetést tanulja, nem fog fellázadni ellenünk. Mégis, gyakorlatilag arról van szó, hogy a gép először még emberi segítséggel, sokszor viszont teljesen automatikusan, magától tanul és írja meg a saját szoftverét.

Így tanul a Teslád

Andrej Karpathy rendkívül jó előadó. Már az első perc után világos, miért is volt a híres amerikai egyetemen, a Stanfordon a téma oktatója. A szlovák származású szakember 15 éves volt, amikor szüleivel Kanadába emigráltak, de ezt az angolján nem mondanád meg. Dolgozott a Googlenél is és miközben PhD-ján dolgozott ő írta meg a Stanford témába vágó tananyagát, amellyel mára mintegy 700 szakembert képeztek ki. Hála Istennek remek érzéke van hozzá, hogy komplex témákat szemléletesen és érdekesen, közérthetően adjon elő. Most ő vezeti a Tesla AI programját.

Andrej Karpathy

Karpathy azzal kezdi előadását, hogy egy iguána képén szemlélteti, hogyan tanítják a mesterséges intelligenciát. Egy hangszer, egy hajó, egy olló, vagy egy kisállat képe a gépnek mind-mind csak árnyalatok és fényerősség különbségek sokasága, amit számokkal ír le. Mégis fel kell ismernie az iguánát nem csak akkor, ha egy csellótól kell megkülönböztetnie, de akkor is ha más a háttér, mások a fényviszonyok, vagy a több száz alfaj egyikét látja.

Az ember ezt az információt úgy dolgozza fel, hogy az állatról visszaverődő fény a szemünk lencséjén át a fényérzékelő sejtekre jut, amelyek specifikus elektromos ingert váltanak ki – ezt az agyunkban lévő neuronok értelmezik és összevetik a korábbi tapasztalatokkal. Ugyanígy működik ez a gépeknél is, csak kamerákkal, fényérzékeny CCD vagy CMOS félvezetőkkel és a Tesla chipjén futó neurális háló több százezer, millió digitális neuronjával.

A tanulási folyamat elején az eredmény nagyon bizonytalan, hiszen a neuronok között még csak kevés kapcsolat van és ha gyengébb a hardver, akkor eleve neuronból is kevesebb van, mert többet nem tud egyszerre kezelni a gép. A megfelelő számítási teljesítmény és elég példa esetén azonban a gép felismeri a mintát. A Tesla esetében ez azt jelenti, hogy több ezer videón jelölik meg ugyanazt a szituációt az AI számára.

A versenytársak nagyrészt szimulációkkal érik ezt el, mivel csak pár száz, pár ezer autójuk van ráadásul azok is csak földrajzilag jól körülhatárolt helyen. A Tesla előnye, a saját fejlesztésű hardver mellett, amely másodpercenként 144 billió műveletet képes elvégezni, a nagy flottája. Mire ez a negyedév véget ér, kb. félmillió HW 2-vel, vagy fejlettebb rendszerrel felszerelt autójuk lesz a világ útjain és egy év múlva ez a szám duplázódik.

A 8 kamera, 12 ultrahangos szenzor és a radar mind-mind figyel és, ha a sofőr közbeavatkozik, automatikusan küldi az adatokat a Teslának. Ilyenkor a szakemberek elemzik a szituációt és megjelölik, felcímkézik a tárgyakat, helyzeteket a gépnek, majd berántanak a flottából még pár ezer példát ugyanerre. A gép pedig tanul, sőt, van, hogy saját maga címkéz. Ez azért szükséges, mert míg az embernek elég pár példa, hogy pl. felismerjen egy adott kutyafajt, a gépnek több ezer kép kell, mire eljut ugyanide.

Ha csak simán bejelöljük az AI-nak, hogy hol vannak a felfestések, a sávok az autópályán, attól ő még a komplexebb városi környezetben nem fogja felismerni ezeket. Ugyan így meg kell tanítani, hogy ismerje fel ezeket a különböző időjárási és fényviszonyok között. Ebből van amit meg lehet tenni szimulációval – a Tesla is csinál ilyet – de semmi nem ér fel a valós körülmények videóival. Ha például van egy idegen tárgy az úton, akkor az egy nejlonzacskó mit átfúj éppen a szél, vagy egy szétdurrant több kilós gumi az aszfalton, esetleg egy gaz ami kinőtt az aszfaltból?  Nem mindegyiknél kellene satuféket nyomnia.

Ha szimulálni tudok egy helyzetet, akkor le is tudom programozni, hogyan oldja meg a gép. Ez olyan, mintha a diák a saját dolgozatát javítaná ki. A lényeg a kiszámíthatatlan, egyedi szituációk kezelése.

Példaként hozták fel a biciklit szállító autókat. Ezeket korábban az AI külön bicikliként és autóként ismerte fel, de a megfelelő számú példák után már felismeri a mintát. De ugyanígy tanulta meg kezelni az elénk bevágó autóstársakat is. Több ezer képet jelöltek meg az AI-nak, amely először sokszor hibázott, például a bizonytalanul a sávon belül sodródó autósokról is azt hitte, hogy bevágnak majd elénk és befékezett.

Ezek voltak a biciklit szállító autókról kapott példák amiket a flotta adott az AI tanítására.

Több ezer képpel később, most már önállóan címkéz, ismeri fel a helyzetet. Eleinte „árnyék” üzemmódban volt a fejlesztés az autók agyában és minden alkalommal, amikor úgy ítélte meg a gép, hogy valaki be fog vágni és ő kitérne, vagy fékezne, visszaküldte a szituációt a Teslának. A fejlesztők validáltak, korrigáltak, ha kellett, majd frissítették az egész flottát, 3 hónappal ezelőtt pedig élesbe állították az újítást.

Látás és jóslás

A Tesla a fentiekhez makacsul nem használ LiDAR-t. A lézeres képalkotó eljárás tulajdonképpen a kamera és a radar ötvözete, csak lézerekkel – ha ennek így van értelme. Musk és Karpathy szerint azonban ez egy felesleges és drága extra, ami tévútra viszi a fejlesztést. A rendszernek a videós képfelismerésre kell épülnie, ahogy az embereknél is a szemünkre hagyatkozunk.

Az elöl található 2 kamera például az emberi szemhez hasonlóan sztereó képet szolgáltat, amivel elérhető a mélységérzékelés. Ebből a Tesla számítógépe 3D-s videót képez az egész környezetből amiben már tud navigálni és fel tudja ismerni az objektumokat. Ezt csak kiegészíti a radar és az ultrahangos szenzorok, amelyek ráadásul sokkal jobban működnek esőben, hóban, ködben mint a lézeres LiDAR, amelynek sugarait szétszórják a levegőben lévő vízcseppek.

Ezt látja a kamera…
… és ilyen 3D-s utcaképet csinál belőle a Tesla AI.

Véleményük szerint ugyanígy tévút a nagy felbontású, úgynevezett HD térképekre hagyatkozni. A GPS is egy kiegészítő információ, de nem elsődleges forrás. Ha egy rendszer túlzottan erre épül, akkor minden apró változás, eltérés megborítja. A kulcs egyébként is a dolgok értelmezése és a „jóslás”. A rendszer felismerhet egy biciklistát, de az AI fogja megjósolni, a mozgás alapján merre tart, esetleg elénk esik-e? Ha a járdán jön felénk egy gyalogos aki a mobilját nyomogatja, lelép-e az autó elé? Ha van egy beláthatatlan útszakasz, merre kanyarodik az út?

A rendszer a flotta növekedésével, minden beküldött képkockával egyre okosabb lesz, de nem elég, ha a szituációk 99,999%-ában jól dönt. A feladat az úgynevezett long tail, azaz a minél több „kilences” begyűjtése a tizedesvessző mögött.

A közelmúlt és a jövő

Karpathy után volt még egy rövid előadás a témában – színpadra lépett Stuart Bowers a cég egyik fejlesztési alelnöke. Bowers fiatal kora ellenére szintén nem ma kezdte a szakmát, korábban a Facebooknál és a Snapchetnél dolgozott például a hírfolyamok optimalizálásán. Itt is mesterséges intelligencia munkálkodik a háttérben, amely a felhasználók tevékenységeit tanulmányozva igyekszik a nekünk releváns posztokat és híreket elénk rakni.

Stuart Bowers

Bowers a közelmúlt egyik legnagyobb fejlesztésével, a Navigate on Autopilot (NoA) funkcióval kezdte mondandóját. Ez a szolgáltatás eleinte csak javaslatot tett a sofőrnek a sávváltásra, de azt csak akkor hajtotta végre, ha a vezető azt az index lenyomásával jóváhagyta. Mára már önállóan előzi ki a lassabb autókat, sorol be az autópálya bevezetőjén, vagy visz le minket a pályáról.

Mire pár hónap alatt a Teslák 70 millió mérföldet, azaz több mint 110 millió kilométert tettek meg a NoA segítségével, több mint 9 millió sikeres automatikus sávváltást regisztráltak. Ezután érezték elérkezettnek a pillanatot a teljes automatizálásra és kapcsolták be az önálló sávváltást. Az új funkciót országonként kell jóváhagyatni, így példásul Amerikában, Kanadában, vagy Németországban már működik, de Ausztriában vagy Franciaországban még nem. Most napi 100.000 automata sávváltást regisztrálnak és eddig egy balesetről sem tudnak.

Jelenleg azon dolgoznak, hogy a NoA a városokban is boldoguljon, de van egy másik fejlesztésük is, amely a biciklisták jobb felismerését hivatott elérni és még a második negyedévben élesbe megy.

Beszámolónk harmadik, záró része Musk összefoglalóját fogja taglalni, amelyben részleteket osztott meg a saját robotaxi terveikről és elmondta miért tűnnek majd el a kormány és a pedálok a Teslákból.

Ismét egy galéria az előadás releváns részeiből:

This slideshow requires JavaScript.

Nincs időd naponta 8-10 hírt elolvasni? Iratkozz fel a heti hírlevelünkre, és mi minden szombat reggel megküldjük azt a 10-12-t, ami az adott héten a legfontosabb, legérdekesebb volt. Feliratkozás »

Elektromos autót használsz?

Biró Balázs

A fenntartható közlekedés elkötelezett híve, akit elsősorban a Tesla céltudatos és piacot felforgató tevékenysége rántott magával ebbe a világba, így publikációi elsősorban erre a területre koncentrálnak.