Mājas Domāt uz priekšu Karstas mikroshēmas: galvenā uzmanība tiek pievērsta mašīnmācībai

Karstas mikroshēmas: galvenā uzmanība tiek pievērsta mašīnmācībai

2024

Video: Работа с Google Maps API / Создание своей карты на JavaScript (Decembris 2024)

Mūsdienās karstākā tēma skaitļošanā ir mašīnmācība, un tā noteikti ir redzama aparatūras pusē. Pēdējo nedēļu laikā mēs esam dzirdējuši daudz par jaunām mikroshēmām, kas paredzētas padziļinātai apmācībai, sākot no Nvidia Tesla P100 un Drive PX 2 līdz Google Tensor apstrādes vienībām un beidzot ar Intel Xeon Phi. Tāpēc nav pārsteidzoši, ka Hot Chips konferencē pagājušajā nedēļā mēs dzirdējām no vairākiem dažādiem uzņēmumiem ar dažām ļoti atšķirīgām pieejām projektēšanai, kas pielāgota mašīnu apguvei un redzes apstrādei.

Iespējams, ka lielākais jaunums bija tas, ka Nvidia atklāja sīkāku informāciju par savu Parker mikroshēmu, kas tika izmantota Drive PX 2 modulī pašpiedziņas automašīnām un kuras mērķis ir padziļināta autonomu mašīnu apgūšana. Šajā mikroshēmā tiek izmantoti divi ar ARM saderīgi Denveras CPU serdeņi, četri ARM Cortex-A57 serdeņi un 256 no Nvidia nosauktajiem Pascal CUDA (grafikas) kodoliem.

Nvidia sacīja, ka šī bija tā pirmā mikroshēma, kas izstrādāta un novērtēta izmantošanai automobiļos, ar īpašām noturības īpašībām, un runāja par tā ātrāku ātrumu un atmiņu, atzīmējot, ka Denveras kodols nodrošina būtisku veiktspējas uzlabošanos uz vienu vatu. Starp jaunajām funkcijām ir ar aparatūru saistīta virtualizācija ar līdz 8 VMS, lai varētu integrēt automašīnas funkcijas, kuras tradicionāli tiek veiktas uz atsevišķiem datoriem. Kopumā uzņēmums teica, ka Drive PX 2 modelim var būt divas no šīm Parker mikroshēmām un divi diskrēti GPU, ar kopējo veiktspēju 8 teraflops (dubultā precizitāte) vai 24 dziļas apmācības operācijas (8 bitu vai pusprecizitāte). uzņēmums iekļāva etalonus, salīdzinot tos ar pašreizējo mobilo apstrādi, izmantojot SpecInt_2000, kas ir salīdzinoši vecs etalons. Bet sniegums patiešām izskatās iespaidīgs, un Volvo nesen teica, ka to izmantos autonomo transportlīdzekļu testēšanai, sākot ar nākamo gadu.

Protams, ir arī daudzas citas pieejas.

Ķīniešu iesācējs DeePhi apsprieda uz FPGA balstītu neironu tīklu platformu ar divām dažādām arhitektūrām atkarībā no iesaistītā tīkla veida. Aristotelis ir paredzēts salīdzinoši maziem konvolūcijas neironu tīkliem un balstās uz Xilinx Zynq 7000, savukārt Descartes ir paredzēts lielākiem atkārtotiem neironu tīkliem, izmantojot ilgtermiņa īstermiņa atmiņu (RNN-LSTM), pamatojoties uz Kintex Ultrascale FPGA. DeePhi apgalvo, ka tā kompilators un arhitektūra saīsina izstrādes laiku, salīdzinot ar lielāko daļu FPGA lietojuma, kā arī to, ka FPGA izmantošana var nodrošināt labāku sniegumu nekā Nvidia piedāvātie Tegra K1 un K40 risinājumi.

Vēl viena pieeja ir izmantot digitālo signālu procesoru vai DSP, kas parasti ļoti ātri veic noteiktu funkciju vai nelielu funkciju kopumu, izmantojot ļoti mazu enerģiju. Bieži vien tie tiek iestrādāti citās sarežģītākās mikroshēmās, lai paātrinātu noteiktas funkcijas, piemēram, redzes apstrādi. Vairāki uzņēmumi, tostarp Movidius, CEVA un Cadence, dalījās ar saviem risinājumiem vietnē Hot Chips.

Movidius parādīja savu uz DSP balstīto risinājumu, kas pazīstams kā Myriad 2 redzes apstrādes bloks, un parādīja to DJI Phantom 4 dronā. Tas arī parādīja, kā Myriad 2 pārspēj GPU un GoogLeNet dziļo neironu tīklu, kas tika izmantots 2014. gada ImageNet konkursā.

CEVA reklamēja savu CEVA-XM4 Vision DSP, kas ir īpaši pielāgots redzes apstrādei un ir paredzēts automobiļu tirgum, kā arī savu CEVA Deep Neural Network 2 platformu, kas, pēc tās teiktā, varētu aizņemt visu, kas uzrakstīts Caffe vai TensorFlow ietvariem, un optimizēt tā darbību savā DSP. Jaunajam procesoram vajadzētu būt SoCs nākamgad.

Tikmēr Cadence, kas padara Tensilica redzes procesoru saimi (ko var iegult citos produktos), apsprieda tās jaunāko versiju - Vision P6, kas ir pievienojusi jaunas iespējas, piemēram, vektora peldošā komata atbalstu un citas konvolucionālo neironu tīklu funkcijas.. Pirmajiem produktiem vajadzētu iznākt drīz.

Microsoft runāja par HoloLens austiņu aparatūras detaļām, sakot, ka tas izmanto 14nm Intel Atom Cherry Trail procesoru, kurā darbojas operētājsistēma Windows 10, un pielāgotu Holographic Processing Unit (HPU 1.0) sensoru centrmezglu, ko TSMC ražo 28nm procesā. Tas ietver 24 Tensilica DSP serdeņus.

Īpaši mani uzņēma viens no Kadence slaidiem, kas parādīja atšķirības GPU, FPGA un dažāda veida DSP caurlaides un efektivitātes atšķirībās, kas saistītas ar multiplikācijas operācijām, kas ir viens no galvenajiem neironu tīklu veidošanas blokiem. Kaut arī tas acīmredzami kalpoja (jo visas pārdevēju prezentācijas ir), tas tomēr uzsvēra, kā dažādās tehnikas atšķiras ātruma un efektivitātes ziņā (veiktspēja uz vatu), nemaz nerunājot par izmaksām un programmēšanas vienkāršību. Šeit ir daudz risinājumu dažādām pieejām, un būs interesanti redzēt, kā tas mainīsies nākamo gadu laikā.