2023年自動駕駛芯片發(fā)展趨勢
自動駕駛芯片概況
自動駕駛芯片簡介:車規(guī)級芯片要求更加嚴(yán)苛
芯片按應(yīng)用場景可分為消費芯片、工業(yè)芯片、汽車芯片和軍工芯片等。汽車是芯片應(yīng)用場景之一,汽車芯片需要具備車規(guī)級。車規(guī)級芯片對加工工藝要求不高,但對質(zhì)量要求高。需要經(jīng)過的認(rèn)證過程,包括質(zhì)量管理標(biāo)準(zhǔn)ISO/TS 16949、可靠性標(biāo)準(zhǔn) AEC-Q100、功能安全標(biāo)準(zhǔn)ISO26262等。汽車內(nèi)不同用途的芯片要求也不同,美國制定的汽車電子標(biāo)準(zhǔn)把其分為5級。汽車各系統(tǒng)對芯片要求由高到低依次是:動力安全系統(tǒng) > 車身控制系統(tǒng) > 行駛控制系統(tǒng) > 通信系統(tǒng) > 娛樂系統(tǒng)。
車規(guī)級芯片特殊的技術(shù)和工藝要求擋住了企業(yè)進入的腳步。車規(guī)級芯片有著比消費級芯片更高的技術(shù)門檻,需滿足溫度、振動、電磁干擾、長使用壽命等高要求,還要通過可靠性標(biāo)準(zhǔn)AEC-Q100、 質(zhì)量管理標(biāo)準(zhǔn)ISO/TS16949、功能安全標(biāo)準(zhǔn)ISO26262 等嚴(yán)苛的認(rèn)證流程,大部分芯片企業(yè)尚不具備轉(zhuǎn)型進入能力。目前,車規(guī)級芯片在傳統(tǒng)汽車中的成本約為 2270 元 / 車,在新能源汽車中的成本約為 4540 元 / 車。隨著汽車向電動化和智 能化發(fā)展,芯片的種類、數(shù)量和價格占比將進一步提高。
自動駕駛芯片產(chǎn)品趨勢:一體化
云和邊緣計算的數(shù)據(jù)中心,以及自動駕駛等超級終端領(lǐng)域,都是典型的復(fù)雜計算場景,這類場景的計算平臺都是典型的大算 力芯片。大芯片的發(fā)展趨勢已經(jīng)越來越明顯的從GPU、DSA的分離趨勢走向DPU、超級終端的再融合,未來會進一步融合成超 異構(gòu)計算宏系統(tǒng)芯片。BOSCH給出了汽車電氣架構(gòu)演進示意圖。從模塊級的ECU到集中相關(guān)功能的域控制器,再到完全集中的車載計算機。每個階段還分了兩個子階段,例如完全集中的車載計算機還包括了本地計算和云端協(xié)同兩種方式。
英偉達創(chuàng)始人黃仁勛在2022秋季GTC大會上發(fā)布了新自動駕駛芯片——Thor。Thor的特點:一是超高AI性能,擁有770億晶體管,而上一代的Orin是170億晶體管。AI性能為2000 TFLOPS@FP8。如果是INT8格式,估計可以達到4000TOPS。二是支持FP8格式,英偉達、英特爾和ARM三家聯(lián)合力推FP8格式標(biāo)準(zhǔn),力圖打通訓(xùn)練與推理之間的鴻溝。三是超高CPU性能,Thor的CPU可 能是ARM的服務(wù)器CPU架構(gòu)V2或更先進的波塞冬平臺。四是統(tǒng)一座艙、自動駕駛和自動泊車,一顆芯片包打天下。
英偉達發(fā)布的一體化自動駕駛芯片Altan&Thor的設(shè)計思路是完全的“終局思維”,相比BOSCH給出的一步步的演進還要更近一 層,跨越集中式的車載計算機和云端協(xié)同的車載計算機,直接到云端融合的車載計算機。云端融合的意思是服務(wù)可以動態(tài)的、 自適應(yīng)的運行在云或端,方便云端的資源動態(tài)調(diào)節(jié)。Altan&Thor采用的是跟云端完全一致的計算架構(gòu):Grace-next CPU、 Ampere-next GPU以及Bluefield DPU,硬件上可以做到云端融合。
自動駕駛芯片架構(gòu)分析
主流架構(gòu)方案對比:三種主流架構(gòu)
當(dāng)前主流的AI芯片主要分為三類,GPU、FPGA、ASIC。GPU、FPGA均是前期較為成熟的芯片架構(gòu),屬于通用型芯片。ASIC 屬于為AI特定場景定制的芯片。行業(yè)內(nèi)已經(jīng)確認(rèn)CPU不適用于AI計算,但是在AI應(yīng)用領(lǐng)域也是必不可少。CPU遵循的是馮·諾依曼架構(gòu),其核心是存儲程序/數(shù)據(jù)、串行順序執(zhí)行。因此CPU的架構(gòu)中需要大量的空間去放置存儲單元(Cache)和控制單元(Control),相比之下計算單元(ALU)只占據(jù)了很小的一部分,所以CPU在進行大規(guī)模并行計 算方面受到限制,相對而言更擅長于處理邏輯控制。
GPU(GraphicsProcessing Unit),即圖形處理器,是一種由大量運算單元組成的大規(guī)模并行計算架構(gòu),早先由CPU中分出 來專門用于處理圖像并行計算數(shù)據(jù),專為同時處理多重并行計算任務(wù)而設(shè)計。GPU中也包含基本的計算單元、控制單元 和存儲單元,但GPU的架構(gòu)與CPU有很大不同,其架構(gòu)圖如下所示。與CPU相比,CPU芯片空間的不到20%是ALU,而GPU芯片空間的80%以上是ALU。即GPU擁有更多的ALU用于數(shù)據(jù)并行處理。
CPU 由專為順序串行處理而優(yōu)化的幾個核心組成,而 GPU 則擁有一個由數(shù)以千計的更小、更高效的核心組成的大規(guī)模并 行計算架構(gòu),這些更小的核心專為同時處理多重任務(wù)而設(shè)計。CPU和GPU之所以大不相同,是由于其設(shè)計目標(biāo)的不同,它們分別針對了兩種不同的應(yīng)用場景。CPU需要很強的通用性來 處理各種不同的數(shù)據(jù)類型,同時又要邏輯判斷又會引入大量的分支跳轉(zhuǎn)和中斷的處理。這些都使得CPU的內(nèi)部結(jié)構(gòu)異常復(fù) 雜。而GPU面對的則是類型高度統(tǒng)一的、相互無依賴的大規(guī)模數(shù)據(jù)和不需要被打斷的純凈的計算環(huán)境。
對于深度學(xué)習(xí)來說,目前硬件加速主要靠使用圖形處理單元。相比傳統(tǒng)的 CPU,GPU 的核心計算能力要多出幾個數(shù)量級,也更容易進行并行計算。GPU 的眾核體系結(jié)構(gòu)包含幾千個流處理器,可將運算并行化執(zhí)行,大幅縮短模型的運算時間。隨著 NVIDIA、AMD 等公司不斷推進其 GPU 的大規(guī)模并行架構(gòu)支持,面向通用計算的 GPU已成為加速并行應(yīng)用程序的重要手段。目前 GPU 已經(jīng)發(fā)展到了較為成熟的階段。利用 GPU 來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以充分發(fā)揮其數(shù)以千計計算核心的高效并行計算能力,在使用海量訓(xùn)練數(shù)據(jù)的場景下,所耗費的時間大幅縮短,占用的服務(wù)器也更少。如果針對適當(dāng)?shù)纳疃壬窠?jīng)網(wǎng) 絡(luò)進行合理優(yōu)化,一塊 GPU 卡可相當(dāng)于數(shù)十甚至上百臺 CPU服務(wù)器的計算能力,因此 GPU 已經(jīng)成為業(yè)界在深度學(xué)習(xí)模型 訓(xùn)練方面的首選解決方案。
FPGA方案:FPGA芯片定義及結(jié)構(gòu)
FPGA(Field-Programmable Gate Array),即現(xiàn)場可編程門陣列,它是在PAL、GAL、CPLD等可編程器件的基礎(chǔ)上進一步發(fā) 展的產(chǎn)物。它是作為專用集成電路領(lǐng)域中的一種半定制電路而出現(xiàn)的,既解決了定制電路的不足,又克服了原有可編程 器件門電路數(shù)有限的缺點。FPGA芯片主要由6部分完成,分別為:可編程輸入輸出單元、基本可編程邏輯單元、完整的時鐘管理、嵌入塊式RAM、豐 富的布線資源、內(nèi)嵌的底層功能單元和內(nèi)嵌專用硬件模塊。目前主流的FPGA仍是基于查找表技術(shù)的,已經(jīng)遠遠超出了先 前版本的基本性能,并且整合了常用功能(如RAM、時鐘管理和DSP)的硬核(ASIC型)模塊。
由于FPGA需要被反復(fù)燒寫,它實現(xiàn)組合邏輯的基本結(jié)構(gòu)不可能像ASIC那樣通過固定的與非門來完成,而只能采用一種易于反復(fù)配置的結(jié)構(gòu)。查找表可以很好地滿足這一要求,目前主流FPGA都采用了基于SRAM工藝的查找表結(jié)構(gòu),也有一些軍 品和宇航級FPGA采用Flash或者熔絲與反熔絲工藝的查找表結(jié)構(gòu)。通過燒寫文件改變查找表內(nèi)容的方法來實現(xiàn)對FPGA的重 復(fù)配置。查找表(Look-Up-Table)簡稱為LUT,LUT本質(zhì)上就是一個RAM。目前FPGA中多使用4輸入的LUT,所以每一個LUT可以看成 一個有4位地址線的 的RAM。當(dāng)用戶通過原理圖或HDL語言描述了一個邏輯電路以后,PLD/FPGA開發(fā)軟件會自動計算邏輯 電路的所有可能結(jié)果,并把真值表(即結(jié)果)事先寫入RAM,這樣,每輸入一個信號進行邏輯運算就等于輸入一個地址 進行查表,找出地址對應(yīng)的內(nèi)容,然后輸出即可。
ASIC方案:ASIC定義及特點
ASIC 芯片可根據(jù)終端功能不同分為 TPU 芯片、DPU 芯片和 NPU 芯片等。其中,TPU 為張量處理器,專用于機器學(xué)習(xí)。如 Google 于 2016 年 5 月研發(fā)針對 Tensorflow 平臺的可編程 AI 加速器,其內(nèi)部指令集在 Tensorflow 程序變化或更新算法時 可運行。DPU 即 Data Processing Unit,可為數(shù)據(jù)中心等計算場景提供引擎。NPU 是神經(jīng)網(wǎng)絡(luò)處理器,在電路層模擬人類神 經(jīng)元和突觸,并用深度學(xué)習(xí)指令集直接處理大規(guī)模電子神經(jīng)元和突觸數(shù)據(jù)。ASIC 有全定制和半定制兩種設(shè)計方式。全定制依靠巨大的人力時間成本投入以完全自主的方式完成整個集成電路的設(shè)計 流程,雖然比半定制的 ASIC 更為靈活性能更好,但它的開發(fā)效率與半定制相比甚為低下。
ASIC 芯片非常適合人工智能的應(yīng)用場景。例如英偉達首款專門為深度學(xué)習(xí)從零開始設(shè)計的芯片 Tesla P100 數(shù)據(jù)處理速度 是其 2014 年推出GPU 系列的 12 倍。谷歌為機器學(xué)習(xí)定制的芯片 TPU 將硬件性能提升至相當(dāng)于當(dāng)前芯片按摩爾定律發(fā)展 7 年后的水平。正如 CPU 改變了當(dāng)年龐大的計算機一樣,人工智能 ASIC 芯片也將大幅改變?nèi)缃?AI 硬件設(shè)備的面貌。如大名鼎鼎的 AlphaGo 使用了約 170 個圖形處理器(GPU)和 1200 個中央處理器(CPU),這些設(shè)備需要占用一個機房,還 要配備大功率的空調(diào),以及多名專家進行系統(tǒng)維護。而如果全部使用專用芯片,極大可能只需要一個普通收納盒大小的 空間,且功耗也會大幅降低。
ASIC技術(shù)路線是有限開放,芯片公司需要面向與駕駛相關(guān)的主流網(wǎng)絡(luò)、模型、算子進行開發(fā)。在相同性能下,芯片的面 積更小、成本更低、功耗更低。ASIC技術(shù)路線未來的潛力會很大,選擇ASIC路線并不意味著要對不同車型開發(fā)不同的 ASIC,或進行不同的驗證。因為不同車型需要實現(xiàn)的功能大致相同,而且芯片面對模型和算子進行有限開放,算法快速 迭代不會影響到芯片對上層功能的支持。車廠與芯片設(shè)計公司合作,進行差異化定制,或是更好的選擇。因為即使是進 行差異化的定制,芯片內(nèi)部50%的部分也是通用的。芯片設(shè)計公司可以在原有版本的基礎(chǔ)上進行差異化設(shè)計,實現(xiàn)部分 差異功能。
主流架構(gòu)方案對比:三種主流架構(gòu)
FPGA是在PAL、GAL等可編程器件的基礎(chǔ)上進一步發(fā)展的產(chǎn)物。它是作為專用集成電路領(lǐng)域中的一種半定制電路而出現(xiàn) 的,既解決了定制電路的不足,又克服了原有可編程器件門電路數(shù)有限的缺點。優(yōu)點:可以無限次編程,延時性比較 低,同時擁有流水線并行和數(shù)據(jù)并行、實時性最強、靈活性最高。缺點:開發(fā)難度大、只適合定點運算、價格比較昂 貴。圖形處理器(GPU),又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個人電腦、工作站、游戲機和一些移動設(shè) 備(如平板、手機等)上做圖像和圖形相關(guān)運算工作的微處理器。優(yōu)點:提供了多核并行計算的基礎(chǔ)結(jié)構(gòu),且核心數(shù)非 常多,可以支撐大量數(shù)據(jù)的并行計算,擁有更高的浮點運算能力。缺點:管理控制能力(最弱),功耗(最高)。
ASIC,即專用集成電路,指應(yīng)特定用戶要求和特定電子系統(tǒng)的需要而設(shè)計、制造的集成電路。目前用CPLD(復(fù)雜可編程 邏輯器件)和FPGA(現(xiàn)場可編程邏輯陣列)來進行ASIC設(shè)計是最為流行的方式之一。優(yōu)點:它作為集成電路技術(shù)與特定用 戶的整機或系統(tǒng)技術(shù)緊密結(jié)合的產(chǎn)物,與通用集成電路相比具有體積更小、重量更輕、功耗更低、可靠性提高、性能提 高、保密性增強、成本降低等優(yōu)點。缺點:靈活性不夠,成本比FPGA貴。
唯算力論的局限:TOPS算力不完全等于實際性能
隨著ADAS、自動駕駛技術(shù)的興起,以及軟件定義汽車的逐步深入,智能汽車對于計算能力和海量數(shù)據(jù)處理能力等的需求暴增,傳統(tǒng)汽車的芯片“堆疊”方案已經(jīng)無法滿足自動駕駛的算力需求。芯片最終是為車企的車載計算平臺服務(wù)的,在 “軟件定義汽車”的情況下,解決智能駕駛系統(tǒng)計算平臺的支撐問題,無法只通過芯片算力堆疊來實現(xiàn)。
芯片是軟件的舞臺,衡量芯片優(yōu)劣的標(biāo)準(zhǔn),要看芯片之上的軟件能否最大化地發(fā)揮作用,算力和軟件之間需要有效匹配。兩款相同算力的芯片比較,能讓軟件運行得更高效的芯片才是“好芯片”。決定算力真實值最主要因素是內(nèi)存( SRAM和 DRAM)帶寬,還有實際運行頻率(即供電電壓或溫度),以及算法的batch尺寸。單顆芯片算力TOPS是關(guān)鍵指標(biāo),但并非唯一,自動駕駛是一個復(fù)雜系統(tǒng),需要車路云邊協(xié)同。所以它的較量除了芯還有 軟硬協(xié)同還有平臺以及工具鏈等等。芯片算力的無限膨脹和硬件預(yù)埋不會是未來的趨勢,硬件也需要匹配實際。高算力 背后是高功耗和低利用率的問題。
自動駕駛領(lǐng)域99%的視覺數(shù)據(jù)在AI處理中是無用的背景。例如檢測鬼探頭,變化的區(qū)域是很小一部分,但傳統(tǒng)的視覺處理 仍然要處理99%的沒有出現(xiàn)變化的背景區(qū)域,這不僅浪費了大量的算力,也浪費了時間。亦或者像在沙礫里有顆鉆石,AI 芯片和傳統(tǒng)相機需要識別每一顆沙粒,篩選出鉆石,但人類只需要看一眼就能檢測到鉆石,AI芯片和傳統(tǒng)相機耗費的時 間是人類的100倍或1000倍。除了冗余信息減少和幾乎沒有延遲的優(yōu)點外,事件相機的優(yōu)點還有由于低時延,在拍攝高速物體時,傳統(tǒng)相機由于會有 一段曝光時間會發(fā)生模糊,而事件相機則幾乎不會。此外事件相機擁有真正的高動態(tài)范圍,由于事件相機的特質(zhì),在光 強較強或較弱的環(huán)境下,傳統(tǒng)相機均會“失明”,但像素變化仍然存在,所以事件相機仍能看清眼前的東西。