當(dāng)前位置：首頁(yè) > 汽車 >

毫末智行MANA五大模型升級(jí)，助力智能駕駛產(chǎn)品快速迭代

2023-01-07 19:12:42 來(lái)源: 作者: 【大中小】瀏覽:3568次評(píng)論:0條

新年伊始，毫末智行為中國(guó)自動(dòng)駕駛行業(yè)帶來(lái)了一場(chǎng)精彩的技術(shù)盛宴——第七屆HAOMO AI DAY。本屆HAOMO AI DAY上，毫末還宣布了中國(guó)自動(dòng)駕駛行業(yè)最大智算中心“雪湖·綠洲”（MANA OASIS）成立的重磅消息。在MANA OASIS的加持下，毫末MANA五大模型迎來(lái)全新亮相升級(jí)。

首先，視頻自監(jiān)督大模型，讓毫末4D Clip標(biāo)注實(shí)現(xiàn)100%自動(dòng)化，人工標(biāo)注成本降低98%。為了更低成本、更高效獲取更多高價(jià)值數(shù)據(jù)，需要解決從離散幀自動(dòng)化擴(kuò)充到Clips形態(tài)的問(wèn)題。毫末首先利用海量videoClip，通過(guò)視頻自監(jiān)督方式，預(yù)訓(xùn)練出一個(gè)大模型，用少量人工標(biāo)注好的Clip數(shù)據(jù)進(jìn)行Finetune（微調(diào)），訓(xùn)練檢測(cè)跟蹤模型，使得模型具備自動(dòng)標(biāo)注的能力；然后，將已經(jīng)標(biāo)注好的千萬(wàn)級(jí)單幀數(shù)據(jù)所對(duì)應(yīng)的原始視頻提取出來(lái)組織成Clip，其中10%是標(biāo)注幀，90%是未標(biāo)注幀，再將這些Clip輸入到模型，完成對(duì)90%未標(biāo)注幀的自動(dòng)標(biāo)注，進(jìn)而實(shí)現(xiàn)所有單幀標(biāo)注向Clip標(biāo)注的100%的自動(dòng)轉(zhuǎn)化，同時(shí)降低98%的Clip標(biāo)注成本。毫末視頻自監(jiān)督大模型的泛化性效果極佳，即使是在一些非常困難的場(chǎng)景，例如嚴(yán)重遮擋的騎行者，遠(yuǎn)處的小目標(biāo)，惡劣的天氣和光照，都能準(zhǔn)確地完成自動(dòng)標(biāo)注。

其次，3D重建大模型，讓毫末實(shí)現(xiàn)了數(shù)據(jù)“無(wú)中生有”，獲得海量corner case（長(zhǎng)尾場(chǎng)景）不再是難事。面對(duì)“完全從真實(shí)數(shù)據(jù)中積累的corner case困難且昂貴”的行業(yè)難題，毫末將爆火的三維重建NeRF技術(shù)應(yīng)用在自動(dòng)駕駛場(chǎng)景重建和數(shù)據(jù)生成中，它通過(guò)改變視角、光照、紋理材質(zhì)的方法，生成高真實(shí)感數(shù)據(jù)，實(shí)現(xiàn)以低成本獲取normal case，生成各種高成本corner case。3D重建大模型生成的數(shù)據(jù)，不僅比傳統(tǒng)的人工顯式建模再渲染紋理的方法效果更好、成本更低，增加NeRF生成的數(shù)據(jù)后，還可將感知的錯(cuò)誤率降低30%以上。

第三，多模態(tài)互監(jiān)督大模型，能夠精準(zhǔn)識(shí)別異形障礙物，讓車輛“火眼金睛”。在成功實(shí)現(xiàn)車道線和常見障礙物的精準(zhǔn)檢測(cè)后，針對(duì)城市多種異形障礙物的穩(wěn)定檢測(cè)問(wèn)題，毫末正在思考和探索更加通用的解決方案。多模態(tài)互監(jiān)督大模型引入了激光雷達(dá)作為視覺監(jiān)督信號(hào)，直接使用視頻數(shù)據(jù)來(lái)推理場(chǎng)景的通用結(jié)構(gòu)表達(dá)。通用結(jié)構(gòu)的檢測(cè)，可以很好地補(bǔ)充已有的語(yǔ)義障礙物檢測(cè)，有效提升自動(dòng)駕駛系統(tǒng)在城市復(fù)雜工況下的通過(guò)率。

第四，動(dòng)態(tài)環(huán)境大模型，可以精準(zhǔn)預(yù)測(cè)道路的拓?fù)潢P(guān)系，讓車輛始終行駛在正確的車道中。在重感知技術(shù)路線下，毫末為了將對(duì)高精地圖的依賴度降到最低，面臨著“道路拓?fù)浣Y(jié)構(gòu)實(shí)時(shí)推斷”的挑戰(zhàn)。為此，毫末在BEV（鳥瞰圖）的feature map（特征圖）基礎(chǔ)上，以標(biāo)精地圖作為引導(dǎo)信息，使用自回歸編解碼網(wǎng)絡(luò)，將BEV特征，解碼為結(jié)構(gòu)化的拓?fù)潼c(diǎn)序列，實(shí)現(xiàn)車道拓?fù)漕A(yù)測(cè)，讓毫末的感知能力，能像人類一樣在標(biāo)準(zhǔn)地圖的導(dǎo)航提示下就可以實(shí)現(xiàn)對(duì)道路拓?fù)浣Y(jié)構(gòu)的實(shí)時(shí)推斷。毫末認(rèn)為，解決了路口問(wèn)題實(shí)際就解決了大部分城市NOH問(wèn)題，目前在保定、北京，毫末對(duì)于85%的路口拓?fù)渫茢鄿?zhǔn)確率高達(dá)95%。即便是非常復(fù)雜、非常不規(guī)則的路口，毫末也能準(zhǔn)確預(yù)測(cè)。

第五，人駕自監(jiān)督認(rèn)知大模型，掌握高水平司機(jī)的開車技法，讓駕駛決策更聰明。在探索“使用大量人駕數(shù)據(jù)，直接訓(xùn)練模型做出擬人化決策”方面，毫末為了讓模型能夠?qū)W習(xí)到高水平司機(jī)的優(yōu)秀開車方法，全新引入了用戶真實(shí)的接管數(shù)據(jù)，同時(shí)用RLHF（從人類反饋中強(qiáng)化學(xué)習(xí)）思路先訓(xùn)練一個(gè)reward model（獎(jiǎng)勵(lì)模型）來(lái)挑選出更好的駕駛決策。通過(guò)這種方式，使毫末在掉頭、環(huán)島等公認(rèn)的困難場(chǎng)景中，通過(guò)率提升30%以上。這與AGI領(lǐng)域爆火的ChatGPT的思路相同，通過(guò)人類行為反饋來(lái)選出最優(yōu)答案。

MANA五大模型全面提升了毫末感知和認(rèn)知層面系統(tǒng)化的底層技術(shù)能力�！霸谖宕竽Ｐ椭ο�，MANA最新的車端感知架構(gòu)，從過(guò)去分散的多個(gè)下游任務(wù)集成到了一起，形成一個(gè)更加端到端的架構(gòu)，包括通用障礙物識(shí)別、局部路網(wǎng)、行為預(yù)測(cè)等任務(wù)，毫末車端感知架構(gòu)實(shí)現(xiàn)了跨代升級(jí)。”顧維灝表示，這也意味著毫末的感知能力更強(qiáng)，產(chǎn)品力更強(qiáng)，產(chǎn)品可以通過(guò)快速迭代向全無(wú)人駕駛加速邁進(jìn)。

隨著毫末智算中心MANA OASIS的落地，數(shù)據(jù)智能體系MANA也實(shí)現(xiàn)了脫胎換骨的升級(jí)。在未來(lái)的日子里，不斷進(jìn)化的MANA作為毫末產(chǎn)品迭代的核心動(dòng)力，將持續(xù)助力毫末發(fā)揮核心技術(shù)優(yōu)勢(shì)，早日實(shí)現(xiàn)毫末“讓機(jī)器智能移動(dòng)，給生活更多美好”的最新美好愿景。