這個(gè)視頻,Phil Beisel介紹《The AI Merge That Changes Everything for Tesla 》,向大家介紹了特斯拉正通過(guò)統(tǒng)一的AI架構(gòu),將全FSD的積累擴(kuò)展至具身智能領(lǐng)域,使人形機(jī)器人Optimus得以共享同樣的數(shù)據(jù)管線、仿真系統(tǒng)、訓(xùn)練方法與硬件平臺(tái)。
這種復(fù)用是一次系統(tǒng)層面的融合,特斯拉正在打造一個(gè)面向多形態(tài)機(jī)器人的通用AI平臺(tái),從技術(shù)和系統(tǒng)架構(gòu)的角度,我們來(lái)看看特斯拉如何在FSD和Optimus之間實(shí)現(xiàn)“視覺(jué)到行動(dòng)”的統(tǒng)一 。
圖片
01
視覺(jué)驅(qū)動(dòng)的通用智能:
從四輪到雙腿的統(tǒng)一
特斯拉的自動(dòng)駕駛與人形機(jī)器人表面上屬于完全不同的領(lǐng)域,一個(gè)面向高速行駛的車輛,一個(gè)面向動(dòng)態(tài)行走與操控的機(jī)器人,但在技術(shù)內(nèi)核上共享同一邏輯:都依靠視覺(jué)系統(tǒng)理解世界,并基于神經(jīng)網(wǎng)絡(luò)生成動(dòng)作指令。
FSD是“四輪機(jī)器人”,Optimus是“具身機(jī)器人”,都是特斯拉在“以視覺(jué)驅(qū)動(dòng)物理世界”的技術(shù)框架下的延伸產(chǎn)物。
圖片
在硬件層面,兩者都依賴以攝像頭為主的視覺(jué)感知系統(tǒng)。
FSD利用八個(gè)環(huán)繞車身的攝像頭實(shí)現(xiàn)360度感知,而Optimus的雙目攝像頭加后置鏡頭則構(gòu)建出與人類相近的視覺(jué)范圍。
盡管運(yùn)動(dòng)輸出差異極大——車輛的控制僅限于加速、剎車、轉(zhuǎn)向,而Optimus需協(xié)調(diào)腿、手、頭部乃至軀干的多自由度運(yùn)動(dòng)——但其決策路徑一致:從視覺(jué)輸入,到AI感知,再到動(dòng)作輸出,全過(guò)程均由端到端神經(jīng)網(wǎng)絡(luò)完成。
模式關(guān)鍵在于FSD多年來(lái)積累的“視覺(jué)-行為映射”經(jīng)驗(yàn)。
特斯拉通過(guò)數(shù)百萬(wàn)輛車實(shí)時(shí)采集的駕駛數(shù)據(jù),建立了龐大的多模態(tài)數(shù)據(jù)管線。這一管線不僅包含視頻幀,還融合了慣性測(cè)量單元(IMU)、GPS和音頻等時(shí)序數(shù)據(jù),形成了高度同步的多傳感器數(shù)據(jù)集。
這套系統(tǒng)成為Optimus的學(xué)習(xí)起點(diǎn),使其在機(jī)器人階段無(wú)需從零開始建立“世界模型”,而是復(fù)用FSD的成熟管線,實(shí)現(xiàn)從道路到空間場(chǎng)景的遷移學(xué)習(xí)。
圖片
更深層的共通在于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
特斯拉的FSD已全面轉(zhuǎn)向混合專家(Mixture of Experts,MoE)架構(gòu),這是一種將不同技能模塊化的網(wǎng)絡(luò)設(shè)計(jì)。每個(gè)“專家”對(duì)應(yīng)特定場(chǎng)景下的行為策略,例如城市交通、匝道變線或惡劣天氣。
而在Optimus中,這些“專家”被映射為具體動(dòng)作技能,如抓取、行走、平衡或避障。系統(tǒng)通過(guò)實(shí)時(shí)權(quán)重分配激活不同模塊,實(shí)現(xiàn)多技能協(xié)同。
這種技能化的AI結(jié)構(gòu),使得特斯拉的AI系統(tǒng)可以在“開車”與“搬運(yùn)物品”之間共享學(xué)習(xí)框架。
圖片
這一架構(gòu)背后,是特斯拉對(duì)“通用具身智能”路線的深度布局。
通過(guò)在不同物理形態(tài)中共用數(shù)據(jù)和模型,特斯拉實(shí)際上正在訓(xùn)練一個(gè)跨領(lǐng)域的物理AI系統(tǒng)。
FSD是其驗(yàn)證場(chǎng)景,Optimus則是其具身化延伸。當(dāng)兩者的AI模型共享視覺(jué)語(yǔ)義、運(yùn)動(dòng)邏輯與學(xué)習(xí)機(jī)制時(shí),特斯拉就擁有了一個(gè)能夠支撐多種機(jī)器形態(tài)的統(tǒng)一大腦。
02
從仿真到強(qiáng)化學(xué)習(xí):
統(tǒng)一訓(xùn)練系統(tǒng)的工程邏輯
FSD與Optimus共享的不僅是視覺(jué)與網(wǎng)絡(luò)結(jié)構(gòu),更關(guān)鍵的是整個(gè)訓(xùn)練和仿真體系。特斯拉通過(guò)龐大的仿真引擎與強(qiáng)化學(xué)習(xí)(RL)系統(tǒng),讓AI可以在虛擬環(huán)境中反復(fù)試錯(cuò),從而加速智能體的成長(zhǎng)。
在自動(dòng)駕駛領(lǐng)域,特斯拉構(gòu)建了基于真實(shí)道路的高保真仿真器。
該仿真系統(tǒng)能夠重建舊金山等城市的復(fù)雜路口環(huán)境,調(diào)整道路幾何、交通規(guī)則與光照天氣條件,用于生成豐富的訓(xùn)練場(chǎng)景。這些場(chǎng)景既用于FSD軟件的回歸測(cè)試,也為模型生成合成數(shù)據(jù),提高其在稀有邊界情況(corner cases)下的表現(xiàn)。
這一機(jī)制被無(wú)縫移植到Optimus上。相同的仿真引擎被用于構(gòu)建家庭、工廠、倉(cāng)儲(chǔ)等場(chǎng)景,讓Optimus在虛擬世界中學(xué)習(xí)如何完成裝盤、行走、抓取等任務(wù)。
不同于傳統(tǒng)機(jī)器人依賴工程師設(shè)定動(dòng)作軌跡的方式,特斯拉采用模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合的方式:先讓AI學(xué)習(xí)人類演示的基礎(chǔ)動(dòng)作,再通過(guò)仿真環(huán)境中的海量試錯(cuò)優(yōu)化行為策略。每一次“成功”的動(dòng)作都會(huì)得到獎(jiǎng)勵(lì)信號(hào),系統(tǒng)據(jù)此調(diào)整參數(shù),實(shí)現(xiàn)自主學(xué)習(xí)。
這種訓(xùn)練方式的高效之處在于,它利用FSD積累的全部訓(xùn)練管線,包括數(shù)據(jù)打包、自動(dòng)標(biāo)注、批量訓(xùn)練與驗(yàn)證循環(huán)。
特斯拉不需要為Optimus重建數(shù)據(jù)基礎(chǔ)設(shè)施,而是直接在既有框架上擴(kuò)展人形任務(wù)。
甚至連底層推理硬件也完全共通:目前FSD運(yùn)行在特斯拉自研的HW4芯片上,而Optimus原型同樣搭載這一平臺(tái)。未來(lái)兩者都將升級(jí)至AI5芯片,實(shí)現(xiàn)更高的推理效率。
特斯拉的目標(biāo)不僅是讓Optimus“學(xué)會(huì)走路”,而是讓它像FSD一樣具備自我進(jìn)化的能力。
隨著兩者的AI模型在訓(xùn)練和推理層面逐步統(tǒng)一,F(xiàn)SD的駕駛經(jīng)驗(yàn)將轉(zhuǎn)化為機(jī)器人在物理世界中的操作直覺(jué),而Optimus的具身學(xué)習(xí)又能反哺FSD的感知與決策算法,形成正向循環(huán)。
這正是特斯拉系統(tǒng)性工程能力的體現(xiàn):通過(guò)架構(gòu)復(fù)用與閉環(huán)訓(xùn)練,使兩條看似獨(dú)立的智能系統(tǒng)路線在底層實(shí)現(xiàn)融合,從而顯著降低研發(fā)成本,提高通用智能的學(xué)習(xí)效率。