歡迎關注“新浪科技”的微信訂閱號:techsina 

來源:智能車參考

擎天柱機器人,這次自己登場!

在剛剛結束的特斯拉2022 AI Day現場,馬斯克押注未來的人形機器人擎天柱(Optimus)——一系列新進展得到披露。

先是用手指倒計時開啓展示,其後緩步登臺,有模有樣,還展示了一段馬斯克最愛跳的舉手搖擺舞。

馬斯克強調,這是擎天柱機器人首次獨自登臺。

接着就通過視頻,展示着這個機器人目前的日常:在特斯拉工廠裏搬包裹、澆花、學習各種人類做的事情。

但作爲測試版本,這個原型擎天柱還比較粗糙,線圈裸露、胸口有醒目的電機等等。

所以緊接着第二版本、更美觀的擎天柱機器人也登場了——暫時還不會走,卻有更具設計的外觀,甚至還給配了一個得州牛仔腰帶。

馬斯克對特斯拉機器人的進展相當滿意,他說雖然很難,但一定會比特斯拉的車更便宜,要服務於人類生活和經濟,成本和售價要瞄準2萬美元(14萬元)的標準去量產和商用。

在最後的問答中,馬斯克還給出了時間表:3年量產,5年商用。

總之,特斯拉的AI Day在經歷延期之後,果然不負衆望,國內十一假期和國外週五夜晚都沒能阻擋熱情,數萬人在線實時觀看。

而且馬斯克家的擎天柱機器人一登場,立馬就讓不少網友感慨:相比之下,XX家的XX就是個遙控玩具而已呀。

擎天柱機器人,究竟有何不同?特斯拉AI Day上,又分享了哪些自動駕駛和芯片、超算方面的進展?

智能車參考,帶你一文看盡。

“擎天柱”機器人亮相

擎天柱首次登場,自己走上臺,向觀衆揮手。

還跳了一段馬斯克最喜歡的舉手舞。

動作還比較生澀,但這已經是目前完成度最高的AI人形機器人了。

波士頓動力?

馬斯克特意強調了擎天柱是第一個沒有外部穩定輔助、沒有遙控、沒有外帶電源,完全靠AI算法、自身電池電控、高集成的電驅執行器驅動的人形機器人。

怎麼實現?特斯拉在這個項目上有哪些創新?

一一來看。

整體情況

擎天柱機器人身高170cm左右,重73公斤。整個機器人由一塊2.3度電池供電。

電控系統,包括充放電的功率半導體模塊,都集成在了機器人胸口的電池包中。

機器人靜坐時,功耗爲100w,快步行走時,功耗爲500w。

可以估算,這樣的能耗水平和電池容量,可以支撐擎天柱不間斷持續工作1.5-2小時之間。

擎天柱全身最大實現200度自由活動範圍。

負責完成主要任務的手部,有最大27度活動範圍(腕部)。

我們看到的這個能走路、揮手、跳舞的擎天柱,是目前的最新版本,沒有包覆外殼。

馬斯克介紹,今年4月擎天柱第一次實現站立行走,到現在也不過半年時間。

下一個完成度較高、包裹“皮膚”的機器人,未來幾個月內就能下地走路。

售價嗎…馬斯克也給出了一個讓人期待的估計:

很可能20000美元以內,肯定比汽車便宜。

擎天柱能做到什麼?

擎天柱200多個自由活動維度,由全身28個結構執行器實現。

控制這些執行器的,也是從特斯拉FSD自研計算平臺衍生而來的SoC。

擎天柱機器人能做到什麼?

簡單的展示中,能夠自己搬運物品,完成精細動作比如澆花。

通過模仿人類的關節和肌肉工作方式,特斯拉爲擎天柱開發了6種不同的執行機構:

甚至可以提起500公斤重的鋼琴:

如何使6種、28個不同的執行機構像人一樣協調統一的活動呢?

整體策略:AI像人學習

機器人有28個驅動機構,基礎已經具備。

但難點在於執行器級別優先度不明確。

所以需要AI模型理解不同任務下各個關節的調動方式。

特斯拉的方式是採集不同這是任務下的人類關節運動模式,提取其中關鍵參數,比如扭矩分佈、關節旋轉角度等等,然後合成一個整體的多維向量數據,並灌輸給系統。

如何讓擎天柱完成一個具體任務?

總體分爲兩個步驟。

首先是前面說的將人類的示範動作映射成多維向量,並讓系統首先模擬出這個具體任務的關節運動軌跡:

緊接着,再通過實時系統將已經生成好的軌跡指令,發送到機器人對應的執行機構上。

但這個過程中,涉及到許多細分技術難題,特斯拉分別介紹了感知識別、行走與平衡、執行策略,以及手部動作幾個方面。

感知:特斯拉自動駕駛同源技術方案

擎天柱看到的世界是這樣的:

目標感知和識別算法的基礎,其實就是FSD的相應模塊。

這一部分如何提高識別的準確度和規劃擎天柱前進的路線,其實和自動駕駛算法相同。

“相當於一個低速、兩條腿的自動駕駛汽車”。

後面介紹FSD時會詳細說明。

如何保持平衡

從工程角度看,行走並不是一件簡單的事。最重要的是保持平衡。

其次保持整體動作的協調。

機器人上如何實現?

特斯拉開發了一個全新的機器人運動模型。

預設路線規劃好,輸入給系統後,系統會自動繪製出機器人的下一個落腳點,並且和整個機器人重心聯動,保持邁步同時的平衡。

不過 ,這裏仍然存在工程上的控制挑戰。

如何實現規控

剛剛說的運動規劃,是在理想條件下實現的,只存在於系統模擬之中。

擎天柱真正邁出這一步,其實很容易受現實世界複雜環境的干擾而摔倒。

特斯拉的方案是在執行決策中加入修正步驟。

利用傳感器數據的真實性,不斷修正運動學模型對軌跡的估計。

這張圖解釋的很清楚:

基本運動模型,由本地已經訓練好的算法模塊(以真實世界模擬爲素材)爲基礎。

這個模型首先對環境進行模擬,預測出下一步行動軌跡。然後由傳感器數據預測修正。

最後將修正後的指令發送到執行機構。

手部複雜系統

擎天柱手指單獨成一個系統,有6個執行機構,每個關節實現最大11度的自由運動。

基本靈活性和人類手掌相當,也能做到每秒300度的轉動速度,而且關節、指尖觸點裝有傳感器。

能夠承重20磅(9公斤)、使用工具,以及抓取細小物品。

擎天柱明年開始量產,馬斯克儘管說它的售價可能不超過20000美元,但同時也認爲人形機器人的價值其實並沒有被大衆真實認知。

所以之前馬斯克也在推特上說,最先應用擎天柱的場景,可能就是特斯拉自己的超級工廠。

關於這一部分,他畫了一張很大的餅。

特斯拉之所以把機器人造成人類模樣,主要目的就是取代人類完成幾乎所有經濟活動中需要的勞動。

“因爲這個世界的所有工具、系統都是爲人類的形體特徵建造的。”

而馬斯克認爲,一旦機器人變成主要生產力,人類完全就能實現個人的全面發展。

得到你想要的一切物質財富,學習享受一切你感興趣的東西。

我們中國羣衆一點都不陌生,這不就是共 產 主 義嗎???

特斯拉FSD,和背後的數據閉環

首先登場的是特斯拉Autopilot負責人Ashok Ellaswamy。

他表示,特斯拉FSD自動駕駛車隊規模從去年的2000,到現在已經擴充到了16萬。

緊接着說道,之所以能達到這個成績,主要歸功於過去一年裏工程師們的血汗付出——對75,000多個神經網絡模型進行訓練。

整個特斯拉FSD系統由以下部分組成:

更準確的說,這是特斯拉典型自動駕駛算法的開發流程。

FSD的主體算法框架,由車道、障礙物識別算法,以及環境建模算法(可供行駛的空間)組成。

當然,這些都是已經預訓練好的框架。

然後將經過自動標註、模擬的訓練數據餵給算法,這就形成了完整的迭代過程。

之後將這套算法部署在車端,完成自動駕駛任務。

接下來還詳細介紹了特斯拉Autopilot系統如何與現實世界進行交互。

每50毫秒可以實時做出一個決策,具體依靠如下的框架,將其概括爲“交互搜索”。

決策的依據,是現實存在的車道線、以及其他移動的交通參與者。

根據軌跡預測算法,計算出多種可能的運動軌跡,這裏需要用到不同的限制條件過濾掉那些明顯不安全、不合規的軌跡。

這些規則,其實也是FSD系統通過巨量的真實道路數據學習得來的。

而且不僅僅是機械的交通準則,更多是人類老司機處理極端場景時的策略和方法。

後臺訓練方面,特斯拉目前的計算集羣,由14,000個GPU構成,其中使用10,000個GPU來訓練,4000個GPU則用來標記。

關於自動標註,以複雜路口的車道線爲例,特斯拉每天有超過50萬個case被收集,如果全部使用人工標註,將耗費數個月的時間。

所以,特斯拉開發了一種新的系統:3D自動“打標工廠”。

第一步,數據從8個攝像頭處獲得,並且使用Transformer爲基礎的BEV模型從不同傳感器的2D數據中恢復3D場景。

然後從這些初步處理過的數據中,先進行軌跡預測。

第二步,對於多車道的場景進行重建,這裏指的是在系統中重建用於模擬訓練的場景。

最後,則是在新建的模擬場景中,標註出新的數據要素,比如其他目標的軌跡策略、車道線的不同形式等等。

整個流程不過30分鐘時間。

標註之外的另一個環節,是模擬。

重建模擬環境,通常需要幾個星期的人工。

但特斯拉的Lanegraph工具,幾分鐘內就能完成。

生成模擬環境,基礎還是車輛在路徑上採集到的真實信息。

Lanegraph會基於這些數據,學習到關於某一類道路環境的基本要素(ground truth),包括車道線形式、道路寬度、人行道邊界、交通標誌信息等等。

然後,Tile creator模塊會根據這些要素,自動生成一個模擬場景。

然後,場景中的物體幾何信息,與時間維度的實時狀態會被提取出來。

最後,再使用虛幻引擎將這些特徵渲染成高真實度的場景。

有多真實?包括道路標牌信息上的文字、路旁樹木形成的斑駁陰影等等都能呈現。

數據閉環最後一步,就是訓練和迭代。

這張圖展示特斯拉整個數據閉環的過程:

其中,值得關注的是“影子模式”,即車主在使用過程中傳回的高價值場景數據。

這也構成了特斯拉最主要的訓練數據來源,也是FSD快速進步的最主要原因:

以識別路口靜止車輛這個具體案例來說,真實場景數據遠高於模擬場景,一年時間內識別準確率從85%左右提升到近100%。

這次的AI Day,特斯拉FSD講了很長時間,但和去年相比,顛覆性技術革新並不多。更多的是特斯拉展示已經建成的高度自動化的數據閉環體系,以及這套數據閉環帶來的高效迭代速度。

有意思的是,這些技術思路,比如對Attention機制、Transformer、語言模型化用等新進展,跟國內更早之前自動駕駛公司毫末智行的AI Day上的大同小異——也意味着對於自動駕駛的工程化探索,目前業界到了合流的時候。

最後總結一下:

數據前融合,採用基於Attention的Transformer進行。這是一個由特斯拉開創、其他自動駕駛玩家紛紛跟進的趨勢。

模型優化方面,應用了不少NLP(自然語言處理)領域的思路。

格外重視的,還雲端訓練,這就帶出了AI Day的另一個重要內容:

特斯拉超算Dojo新進展

這一部分,幾乎都是黃仁勳和英偉達的受難時間。

Dojo由特斯拉自研計算芯片D1集成。

具體來看,25塊D1集成爲一個計算模塊。

一個計算模塊,相當於6個通用GPU性能,而成本和能耗,僅相當於1個GPU。

另外,去年特斯拉介紹了自建超算的基本模塊單位ExaPOD,集成120個訓練模塊,包含3000個D1芯片,超過1百萬個訓練節點。算力達到1.1EFLOP。

當時只是PPT,最新消息是,明年特斯拉即將在加州Palo Alto開建,總共規劃了7個ExaPOD組成計算集羣。

不用說,建成之後肯定是人類有史以來最大的AI專用訓練、模擬基礎設施。

馬斯克在問答中也透露,DOJO不光會特斯拉自己用,也會考慮AWS一樣的方式對外商用,總之有這樣的大殺器,不愁商業模式。

問答馬斯克

最後,作爲AI Day的互動交流環節,馬斯克親自上陣,儘可能回答了所有問題。

這些問題主要集中在三個方向上:

第一,擎天柱機器人和通用人工智能。

第二,自動駕駛。

第三,馬斯克的認知和特斯拉未來。

我們言簡意賅傳送如下。

問:擎天柱機器人現在用的肌腱系統定型了嗎?

馬斯克:我們現在的方案是爲了更快實現工程化製造,即便有很多方案可以選擇但也有取捨,但根本上依然保持開放心態,會在不斷迭代中改進方案。

問:擎天柱機器人會有認知智能嗎?比如開開玩笑。

馬斯克:肯定能跟人聊聊天,有簡短的交談,但也不要走到終結者那樣……我們希望擎天柱能夠安全、有保障地爲人類服務。

現在的擎天柱核心是實用主義的完成任務,以後會推進創造性認知的一面…擎天柱機器人肯定不是無聊的執行器。

問:如何保證擎天柱機器人的“意識”始終是正確的,不會傷害人類?

馬斯克:我們的機器人跟科幻電影的裏的還不一樣,主要還是你希望做什麼它就執行什麼,當前還是比較偏執行的機器人。

機器人工程師補充:機器人的“意識”一方面可以通過數據訓練,二是確保可以遠程控制,一旦發現有不對的傾向可以接管。

馬斯克補充:或許會有一個終極控制按鈕。

問:擎天柱機器人的開發還跟加速可持續能源的特斯拉使命有關嗎?

馬斯克:嚴格講不是一個路線。擎天柱核心還是希望讓世界更美好,能夠讓人類更美好。

我是真的想看看最酷的最前沿的技術,讓世界在5年後、10年後變成什麼樣……我是真的很感興趣。

問:擎天柱機器人正在走向通用人工智能(AGI),你擔心嗎?

馬斯克:我是人工智能的忠實信徒,並且認爲需要像監督汽車、飛機和藥物一樣,確保AI的正確使用。應該有一個裁判的角色,保證AGI的安全使用。

但實現AGI,可能需要一個史無前例的超大數據集。不僅是互聯網數據,還有諸多線下的數據。於是就需要有更大的超算來訓練……這樣才能實現AGI。

問:AGI的發展預估?

馬斯克:AGI一定會來。比如5年、10年會有很大的改變,但下週可能不會有大的更新…所以前途是光明的,道路是曲折的,還有很多工作要做。

機器人的本質是傳感器和執行器,以及如何控制執行器。

問:擎天柱機器人啥時候會投入使用?

馬斯克:現在就已經在特斯拉工廠測試,搬東西,從一個地方搬到另一個地方。

我希望很快能進入到開放訂購的狀態。

三五年吧。三年量產、五年隨便買,能夠當個禮物送人。

問:特斯拉FSD爲什麼開始引入語言模型?

工程師:車道和路口啥的,只能通過語言模型的方式,可以實現更好的……視覺信息的建模沒那麼完整的時候,語言模型、語言生成模型可以起到很好的作用。

問:FSD的公測推送標準?

工程師:我們會有好幾個版本,通過公測推送的不是內部最新的那個版本。

馬斯克:內部最新的版本通常都是我來測,我是FSD的首席測試。經常給他們debug。(現場笑)

問:特斯拉會始終堅持視覺方案?

馬斯克:自動駕駛的本質就是生物神經網絡,你始終可以參照人類的方式。

問:FSD的推進計劃?

馬斯克:很多國家需要批准才能開始FSD測試,但我相信我們已經準備好了。FSD今年年底還會有大的更新。目標就是一個停車場到目的地停車場的連續自動駕駛。

問:如果回到20歲,你會告訴自己什麼?

馬斯克:(認真思考了一會兒),我會想辦法給20歲的自己說點實用的吧。比如儘可能站到人前,和更多聰明人認識,讀更多的書。以及不要太羞澀內向……偶爾送送玫瑰啥的也很好。

享受每一個時刻。比如我們火箭在小島研發的時候,該喝一杯的時候就喝一杯,因爲那個時刻的感覺轉瞬即逝,不會再有了。

問:特斯拉何以爲特斯拉?獨特性在哪裏?

馬斯克:我們現在是很大的公司了,有不同領域知識的人才,而且我們做的事情幾乎都相當成功,因爲在做正確的事情。也因爲我們的使命是工程師用技術讓世界變得更美好。

其實很多硅谷公司都這麼想,但能讓工程師真正快樂、且發揮才能的,不多。多數就是被畫餅進去,然後得不到有效地成長。

但特斯拉不是,這裏非常酷,也很辛苦,解決很多艱難的挑戰,但如果你是一個天才,不管是哪個方面的,總有你的用武之地。

問答最後,馬斯克帶動現場參會者感謝了特斯拉工程師們,還講了一下AI Day的意義,說之所以披露大量的細節,就是希望感興趣的人可以隨時挑着看自己感興趣的東西,加入我們,改變世界。

相關文章