王潛有一副知識分子的長相,講話語調(diào)平和,但一旦聊起具身智能,他便流露出“殺氣騰騰”的一面:
“如果就奔著跟隨別人的念頭,技術(shù)天然就落在下風,是很沒出息的?!?/span>
“創(chuàng)業(yè)這件事是需要一些決心的,如果你從一開始就找好了退路,你的心態(tài)就不對了?!?/span>
機器人,是王潛最執(zhí)著的事。他本碩畢業(yè)于清華大學(xué),博士就讀于美國南加州大學(xué),曾在美國創(chuàng)立量化基金公司。但在做量化之后,他卻“好一陣子整晚睡不著,后悔沒把機器人事業(yè)做下去”。
圖源:企業(yè)授權(quán)
2023年,王潛解散基金回國,在深圳創(chuàng)立“自變量機器人”。
自成立起不到一年半時間,自變量機器人已完成7輪融資,累計融資金額超10億元。5月12日,智能涌現(xiàn)獨家報道其拿到美團獨投的數(shù)億元新一輪融資。
2023年是國內(nèi)具身智能賽道肇興之年,英偉達創(chuàng)始人黃仁勛首次預(yù)言具身智能將是下一個科技浪潮,銀河通用、智元機器人均在這一年成立。
相較于這兩家,自變量機器人前期并未獲得很大聲量。但隨著不斷獲得新融資,其正逐漸走向具身智能舞臺的中心。
一位雙幣機構(gòu)投資人告訴智能涌現(xiàn),從融資金額看,目前國內(nèi)人形機器人創(chuàng)業(yè)公司已經(jīng)形成了鮮明的梯隊。第一梯隊的公司有三家:宇樹科技、智元機器人和銀河通用,融資金額都在15億元以上。自變量機器人融資金額超過10億元,已經(jīng)從二線企業(yè)進入準一線之列。
和當初的AI大模型一樣,國內(nèi)具身智能領(lǐng)域也存在著看好和看空兩種截然對立的態(tài)度。一邊是朱嘯虎的看空——“現(xiàn)在是個人形機器人就會翻跟頭,但商業(yè)化在哪里?”。另一邊,投資機構(gòu)持續(xù)砸下重金,創(chuàng)業(yè)公司正不斷加快量產(chǎn)步伐,并給出樂觀的增長預(yù)期。
王潛是技術(shù)信仰派的典型代表。
他創(chuàng)立的自變量機器人自2023年公司成立之日起就堅定選擇了“端到端統(tǒng)一VLA大模型”的技術(shù)路線,并以每2-3個月更新一版模型的速度推進研發(fā)。
一年后,隨著美國公司Physical Intelligence(PI)的模型發(fā)布,VLA成為了行業(yè)的主流路線。
在大部分其他廠商的模型還在執(zhí)行簡單的Pick&Place操作(即Pick抓取、Place放置)時,自變量機器人研發(fā)的WALL-A模型已經(jīng)可讓機器人完成例如衣物處理、收納整理、線束整理等多項復(fù)雜精細操作。
自變量的機器人在GAIE2025展會現(xiàn)場自主制作刨冰 圖源:企業(yè)授權(quán)
市面上看空的觀點認為“通用具身智能還太早,商業(yè)化不清晰?!倍鯘撗壑械男袠I(yè)發(fā)展進程圖則要快上許多。
他預(yù)計類GPT-3水平的具身智能大模型有望在一年左右出現(xiàn)。具身智能真正的商業(yè)化落地周期,也會在未來一到兩年內(nèi)逐步展開。
目前具身機器人的商業(yè)化場景主要來自于兩個市場:科研教育和迎賓表演。但在王潛看來,這兩個市場總體來講規(guī)模相對較小,對于行業(yè)的長期發(fā)展意義有限,不能當作最終面向的目標市場。對于人形機器人進工廠干簡單重復(fù)性工作,他更是直言“那其實就是一個PR(公關(guān))行為”。
王潛認為要實現(xiàn)真正有價值的商業(yè)化,必須要依靠具身智能模型的泛化能力提升。
眼下,自變量也并不急于推進商業(yè)化,而是把重心放在模型能力提升上。公司有三分之二的支出投向模型及其相關(guān)業(yè)務(wù)。
“不謙虛地說,自變量就是處于國內(nèi)具身智能模型領(lǐng)先地位的,投資人對于第一名天然有一些優(yōu)待。大家相信我們能夠達到非常高的upside,希望我們更加專注通用具身智能模型的大目標?!蓖鯘撟孕诺卣f道。
以下是記者和自變量機器人創(chuàng)始人王潛的對話。內(nèi)容略經(jīng)編輯:
“一體式的端到端模型,發(fā)展天花板更高”
記者:最近的半年時間,公司在模型能力層面上有什么比較重要的新進展?
王潛:我們進展速度還是很快的,平均每2-3個月會更新一版模型。
以前自變量的模型是一個純粹輸出action(動作)的模型,是多模態(tài)進,單模態(tài)出。從去年10、11月開始,我們開始做any-to-any的模型,是多模態(tài)進,多模態(tài)出,除了輸出action(動作),也可以輸出語言和視覺等。
在全模態(tài)融合的框架下,自變量也做很長的COT(思維鏈)。差不多就在這兩次融資之間,我們把思維鏈做出來了。
今年3月,Google Gemini robotics公布了他們的進展,也是類似的做法:any-to-any和COT。最近Physical Intelligence(PI)新發(fā)布的π0.5也做了類似的事情。所以實際上我們非常早地就預(yù)判到了技術(shù)進步的方向,和PI等國外玩家做這個事的時間差不多。
所以我們敢說我們的模型水平基本上和PI、和google在同一個水平線上。因為的確是在相近的時間做出了類似的事情,達到了類似的效果。而國內(nèi)廠商普遍才剛起步要往這個方向去做,進度上就會差得比較多了。
記者:現(xiàn)在統(tǒng)一的端到端VLA大模型(Vision-Language-Action Model)已經(jīng)成為主流技術(shù)路線了嗎?
王潛:對,這很大程度是受到了去年十月份PI的新模型發(fā)布的影響,大家會看到端到端是一個好的方向,是一個大趨勢。
現(xiàn)在基本上不管信不信,大家至少會打這個旗子。但實際上做得好與壞,或者說有沒有真的去做端到端,還是有較大差異。同時,你會發(fā)現(xiàn)市場上有很多的所謂的“定義學(xué)”,重新“發(fā)明”什么叫端到端。
補充一下,端到端路線也有兩種不同的做法,一類是像Figure的兩層模型路徑:high level的VLM來做reasoning、planning,low level的VLA來做實際的動作生成部分;另一類做法就是不作區(qū)分,一體式的端到端。
我們早期也嘗試過兩層模型,但發(fā)現(xiàn)單層模型的天花板明顯高于兩層的,所以自變量傾向于統(tǒng)一的端到端范式。
圖源:企業(yè)授權(quán)
記者:和端到端并行的技術(shù)路線是什么?
王潛:和它并行的就幾種,現(xiàn)在其實大家已經(jīng)不怎么做了。主要是通過三維視覺或者其他的方法做感知,再加上一些傳統(tǒng)控制,做一些Pick&Place操作(指抓取、放置)。
以上方式可能在某些場景,比如說特別簡單的Pick&Place任務(wù),包括上一代的工業(yè)自動化的場景,但這明顯不是我們要追求的。Figure和波士頓動力之前都是這種方式,現(xiàn)在已經(jīng)轉(zhuǎn)向端到端了。
記者:現(xiàn)在自變量的具身智能模型能力,如果類比AI大模型,處于哪個階段?
王潛:我覺得還處于GPT-2的階段,GPT-3當時有一些明顯的特征,是在我們今天的模型上沒有足夠的scale去達到的。業(yè)內(nèi)像PI和google的進度也差不多,這是由Scaling Law的客觀規(guī)律決定的。
記者:國內(nèi)具身智能大模型要實現(xiàn)商業(yè)化還需要多長時間。
王潛:其實基本上快的話就是一年左右的時間點,慢的話可能就是兩年左右。我指的是真正的商業(yè)化,能夠?qū)嶋H意義上的讓用戶愿意去付費。當然商業(yè)化也分不同階段,要進入C端,比如家庭的保姆機器人或者室內(nèi)服務(wù)機器人,時間要更慢一些,可能是3-5年。
大家普遍是會高估短期的技術(shù)進步,低估中長期的技術(shù)進步——它比大家想象的會快一些。
記者:提到具身模型訓(xùn)練,大家都會說數(shù)據(jù)短缺是個瓶頸,你們的數(shù)據(jù)夠嗎?
王潛:數(shù)據(jù)是一個有時間線的問題。比如一開始對具身模型沒有任何感知、沒有理解的情況下,大量收集數(shù)據(jù)未必是正解,可能收集到的大部分數(shù)據(jù)是沒有用的,或是低質(zhì)量的。所以對具身智能有多少了解,其實就應(yīng)該匹配多大的數(shù)據(jù)規(guī)模。
提升數(shù)據(jù)收集規(guī)模只是一方面,怎么把數(shù)據(jù)質(zhì)量做好,深刻地理解需要什么樣的數(shù)據(jù)則是另一方面。自變量之前做了很多后者的工作,這樣是更高效的方式。
目前一些開源的數(shù)據(jù)集、第三方數(shù)據(jù),數(shù)據(jù)質(zhì)量普遍不過關(guān),如果實際去用此類數(shù)據(jù)訓(xùn)練,模型效果不會特別好,這些數(shù)據(jù)可以作為補充,但不能完全依賴,目前我們的數(shù)據(jù)主要靠自己采集。
記者:這一波具身智能熱潮,國內(nèi)創(chuàng)企普遍花錢還挺謹慎的,好像在為冷靜期做儲備,你怎么看?
王潛:首先自變量花錢還是比較謹慎的,不該花的錢絕對不花。我們做的是長線的大事,需要為行業(yè)可能的波動做準備。
但另一方面,該花的錢還是要花,不花錢的確做不出東西來。如果一直等國外的開源成果來follow或抄作業(yè),實在沒出息,而且根本無法實現(xiàn)通用機器人的最終目標。
信心問題、過冬問題,其實反映出來的是能力不足,所以信心不足。如果真的有足夠的能力和判斷,是不會這么去想這個問題的,最初的團隊基因和能力水平會決定很多戰(zhàn)略上的判斷和看問題的方式。
說到底,行業(yè)的波谷為什么會來?是因為行業(yè)沒有做出實際成果來,做出來了,就自然會有一個波峰。為什么不去做引領(lǐng)波峰的公司,引領(lǐng)投資熱潮,而要被動的適應(yīng)環(huán)境呢?我覺得這才是一個創(chuàng)業(yè)者應(yīng)該有的心態(tài)。
“部分商業(yè)化場景的價值和意義存疑”
記者:投資人都是怎么評估自變量的技術(shù)能力?靠DEMO視頻嗎,還是現(xiàn)場真機演示?
王潛:我們都是真機演示,自變量從成立第一天,就堅持真機演示是第一位的。視頻有太多可以造假的方式了?,F(xiàn)場才能夠看到模型真實的表現(xiàn),甚至于需要去現(xiàn)場和機器人互動,進行一些人為干擾,看看模型在各種各樣的極限情況下會有什么樣的表現(xiàn),這才真正能體現(xiàn)模型的水平。
記者:到現(xiàn)在這個估值體量,投資人現(xiàn)在會對自變量有商業(yè)化的要求嗎?
王潛:分投資人。有的投資人比較看重具身智能模型能力可以達到多高的上限,另一部分投資人比較看重商業(yè)化,不同投資人的偏好風格差距還是挺大的。
自變量有些特殊,不謙虛地說,我們就是處于國內(nèi)具身智能模型領(lǐng)先地位的,投資人對于第一名天然是有一些優(yōu)待。大家相信我們能夠達到非常高的upside,所以不會要求我們?yōu)樯虡I(yè)化而商業(yè)化,大家更希望我們?nèi)プ觥坝袃r值”的商業(yè)化,希望我們更加專注通用具身智能模型的大目標。
記者:你們現(xiàn)在還沒有發(fā)布本體產(chǎn)品吧,怎么達到另一部分投資人商業(yè)化的要求。
王潛:我們其實現(xiàn)在已經(jīng)有本體產(chǎn)品了,只是還沒正式對外大規(guī)模發(fā)布。而且我們的本體產(chǎn)品已經(jīng)有實際的銷售和落地了,主要應(yīng)用在偏服務(wù)業(yè)的場景。除了目前的型號之外,我們還會再推出新的本體。
圖源:企業(yè)授權(quán)
記者:現(xiàn)在具身智能進入服務(wù)業(yè)技術(shù)成熟了嗎?
王潛:我們和種子客戶現(xiàn)在還處于POC(概念驗證)的階段,今年年底到明年年初還是很有希望,當然目前也還需要做大量的工程工作。而且我們不會局限于簡單的Pick&Place操作(即Pick抓取和Place放置)。
過于簡單的Pick&Place操作,對于具身智能模型的進一步訓(xùn)練和發(fā)展沒有幫助,上一代技術(shù)其實也完全可以實現(xiàn),甚至純自動化的技術(shù)也能滿足。自變量還是希望能夠做一些以前所有技術(shù)都沒辦法覆蓋的,足夠多樣、足夠復(fù)雜、足夠開放的場景。
記者:今年底或明年初就完成POC進入實際應(yīng)用的話,會是一個什么樣的利潤率水平。
王潛:傳統(tǒng)的服務(wù)機器人能做的事情比較單一,而我們的機器人是通用的,機器人能力不同,創(chuàng)造的價值不同,市場競爭態(tài)勢和客戶的付費意愿也不同。當然早期階段盈利并不是最重要的目標,主要還是希望通過理解實際場景的需求打磨產(chǎn)品。
記者:同行出貨更多的在科研教育和商城迎賓這倆場景,這兩個場景更成熟吧。
王潛:雖然這也是在做商業(yè)化,但這兩個場景商業(yè)化的價值和意義還有待商榷,感覺更多可能是為了滿足投資人對于商業(yè)化的要求,而不是真的相信這件事情可以通往真正想要去的大的目標(通用具身智能)。
科研和迎賓這兩個場景本身市場總規(guī)模不大,不可能當做具身智能最終面向的目標市場。這兩個場景可以作為“沿途下蛋”的產(chǎn)物,但如果把它作為一段時間的主要方向,就可能偏離最終的目標。
記者:這兩個場景確實規(guī)模不大,但是不是也有可能和其他小場景共同造出一個不大不小的市場來,足夠讓一家公司做到上市體量,比如某公司的投資方說過,“僅來自股東方的需求可能就創(chuàng)造出幾萬臺機器人的銷量”。
王潛:問題是這種上市有什么意義呢?這幾萬臺做完了之后呢?不能說這幾萬臺的需求做完之后,就不做生意了。
記者:如果具身智能比AGI更難,永遠實現(xiàn)不了,抓住科研和迎賓這種小市場,是不是一種務(wù)實?
王潛:我覺得大可不必,如果創(chuàng)業(yè)者不相信具身智能,為什么要去做呢?如果認為具身智能是非常遙遠、幾十年后才會出現(xiàn)的事情,那根本就不應(yīng)該現(xiàn)在進入這一領(lǐng)域。
記者:你怎么看工廠場景?最近Figure被外媒報道,F(xiàn)igure的人形機器人在寶馬工廠里打工的事情有夸大的嫌疑。
王潛:現(xiàn)在人形機器人進工廠,能落地的事情非常有限,其實就是一個PR(公關(guān))行為。
實際工廠對速度和準確率有很高的要求,很多公司目前在做的任務(wù)其實還是更適合用上一代技術(shù)來實現(xiàn)。
比如流水線相對來說,還是一個比較封閉、固定的環(huán)境,反而不利于發(fā)揮具身大模型所追求的復(fù)雜操作,開放、隨機、動態(tài)環(huán)境和場景、泛化性的要求等,具身機器人在一般的工廠場景里也學(xué)不到什么,場景太簡單了,對于模型能力提升幫助非常有限。
自變量更傾向于選擇復(fù)雜的場景,復(fù)雜場景才能真正促進模型能力有效提升,也是真正意義上存在客戶需求、用戶愿意買單、替代完成人類不愿意做的事情的領(lǐng)域。
經(jīng)濟學(xué)中一直有所謂是需求創(chuàng)造供給,還是供給創(chuàng)造需求的爭議,在具身智能這一Moonshot領(lǐng)域,是很明顯的供給創(chuàng)造需求。
“對于大部分軟硬一體的東西來說,開源都是很差的一種模式?!?/span>
記者:美國同行的估值更高,資金更多,中美之間的具身智能模型水平是不是有差距?
王潛:國內(nèi)的整體水平相比于國外肯定還是差的,而且差得不少。我們重點關(guān)注的國外同行包括Physical Intelligence(PI)、google、特斯拉。
但就目前來說,我們還是有很大的機會能夠和美國在同一個水平線上去發(fā)展。甚至我們有機會在今年或者明年超過他們。
我覺得大家會有覺得國內(nèi)做的不如美國的心態(tài),可能和過去長期處于“跟隨者”的角色有關(guān)。但在具身智能的發(fā)展實際中,沒必要過于自我懷疑。以自變量為例,我們能做到的模型水平已經(jīng)能夠和PI等國際頂級團隊在同一個水平線上,在部分指標上甚至實現(xiàn)了超越。
記者:第一梯隊的PI已經(jīng)開源了機器人通用基礎(chǔ)模型π0,這會不會把大家的水平拉平?
王潛:PI開源到現(xiàn)在差不多半年的時間,國內(nèi)有一些企業(yè)也嘗試在其基礎(chǔ)上進行微調(diào),但從實際效果來看,并不會明顯優(yōu)于其他開源方案,更無法完整復(fù)現(xiàn)PI團隊在其自有機器人本體上的表現(xiàn)。實際上,跨本體適配的問題依然是一個重要挑戰(zhàn)。
記者:PI的π0微調(diào)之后,可以應(yīng)付什么樣的商業(yè)化場景?
王潛:目前來看,在新本體上微調(diào)后π0的能力會有比較大的損失,在商業(yè)化場景中的實際應(yīng)用比較有限。實際上PI之所以選擇開源,很大程度上在于其自身難以直接商業(yè)落地。PI本身并不做硬件,需要依賴其他企業(yè)將模型和硬件結(jié)合來落地,所以它才會采取開源模型這樣的方式。
記者:和AI大模型創(chuàng)業(yè)一樣,不貿(mào)然投入,等國外先進模型開源后再跟隨,是不是也不失為一種好策略?
王潛:這乍聽上去像是一個好策略。但是第一,靠抄能不能抄得到是個問題,具身智能不像語言模型可以蒸餾,它復(fù)現(xiàn)的難度很大。復(fù)現(xiàn)開源模型過程中,由于之前沒做過,該踩的坑還是要踩,其實并沒有節(jié)省多少時間。
其次,這么做整個公司的精氣神兒就沒有了。如果自己都不相信自己能做成,那憑什么讓和你一起做這件事的人相信公司可以。
去做一件有意義的事情,是需要專注、信仰和創(chuàng)造力的。如果靠等待和抄作業(yè),在科技創(chuàng)新領(lǐng)域,就只能是做一些很平庸的事情,永遠成就不了一家偉大的公司。
記者:具身智能有可能跟AI大模型一樣形成開源和閉源兩個陣營嗎?
王潛:本質(zhì)上,對于軟硬一體的領(lǐng)域來說,開源是一個偽命題,至少不是商業(yè)化的命題。之前的無人機、自動駕駛等,在發(fā)展的過程中都有大量的開源,但最終所有的開源都沒能成功。
大家現(xiàn)在對開源會有一些期待,或者說比較敏感,本質(zhì)上是因為人們看到在語言模型賽道,開源會有一些好的效果。但軟硬一體的東西和純軟件不一樣,軟件如語言模型,模型本身即產(chǎn)品,部署后可以立刻使用,很自然地獲得C端的影響力。
但是具身智能模型還需要搭配硬件才能成為產(chǎn)品,和人交互的界面、應(yīng)用的實體是硬件,所以很難獲得廣泛意義上的聲量,目前只能影響學(xué)術(shù)界、極客圈子以及行業(yè)內(nèi)群體。
比如π0模型在去年發(fā)布的時間點絕對是當時世界領(lǐng)先的模型,但它在大眾端并沒有激起什么水花。所以具身智能的商業(yè)化肯定不能靠開源來實現(xiàn)。
第二,具身智能這個領(lǐng)域還是有特殊性。比如A實驗室開源了一個具身智能模型,全世界沒有任何一個實驗室能夠100%的復(fù)現(xiàn)出來開源實驗室在他們自己環(huán)境下能做到的東西。不要說完整的復(fù)現(xiàn),哪怕是大部分的復(fù)現(xiàn)也都很難實現(xiàn)。語言模型可以去蒸餾,但在硬件領(lǐng)域,不可能脫離機器人把數(shù)據(jù)蒸餾出來。
(審核編輯: 光光)
分享