引發(fā)的關(guān)注與日俱增,但喧囂過后,這一行業(yè)的發(fā)展也正面臨著艱巨的挑戰(zhàn),其中訓(xùn)練具身智能大模型所需要的高質(zhì)量數(shù)據(jù)在哪的問題成為眼下行業(yè)的一大共同的困擾。
日前,上海初創(chuàng)公司智元正式開源百萬真機(jī)數(shù)據(jù)集AgiBot World使得數(shù)據(jù)缺乏問題再次被提起。智元機(jī)器人聯(lián)合創(chuàng)始人、首席技術(shù)官彭志輝(網(wǎng)名為“稚暉君”)表示,在具身智能領(lǐng)域,真機(jī)數(shù)據(jù)的采集成本和門檻非常高OB電競,,此次開源希望眾多科研團(tuán)隊基于真實數(shù)據(jù)進(jìn)行具身智能算法的訓(xùn)練,加速技術(shù)創(chuàng)新和產(chǎn)品應(yīng)用。但在業(yè)內(nèi)人士看來,“百萬條真機(jī)數(shù)據(jù)量”對于行業(yè)來說只是杯水車薪,“只能訓(xùn)練一個動作的泛化,譬如分揀,對實現(xiàn)理想狀態(tài)中的具身智能還遠(yuǎn)不夠?!?/p>
不同于語言大模型的訓(xùn)練得益于互聯(lián)網(wǎng)上海量的數(shù)據(jù),具身智能“大腦”的訓(xùn)練則需要更多來自物理世界即真實世界動態(tài)環(huán)境中的交互數(shù)據(jù),如何解決物理世界數(shù)據(jù)匱乏問題,成為眼下人形機(jī)器人技術(shù)演進(jìn)路上最大的難題。
創(chuàng)業(yè)企業(yè)之一——銀河通用的創(chuàng)始人兼CTO、北京大學(xué)助理教授王鶴此前在不同場合多次提及具身智能領(lǐng)域面臨數(shù)據(jù)集短缺的難題。王鶴認(rèn)為,通用機(jī)器人背后的技術(shù)一定是具身大模型,要用數(shù)據(jù)驅(qū)動基礎(chǔ)機(jī)器人大模型,讓機(jī)器人能夠有極高的泛化性和跨行業(yè)應(yīng)用能力。但現(xiàn)有數(shù)據(jù)量不足以支持通用機(jī)器人的發(fā)展。
泛化性是指模型經(jīng)過訓(xùn)練后,能夠?qū)⒁豁椥袨閼?yīng)用到陌生的應(yīng)用場景中的能力,在陌生場景中能自主識別任務(wù)并采取行動。國家地方共建創(chuàng)新中心(以下簡稱“國地中心”)相關(guān)數(shù)據(jù)負(fù)責(zé)人在接受澎湃科技采訪時表示,行業(yè)內(nèi)對于機(jī)器人泛化數(shù)據(jù)的獲取始終是一大難題,現(xiàn)階段,特斯拉的Optimus仍需要人為遠(yuǎn)程操作來幫助機(jī)器人完成任務(wù),還不具備泛化能力。
北京航空航天大學(xué)機(jī)器人研究所名譽(yù)所長王田苗此前在接受澎湃科技采訪時也指出,數(shù)據(jù)的匱乏讓人形機(jī)器人很難具備泛化性。當(dāng)前,機(jī)器人任務(wù)泛化、感知泛化和運(yùn)動操作的三個泛化數(shù)據(jù)很難獲取,比如讓機(jī)器人疊衣服、騎自行車等這些數(shù)據(jù)很難得到。
王鶴團(tuán)隊從2023年開始探索大規(guī)模的靈巧手?jǐn)?shù)據(jù)合成和大規(guī)模的泛化,2024年合成了10億規(guī)模的數(shù)據(jù)體量,用于訓(xùn)練機(jī)器人的靈巧手。
總部位于深圳的一家向具身智能機(jī)器人提供基礎(chǔ)場景數(shù)據(jù)和解決方案的創(chuàng)業(yè)公司艾歐智能聯(lián)合創(chuàng)始人徐良威告訴澎湃科技,經(jīng)過一年多對于機(jī)器人技術(shù)路徑的探索發(fā)現(xiàn),“只有通過海量數(shù)據(jù)訓(xùn)練才能夠真正地通向具身智能”已經(jīng)成為行業(yè)共識,通過仿真數(shù)據(jù)實現(xiàn)智能的可能性遠(yuǎn)遠(yuǎn)小于使用真實數(shù)據(jù)。然而,目前具身智能領(lǐng)域正處在類似于從GPT-1到GPT-2的過渡階段,連最基礎(chǔ)的物理世界的數(shù)據(jù)都還十分匱乏。
在徐良威看來,對于訓(xùn)練具身智能泛化能力來說,AgiBot World這種百萬量級的數(shù)據(jù)集雖然已經(jīng)取得明顯的進(jìn)步,但只是“杯水車薪,灑灑水而已”,達(dá)到理想的效果需要更大量的數(shù)據(jù)。
澎湃科技記者了解到,在具身智能領(lǐng)域?qū)嵺`中發(fā)展出四種具身智能采集訓(xùn)練數(shù)據(jù):第一種是遙操作機(jī)器人數(shù)據(jù),即需要一位人工數(shù)據(jù)采集員戴著遙操作手套,手把手示教,獲取真機(jī)操作數(shù)據(jù)。通過這種方式獲取的數(shù)據(jù)質(zhì)量最高,但成本昂貴。第二種是仿線D仿真環(huán)境里從無到有地積累訓(xùn)練數(shù)據(jù),這類訓(xùn)練數(shù)據(jù)以生成數(shù)據(jù)為主,與真實世界仍有較大差異。第三種是通過人類動作捕捉數(shù)據(jù),也稱為動作捕捉或動作追蹤數(shù)據(jù),是通過傳感器OB電競,、攝像頭或其他設(shè)備,精確記錄和分析人體運(yùn)動的技術(shù)。這類方式獲取的數(shù)據(jù)質(zhì)量較高,但通過人類動作捕捉獲取的數(shù)據(jù),與機(jī)器人能否適配仍存在一定差異,需要后期繼續(xù)做構(gòu)型對齊相關(guān)工作。第四種數(shù)據(jù)來源是通過互聯(lián)網(wǎng)獲取人類動作視頻或圖像數(shù)據(jù)。這類方式的特點(diǎn)是能獲得,但都是單一模態(tài)、非結(jié)構(gòu)化且無標(biāo)注的二維圖像或視頻信息,質(zhì)量很差。
國地中心數(shù)據(jù)負(fù)責(zé)人指出,目前行業(yè)內(nèi)最匱乏的是通過遙操作方式獲取的高質(zhì)量數(shù)據(jù),仿真合成類數(shù)據(jù)獲取成本低,但仍需要彌合仿真與現(xiàn)實世界的差距。然而,遙操作方式獲取的數(shù)據(jù)成本過于高昂且采集效率低,導(dǎo)致行業(yè)內(nèi)很難獲取。
“一臺遙操設(shè)備投入約35萬元,再加上人工數(shù)據(jù)采集員的成本,每人每天大約采集500條數(shù)據(jù),人工成本至少需要300元,即便長期投入也無法保證成功。”國地中心數(shù)據(jù)負(fù)責(zé)人估算,的人形機(jī)器人Optimus至少需要數(shù)百萬小時的數(shù)據(jù)才能完全準(zhǔn)備好在工廠工作,這期間可能需要至少5億美元的數(shù)據(jù)采集成本。
上述國地中心數(shù)據(jù)負(fù)責(zé)人向澎湃科技透露,即便銀河通用專注于強(qiáng)化機(jī)器人大腦模型,強(qiáng)調(diào)仿真合成數(shù)據(jù)的使用,但仍面臨一定挑戰(zhàn)?!霸诜抡姝h(huán)境中參數(shù)看似正確,但在物理世界中,即使是微小的偏差也會導(dǎo)致完全不同的結(jié)果。比如,人形機(jī)器人執(zhí)行蹲下起身這類動作時,不同機(jī)器人可能會有不同表現(xiàn),電機(jī)參數(shù)任何微小變化可能會導(dǎo)致機(jī)器人出現(xiàn)完全不同的行為,很難控制。”
由于泛化數(shù)據(jù)采集成本高、獲取難度大,國地中心數(shù)據(jù)負(fù)責(zé)人透露,現(xiàn)階段行業(yè)內(nèi)大部分按照1:9或者1:10的數(shù)據(jù)比例訓(xùn)練機(jī)器人,即一條遙操作機(jī)器人數(shù)據(jù)配以9條或者10條仿真合成數(shù)據(jù),但這個比例目前還沒有定論。
徐良威認(rèn)為,另一個關(guān)鍵問題是如何實現(xiàn)高效的數(shù)據(jù)采集。雖然通過人工操作機(jī)器人可以獲取高質(zhì)量的數(shù)據(jù),但這種方式的效率極低。徐良威稱,智元對外稱一周可采集50萬條數(shù)據(jù),綜合一年數(shù)據(jù)量也不過只能達(dá)到千萬量級,這對具身智能訓(xùn)練效率非常低,難以提速。
除了缺乏高質(zhì)量數(shù)據(jù),徐良威認(rèn)為,具身智能數(shù)據(jù)服務(wù)行業(yè)內(nèi)面臨的首要難題是缺乏統(tǒng)一的數(shù)據(jù)集定義標(biāo)準(zhǔn)。盡管海外有Google這類科技巨頭已開源部分?jǐn)?shù)據(jù)集,國內(nèi)也有智元機(jī)器人開源百萬條真機(jī)數(shù)據(jù)集等,但不同公司開放的數(shù)據(jù)集格式能否兼容、能否保持?jǐn)?shù)據(jù)質(zhì)量的一致性很難說。
“北京和上海的開源數(shù)據(jù)集能否兼容、數(shù)據(jù)格式是否一致,以及數(shù)據(jù)托管的方式有哪些不同,這些還有待出臺統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)?!毙炝纪f,目前國內(nèi)眾多機(jī)器人公司正處于“百花齊放”的狀態(tài),在數(shù)據(jù)管理上也各自為政,這導(dǎo)致公司之間溝通成本非常高。
在數(shù)據(jù)處理上,目前行業(yè)內(nèi)也缺少統(tǒng)一的數(shù)據(jù)處理標(biāo)準(zhǔn)?!安煌?、機(jī)構(gòu)或平臺對處理數(shù)據(jù)的方法不一,機(jī)器人如果要有效利用這些數(shù)據(jù),還需進(jìn)一步處理?!毙炝纪f,每個團(tuán)隊或公司可能都需要從頭開始處理標(biāo)注數(shù)據(jù),這會浪費(fèi)大量時間和資源,且無法保證訓(xùn)練結(jié)果的通用性。
近期,國家地方共建具身人創(chuàng)新中心牽頭立項的《人工智能具身智能數(shù)據(jù)采集規(guī)范》工信部行業(yè)標(biāo)準(zhǔn),規(guī)范了具身智能數(shù)據(jù)集采集的格式,使不同公司采集的數(shù)據(jù)可以互相共享開源,加速模型“涌現(xiàn)”,在徐良威看來,對從業(yè)者來說無疑是一個積極的信號。
世界模型的出現(xiàn)似乎給人形機(jī)器人帶來一些新的希望。去年12月,李飛飛的世界模型開啟了從數(shù)字世界向物理世界的跨越征程,實現(xiàn)了從一維數(shù)字智能向三維空間智能的重大轉(zhuǎn)變。2025年1月6日,英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛在2025CES(國際消費(fèi)類電子產(chǎn)品展覽會)期間,推出了涵蓋生成世界基礎(chǔ)模型的Cosmos世界基礎(chǔ)模型平臺,旨在加速自動駕駛汽車、機(jī)器人等物理AI系統(tǒng)開發(fā)。黃仁勛認(rèn)為,“機(jī)器人的ChatGPT時刻即將到來。與大語言模型一樣,世界基礎(chǔ)模型對于推進(jìn)機(jī)器人和自動駕駛汽車的開發(fā)至關(guān)重要?!?/p>
徐良威稱,這一類世界模型為通用智能提供空間、時間、物理、語義等各方面的模型表征。理論上來說,一方面,世界模型的成功使得機(jī)器人“理解世界”具備可能性;另一方面,世界模型能夠在各維度下生成符合世界規(guī)律的數(shù)據(jù),有潛力成為機(jī)器人合成數(shù)據(jù)的新范式。不過,雖然世界已經(jīng)有一些階段性的成果推出,但真正在機(jī)器人上應(yīng)用,直至能夠商業(yè)落地也還需要進(jìn)一步發(fā)展。
數(shù)據(jù)缺乏在成為業(yè)內(nèi)共識的同時,各方也在采取解決方案。2024年8月,特斯拉對外高薪招募“數(shù)據(jù)采集員”;2024年12月27日,北京國地共建具身人創(chuàng)新數(shù)據(jù)采集基地亮相。
據(jù)了解,從2024年下半年開始,位于上海張江的國家地方共建人形機(jī)器人創(chuàng)新中心也在搭建基于自己平臺的數(shù)據(jù)采集訓(xùn)練場,目前,訓(xùn)練場的場地搭建工作以及數(shù)據(jù)采集機(jī)器人設(shè)備也基本到位,2025年計劃招聘一些數(shù)據(jù)采集員來配合遙操作數(shù)據(jù)采集。2025年預(yù)期量產(chǎn)機(jī)器人的數(shù)量會上升,隨之帶來的數(shù)據(jù)采集量也會大幅增長,在數(shù)據(jù)采集成本方面也會下降?!敖窈罂赡軙幸慌銛y式數(shù)據(jù)采集工具出現(xiàn),這樣會進(jìn)一步降低數(shù)據(jù)采集成本?!毕嚓P(guān)人士透露。
在徐良威看來,北京、上海相繼表示要共建具身智能機(jī)器人創(chuàng)新數(shù)據(jù)采集基地和搭建實訓(xùn)、模擬應(yīng)用場景建設(shè),核心價值遠(yuǎn)不止數(shù)據(jù)采集本身,更重要的是能夠集中資源、縮短數(shù)據(jù)積累的時間,也相應(yīng)地縮短了具身智能市場準(zhǔn)入時間。他預(yù)測,2025年不同地區(qū)會加快建設(shè)數(shù)據(jù)采集訓(xùn)練場,以便從0到1的過程中盡快實現(xiàn)機(jī)器人的落地應(yīng)用,此外數(shù)據(jù)采集方式將更加多樣化。DB電競官網(wǎng),DB電競官網(wǎng),