本報訊 (記者 劉琴)近日,由中國電子技術標準化研究院基于編制中的國家標準《人工智能具身智能大模型系統技術要求》正式發布“求索”具身智能測評基準EIBench,同時邀請多家國內頂尖具身智能團隊參與首次測評。
在本次測評中,北京人形機器人創新中心的XR-1模型成為唯一一個通過測試的VLA(視覺-語言-動作)模型,獲CESI-CTC-20251103具身智能測試證書,也成為了全國首個獲此殊榮的VLA模型。
據悉,“求索”具身智能測評基準EIBench,是針對具身智能數據難復用、模型泛化性差、安全難保障等產業痛點推出的首個具身智能領域評測基準,聚焦數據格式、具身智能大模型、安全及可信賴度等,形成基于國家標準的測評指標體系。該標準在模型側主要面向VLA和VLM(視覺-語言模型)兩類具身智能大模型,這也代表著我國具身智能行業發展在規范化和標準化的方向上邁出了關鍵一步。
作為基于視覺、語言和動作等多模態數據集進行訓練的大模型,VLA能夠打破傳統具身智能系統中“感知-決策-執行”的模塊分離局限,實現端到端閉環,同時借助大規?;A模型的泛化能力,能夠實現跨任務、跨機器人和零樣本的適應能力;也因為VLA 模型能夠理解自然語言指令,可以使人與具身智能體之間的交互更加自然、高效。
根據介紹,EIBench在數據格式方面推動打造統一數據格式;其次,模型方面,形成了“三個一”的測評準則:
一條標準化流程,實現可復現的公平評測——建設了評測任務確定-訓練數據采集-模型定向訓練-任務真機測試-測試結果分析的標準化流程。
一個綜合任務庫,覆蓋多維度復雜場景——設置了“單臂操作”、“雙臂異步操作”和“雙臂協同操作”3種難度等級,覆蓋移動、放置、推、拉、傾斜、按壓、插入、旋轉等8類核心動作單元,全面考核模型基礎物理交互能力。
一套測試指標,量化模型綜合性能——建立了多維度量化指標體系,包括任務成功率、平均執行用時、人工干預次數、危險操作次數及指令跟隨率等,全面覆蓋任務完成能力、執行效率、自主可控性及安全可靠性等核心要求,反映模型在實際場景中的綜合性能表現。
北京人形創新中心相關負責人告訴記者,在測試中,XR-1模型共在天工2.0、UR、Franka等三款機器人上,針對取放、推拉、旋轉、插入等雙臂技能進行基礎測試,以及物體顏色、位置、姿態,環境亮度、色溫,背景、干擾物等七大維度的泛化測試。每項測試定量采集40-50條少量數據,在每個任務每項測試維度進行10次以上的真機測試,測試全程由中國電子技術標準化研究院專家參與,在流程設計和實際執行層面均做到了標準化公平可復現。
“本次XR-1成為唯一通過測試的具身VLA模型,具有著里程碑式的意義。標準確立后,能夠推動具身智能產業生態的良性發展和可持續創新,創新中心未來將繼續以技術突破與產業實踐,推動具身智能加速邁向‘最聰明和最好用’的新高度?!北本┤诵螜C器人創新中心相關負責人說。
友情鏈接: 政府 高新園區合作媒體
Copyright 1999-2025 中國高新網chinahightech.com All Rights Reserved.京ICP備14033264號-5
電信與信息服務業務經營許可證060344號主辦單位:《中國高新技術產業導報》社有限責任公司