中国在机器人“手眼协调”这条路上正走得扎实又稳当呢!

大伙儿都知道,这两年人工智能正玩命往物理世界里钻,想把机器搞成不光能看得见,还得摸得着、控得准。这就成了全球科技圈抢着跑的赛道。前阵子,有个叫“白虎-VTouch”的大东西在上海正式露了面。这是国家地方共建的人形机器人创新中心跟上海纬钛科技有限公司一块儿弄出来的。这可是全球最大的视触觉数据集了,里头啥都有,啥活儿都能练。现在想让机器人变聪明,主流的路子就是让它们多跟现实世界接触,产生海量的数据,然后用预训练建个“具身基础模型”。不过以前大伙儿用的数据多是靠眼睛看(RGB),导致机器人脑子里想的全是眼前这一景。这一来二去,到了晚上或者抓易碎品、对付软乎乎的东西时,机器人就容易犯迷糊、干不动活儿了。这就好比盲人摸象,“触觉”这块拼图得赶紧补上。 “白虎-VTouch”就是专门为了补上这块短板而生的。它不光有带着深度信息的彩色图像(RGB-D)和关节动作数据,更厉害的是把纬钛科技自家研发的那个传感器拿到了手。这个传感器能把机器人手指头碰到东西时的压力和形变情况记录得清清楚楚。这样一来,机器人就能从光看到摸到之间架起一座桥。现在你猜猜这数据集有多大?一共攒了超过6万分钟的玩意儿,里面光真金白银的物体接触样本就有9072万对!研究团队用了个“矩阵式”的法子来干活儿。这套方法特别系统化、模块化,既省时又省力,采集的这些数据结构特别好、泛用性强。 看这数据集都干了啥?它覆盖了在家做家务、在工厂干活、搞餐饮服务还有做特种作业这四大类最常碰见的场景。研究人员用了好几种机器人和手持设备,愣是弄出了380多种任务类型的录像带,拍了500多种日常生活用的物件。不管是拿东西还是往洞里插、转一转、放一放这些基本活儿,这数据集里都有。一评估下来才发现,这里头的内容能盖住差不多90%的生活和工业需求。 业内的大佬们都说,这套数据集好比是给下一代具身智能打了地基、铺了铁轨。它不光是个学说话用的“触觉语料库”,还意味着机器人正从以前靠死记硬背程序和看路牌导航的状态里跳出来,开始学会用多只眼(触觉和视觉)去实时看懂周围的世界。这就好比给机器人装上了能让它们“摸黑开灯”、“穿针引线”的灵巧手脚。 “白虎-VTouch”能成功搞出来,是中国科研团队在具身智能这块儿结出的又一个果子。它从感知数据的源头就开始动脑子改了规矩,专治机器手笨手笨脚的毛病。这不仅能把人形机器人的技术往前推一步,也给全世界的人工智能怎么往实体经济里钻提供了新路子。从光用眼看世界到现在的指尖感触世界,上海这次在数据这块平台上花了大力气。这事儿说明咱们中国在机器人“手眼协调”这条路上正走得扎实又稳当呢!