帮纣为虐谷歌查究AI+呆板人异日:836平方米丰富场景下指令获胜率高达90完美电竞%

 公司新闻     |      2024-07-14 03:54:07    |      小编

  IT之家 7 月 13 日动静,科技媒体 The Verge 昨日报道完美电竞,谷歌旗下的 DeepMind 团队正正在操纵 Gemini 操练其呆板人,让其可以已毕更丰富的劳动,且能正在丰富的情况下自正在穿梭。

  DeepMind 团队依然发布了最新的推敲论文,使用 Gemini 1.5 Pro 的上下文窗口(抵达 200 万个词元),让用户可能更轻松地操纵天然言语指令与 RT-2 呆板人互动。

  IT之家注:上下文窗口(context window)是指言语模子正在实行预测或天生文本时,所思量的前一个词元(token)或文本片断的巨细局限。

  其任务道理是拍摄指定区域(如家庭或办公空间)的视频导览,推敲职员操纵 Gemini 1.5 Pro 让呆板人“观察”视频以明白情况;然后,呆板人可能凭据侦查到的情状完美电竞,通过言语和 / 或图像输出来实行下令完美电竞。

  比方用户向呆板人浮现一部手机,并扣问“正在哪里可能充电?”机器人,呆板人会领导用户找到室内的电源插座。

  DeepMind 称,正在一个 9000 平方英尺(IT之家备注:约 836.13 平方米)的操作区内,呆板人正在升级 Gemini 之后,测试发出 50 多条用户指令,告捷率高达 90%。

  推敲职员还呈现 开始证据 阐明,Gemini 1.5 Pro 能让呆板人准备若何已毕导航以表的指令机器人。

  比方,当一位桌上摆放着很多好笑罐的用户扣问呆板人是否有他们最爱好的饮料时完美电竞,Gemini “清楚呆板人该当导航到冰箱,检验是否有好笑,然后返回用户处申诉结果”。DeepMind 默示准备进一步推敲这些结果。帮纣为虐谷歌查究AI+呆板人异日:836平方米丰富场景下指令获胜率高达90完美电竞%