AI 新突破:文本指令驱动机器人和动画人物运动

布朗大学的研究人员最近搞了个大新闻,他们开发出一款名为 MotionGlot 的 AI 模型,只要你输入简单的文本指令,它就能让机器人和动画人物动起来!比如,你输入“向前走几步,动作要标准”,MotionGlot 就能生成相应的动作指令,是不是感觉科幻电影照进现实了?
MotionGlot 最厉害的地方在于,它能跨越不同类型的机器人和人物“翻译”动作。不管是人形机器人还是四足动物,它都能搞定。这简直为各种机器人应用打开了新世界的大门,也为不同场景下的运动生成提供了无限可能。

布朗大学计算机科学专业的博士生 SudaRShan Harithas 兴奋地表示:“我们把动作看作是另一种语言。就像我们可以把英语翻译成中文一样,现在我们也能把基于语言的命令转换成各种机器人都能理解的动作。这绝对会催生出一大批全新的应用!”
这项研究得到了海军研究办公室的支持,并且将在本月晚些时候在亚特兰大举行的机器人和自动化国际会议上亮相。这项研究由 Harithas 和他的导师、布朗大学计算机科学助理教授 Srinath Sridhar 共同完成。

其实,MotionGlot 的原理和 ChatGPT 有点像。ChatGPT 通过“隔壁预测”生成文本,把语言分解成一系列小块,比如单词或字符。然后,根据已有的词语,预测下一个可能的词语。研究人员借鉴了这种方法,把运动也分解成一个个组成部分,比如走路时腿部的不同位置,然后把这些位置转换成“令牌”。通过“隔壁预测”,就能生成流畅的运动了。
当然,这种方法也面临着挑战。不同体型的运动方式可能千差万别。比如,人和狗都在“走路”,但他们的动作完全不一样。人是直立行走,而狗是四足行走。Harithas 表示,MotionGlot 的厉害之处就在于,它能把一种体型的运动“翻译”成另一种体型能理解的运动。所以,无论你是指挥人形机器人还是机器狗,输入“直线向前行走”的指令,都能得到正确的运动输出。
为了训练 MotionGlot,研究人员使用了两个数据集,每个数据集都包含大量的运动数据,并且都带有详细的注释。其中,Quad-loco 数据集包含类似狗的四足机器人的运动及其描述性文本;另一个名为 ques-cap 的数据集则包含真实的人类运动及其详细的标题和注释。
有了这些训练数据,MotionGlot 就能从文本提示中可靠地生成适当的动作,甚至是之前从未见过的动作。在测试中,MotionGlot 能够重新创建特定的指令,比如“机器人向后走,向左走,再向前走”,以及更抽象的提示,比如“机器人愉快地行走”。它甚至能用运动来回答问题。比如,当你问它“你能告诉我一些有氧运动吗?”,它就会生成一个人慢跑的动作。
Sridhar 表示:“这些模型在接受大量数据训练时效果最好。如果我们能收集到大规模的数据,就能轻松地扩展模型。”
研究人员认为,MotionGlot 目前的功能和跨实施方案的适应性,在人机协作、游戏和虚拟现实、数字动画和视频制作等领域都有着广阔的应用前景。他们计划公开 MotionGlot 及其源代码,以便其他研究人员能够在此基础上进行扩展和研究。
0 留言