AI大模型步入多模态时代具身智能与机器人迎新突破
【ITBEAR】在人工智能领域,莫拉维克悖论揭示了AI与人类认知能力之间的显著差异:复杂逻辑对AI来说相对容易,而基本的感知运动技能却需耗费巨大计算资源。这一悖论凸显了当前AI技术的局限性。
人类作为多模态生物,通过多种感官模式感知世界,并据此进行决策和行动。随着传感器融合和AI技术的演进,现代机器人也逐步配备多模态传感器,变得愈加智能。
![图片1: 机器人配备多模态传感器](图片链接1)
Transformer模型和大语言模型(LLM)的出现,推动了多模态AI的集成化发展,使得单个模型能同时处理多种数据类型,大幅提高了AI系统的综合感知能力。
2024年,多模态技术加速发展。OpenAI发布的Sora能根据文本描述生成视频,而GPT-4o则显著提升了人机交互性能,实现了音频、视觉和文本之间的实时推理。
![图片2: OpenAI发布的Sora和GPT-4o](图片链接2)
谷歌也不甘落后,发布了Gemini 1.5,大幅扩展了上下文长度,并探讨了Project Astra的未来愿景,这是一款能处理多模态信息的通用AI助手。
多模态LLM有望改变机器人的分析、推理和学习能力,推动机器人从专用转向通用,进而产生规模化的经济效应,被更多领域采用。
![图片3: 通用机器人](图片链接3)
在具身智能方面,尽管已取得一定进展,但仍需更轻便的设计、更长的运行时间以及更强大的边缘计算平台。人形机器人因形体与人类相似,有望在人类环境中驾轻就熟,执行所需操作。
Robotics Transformer(RT)正在快速发展,它可以将多模态输入直接转化为行动编码,展现出强大的泛化能力。
![图片4: Robotics Transformer](图片链接4)
Arm作为未来机器人技术的基石,提出机器人脑应为异构AI计算系统,以提供出色性能、实时响应和高能效。Arm处理器已广泛应用于机器人领域,期待与生态系统合作,共同推动AI机器人发展。
![图片5: Arm处理器在机器人领域的应用](图片链接5)