Meta AI项目通过人工视觉皮层为机器人提供眼睛

2024-01-23 作者：爱上IT 分类：教程技巧阅读：99 评论：0

Meta Platforms推出了新一代人工智能机器人，可以通过观看人类视频来学习执行具有挑战性的感觉运动技能。

该公司的人工智能研究人员开发了两项创新：自适应感觉运动协调（ASC）和视觉皮层（VC-1）i机器人AI。ASC是一个框架，允许机器人从人类执行日常任务的视频中学习，然后根据不同的环境和体现调整他们的动作。

Meta 是另一家专注于 AI 开发的大型科技公司。然而，该公司正在追赶微软，微软是迄今为止占主导地位的主流人工智能玩家，这要归功于它与OpenAI的合作。

无需数据学习的机器人 AI 视觉和运动

这两项发展将使人工智能驱动的机器人无需获取真实世界的数据即可运行。我们经常认为人工智能是一种大脑，但如果它也可以有一个身体呢？具有人工智能学习和生成能力的自主机器人的未来还有一段路要走。然而，如果 2023 年有什么迹象表明，那就是人工智能已经到来，发展正在加速前进。

“VC-1是根据Meta AI和学术合作伙伴创建的新颖Ego4D数据集中人们执行日常任务的视频进行训练的。VC-1 在虚拟环境中的 17 种不同感觉运动任务上匹配或超过了最先进的结果，“Meta 的新闻稿日。

研究人员说，他们的灵感来自人类视觉皮层，这个大脑区域（与运动皮层一起）使生物体能够将视觉转化为运动。根据该团队的说法，他们希望开发一种人工视觉皮层，使机器人能够从人类与现实世界互动的视频中学习，并在虚拟世界中模拟互动。

ASC是一个框架，可以使机器人的动作适应不同的环境和实施方式。它在物理环境中的功能几乎完美。根据博客文章，它在移动机器人复制中的成功率为98%，其中包括向物体移动，捡起它，移动到另一个位置并放置物体。

人工智能的主要挑战之一是，在这两种情况下，它都需要从中学习数据。Meta的研究人员开发了“机器人学习的新方法，使用人类与现实世界互动的视频以及模拟世界中的模拟互动”。

该研究在2023 年学习表征国际会议（ICLR）上发表，并发表在一篇题为“我们在哪里寻找具身智能的人工视觉皮层？

Meta 的研究很重要，因为它在真实世界的图像检测、视觉能力和运动方面取得了突破。计算AI已经可以检测图像中的物体，并充当软件的“看到”模型。微软最近的Azure Cognitive Service for Vision就是一个很好的例子。

适用于视觉的 Azure 认知服务（现已提供预览版）为开发人员提供了用于将视觉组件集成到其应用中的工具。例如，该平台提供图像分析、面部检测、图像标记、文本阅读、使用光学字符识别（OCR）的文本提取和面部识别。

看到人工智能是另一个与Meta的工作目标相似的微软项目。该服务于2017年推出，是现代机器人技术现实世界视觉AI的创新先驱。iOS 应用程序使用计算机视觉为视障用户提供其周围环境和环境的描述。

下载后，用户将iPhone相机对准一个人，让AI接管。该应用程序会说出这个人是谁以及他们当前的情绪。看到人工智能也适用于产品等项目。

同样在2017年，在其年度Build大会上，微软讨论了如何在相机技术中使用AI来使工作场所更安全。视觉 AI 对扫描环境中的危险进行建模并警告用户。这项技术类似于Seeing AI，也可以通过智能手机摄像头运行。

作为 Azure Edge AI 服务的一部分，此相机内模型的工作方式与 Meta 的 AI 类似。一个核心区别是，Meta 正在教其 AI 独立并通过观察现实世界的互动和人类运动来学习。它不需要数据集，这就是为什么它可能是机器人技术的巨大飞跃。

上个月，Meta首席执行官马克·扎克伯格（Mark Zuckerberg）透露，该公司正在将其AI开发团队合并为一个部门。他说，该公司希望“加速”其人工智能发展。元维基从脸书过渡到专注于元宇宙的发展。该公司将增强现实技术视为下一个重大突破。

然而，人工智能主流化已经达到了一个新的水平，Meta是被微软产品（如Bing Chat，Microsoft 365 Copilot和Azure OpenAI Service）打了个措手不及的公司之一。虽然微软已经合法地是一家人工智能公司，但其大型科技公司竞争对手在人工智能开发方面并不成熟。