当前位置:   article > 正文

Agent AI Application Tasks

Agent AI Application Tasks

对于这段文本的理解,主要描述的是一种基于GPT-4V的游戏行为预测与多交互编辑的实体代理,在《我的世界:地牢(Minecraft Dungeons)》游戏中模拟和生成游戏感知。

在这个场景中,研究者们将GPT-4V引入到游戏的动作预测和交互式编辑上。他们这样做的目标是使游戏的体验更加真实。

这里的"GPT-4V"可以理解为是一种强大的人工智能算法,就像是一个超级智能的“棋手”,可以预测玩家的下一步动作,并且进行互动。《我的世界:地牢》则是一款著名的电子游戏,可以想象为这个“棋盘”。

"实体代理"则是一种代表玩家在虚拟游戏世界中行动和交互的角色。类似于控制“棋子”的手,在游戏世界中为玩家提供操作场景。

"游戏感知模拟和生成",则是通过GPT-4V这个“棋手”对游戏环境和动作进行分析,模拟发生事情的可能性,并试图生成最有可能的游戏路径。类似于预测“棋盘”上可能发生的情况,并试图找到最好的走法。

总的来说,研究者们在这项研究中,通过结合GPT-4V和虚拟游戏环境,在游戏行动预测和交互编辑方向上进行研究和尝试,最终完成一种在《我的世界:地牢》游戏中感知生成和模拟的实体代理。

1.1 Agents for Gaming

游戏为测试LLMs(低层次模型)和VLMs(高层次模型)的主体行为提供了一个独特的沙盒环境,这挑战了他们在合作和决策能力方面的界限。研究者们特别描述了三个方面,突出了代理人与人类玩家以及其他代理人的交互能力,以及他们在环境中采取有意义行动的能力。

首先,代理人与人类玩家和其他代理人的互动。这里的"代理人"可以理解为游戏中的人工智能角色,与人类玩家或其他AI角色的互动就像是两个人在棋盘上互相出招,互动的方式和规则都被预设在了游戏之中。

其次,代理人的决策能力。就像下棋的人需要评估每一步的利弊,选择最佳的行动方案一样,代理人的决策能力是衡量其智能程度的重要标准。这不仅需要理解其当前的环境状态,还需要预测可能的未来趋势,甚至需要对其他玩家的行为有一定的预判。

最后,代理人在环境中采取有意义的行动的能力。这意味着,代理人不仅需要做出决策,还需要将决策转化为实际的行动。这种行动不仅需要在当前环境中可行,还需对整个游戏环境产生积极的影响。

总的来说,游戏为研究者们提供了一个理想的平台,不仅可以测试代理人的互动能力,还可以观察他们的决策过程和行动结果,为人工智能领域带来了新的研究视角和方法。

1.1.1 NPC Behavior

在现代游戏系统中,非玩家角色(NPCs)的行为主要由开发人员精心编写的预定义脚本控制。这些脚本包含了基于各种触发器或玩家在游戏环境中的行为所产生的各种反应和互动。然而,这种脚本化的性质往往会导致NPC的行为变得可以预测或者重复,无法根据玩家的行为或游戏的动态环境进行适应性变化。这种刻板性限制了游戏环境的沉浸式体验。因此,人们对于利用大型语言模型(LLMs)来赋予NPC行为自主性和适应性,使互动更加细腻和引人入胜的需求日益增强。由AI驱动的NPC可以学习玩家的行为,适应不同的策略,并提供更具挑战性和不可预见性的游戏体验。

大型语言模型(LLMs)可以大大促进游戏中NPC行为的发展。通过处理大量的文本,LLMs能够学习模式,并生成更多样的、类似人类的反应。可以利用它们来创建动态的对话系统,使得与NPC的互动变得更令人投入,更不可预见。此外,LLMs还可以针对玩家反馈和游戏数据进行训练,不断优化NPC的行为,使其更符合玩家的期望和游戏的动态。

这就好比,NPC是安装了预设程序的机器人,原先无论环境如何变化,都按照预设的程序行动。现在,LLMs就如同给NPC装上了一个能学习和理解环境变化的"大脑",让NPC能够调整行为,显得更加自然,也更有趣。

1.1.2 Human-NPC Interaction

在游戏体验中,人类玩家与非玩家角色(NPC)的互动是至关重要的一部分。传统的互动范式主要是一种单向的互动形式,NPC对玩家的输入采取预设的响应。这种限制阻碍了更自然且丰富的互动潜力的实现,这种互动类似于虚拟领域内的人与人的互动。长短记忆(LLM)和视觉LM(VLM)技术的出现有可能改变这样的范式。通过应用这些技术,游戏系统可以分析并从人类行为中学习,以提供更像人类的互动。这不仅增强了游戏的真实性和参与感,也为探索和理解人机交互提供了一个在受控而复杂的环境下进行的平台。

GPT-4V在给定“动作历史”和“游戏目标”时,可以有效地预测未来的高级动作。此外,GPT-4V能准确识别出玩家正在手中持有木头原料,并能将这些被感知到的信息纳入到未来的动作计划中。尽管GPT-4V看起来能预测一些低级动作(例如按'E'键打开背包),但模型的输出并不固有地适用于预测原生的低级动作(包括鼠标移动),并可能需要额外的模块来进行辅助,以控制低级别的动作。

1.1.3 Agent-based Analysis of Gaming

游戏是日常生活的重要组成部分,据估计,全球一半的人口都参与其中。此外,它对精神健康也有积极影响。然而,现代游戏系统在与人玩家的互动方面存在缺陷,因为他们的行为主要由游戏开发者手动设计。这些预设定的行为常常无法适应玩家的需求。因此,有必要在游戏中使用新的AI系统来分析玩家行为,然后在需要时提供适当的支持。智能互动系统有可能彻底改变玩家与游戏系统的互动方式。NPC(游戏中的非玩家角色)与玩家的互动不再局限于游戏开发者设计的局限性规则。NPC有潜力无缝适应玩家的体验,提供及时的反馈,以丰富游戏体验,提升人机交互的协同效应。

长距离语言模型(LLMs)可以作为分析游戏内文本数据(包括聊天记录、玩家反馈和叙述内容)的强大工具。它们可以帮助识别玩家行为、偏好和互动的模式,这对游戏开发者改进游戏机制和叙述是无价的。此外,视觉语言模型(VLMs)可解析来自游戏会话的大量图像和视频数据,有助于分析游戏世界内用户的意图和行动。而且,LLMs和VLMs可以便于开发能以复杂而类人的方式与玩家和其他智能代理交流的游戏代理,从而提升整体的游戏体验。除了LLMs和VLMs,用户输入数据提供了一个有前景的途径,通过模仿人类玩家对游戏的感知、玩游戏和理解游戏,可以创建扮演游戏角色的代理。通过集成玩家互动和反馈的组合、像素输入以及自然语言计划和理解等方面,代理模型可以协助持续改进游戏动态,推动更以玩家为中心的游戏环境演进。

 

1.1.4 Scene Synthesis for Gaming

场景合成是游戏环境创建和增强的重要组成部分,涵盖了游戏内三维场景和环境的自动生成或半自动生成。这个过程包括地形生成、物体放置、真实光照的创建,甚至包括动态天气系统的生成。

现代游戏通常具有广阔的开放世界环境,手动设计这些景观既耗时又耗资源。自动地形生成技术,常常借助程序化或人工智能驱动的技术,可以减少人工努力,生产出复杂、真实的景观。言语模型(LLMs)和视觉言语模型(VLMs)可以利用互联网的大规模知识,生成规则,设计出既独特又视觉震撼的非重复性景观。此外,LLMs和VLMs还可以确保生成资产的语义一致性和可变性。将建筑、植被和其他元素逼真而富有美感地放置在一个场景中,对于沉浸感至关重要。

LLMs和VLMs在物体放置方面可以帮助,它们遵循预定义或学习的规则和美学,从而加快了关卡设计的流程。经过进一步训练后,这些模型能理解设计和美学的原理,辅助程序化生成内容。它们可以帮助制定规则指南,以便程序算法生成既视觉吸引力又符合上下文的物体和场景。

真实的光照和大气效果对于创建富有吸引力的游戏环境至关重要。先进的算法可以模拟自然光照条件和动态天气效果,提高场景的真实性和情感氛围。LLMs可以帮助以创新方式开发系统,实现更真实的光照和大气效果。VLMs可以分析来自现实世界光照和大气条件的大规模数据集,帮助开发更真实的游戏模拟效果算法。通过理解自然光照和天气的模式和复杂性,这些模型可以为开发更接近现实的算法做出贡献。LLMs和VLMs还可以用于开发基于玩家动作、游戏状态或外部输入实时调整光照和大气效果的系统。它们可以处理来自玩家的自然语言命令,修改游戏环境,提供更互动和沉浸的体验。

1.1.5 Experiments and Results

研究者们使用了GPT-4V模型,用来生成与游戏视频相对应的高级描述和动作预测(如图:GPT4Vgamediog和GPT4Vminecraft)。佳能增强文本开创了一种新的方法,用游戏动作先验生成3D场景,以帮助改善场景的自然性。在这种情况下,GPT-4V能生成与视频游戏相关的适当高级描述。

极简Agent预训练模型

为了展示视觉-语言架构,研究者们首先研究了预训练Minecraft数据中其应用的效果。如图:AMT所示,给定动作Agent、视频关键帧和对应的文本,可以用标准的编码器-解码器将Agent动作和图像转化为动作文本token和图像patch token,然后使用视觉-语言解码器将其转化为预测动作的句子。整体架构如图:AMT所示。他们使用了几个Minecraft演示来评估方法的效果。Minecraft的视频数据包括5分钟的剪辑,预训练所用的包含78K个视频,第一轮预训练使用了5K视频(占预训练数据的6%)。在16个NVIDIA v100 GPUs上训练了一个250M参数的模型一整天,并在图:Unseen和图:Actionperdiction可视化模型输出。图:Unseen显示,相对较小的agent架构可以为训练中未见过的Minecraft场景生成合理的输出。图:Actionperdiction展示了模型预测与人类玩家真实动作的对比,表明我们的小型agent模型对游戏场景有一定的底层理解。多智能体基础设施 研究者们设计了一个新的基础设施,用于一个新的名为"餐饮世界"的游戏场景(如图:AgentParadigm和图:mindagentmodel)。基础设施能够利用GPT-4作为中心计划者,实现多Agent间的协作,并能跨游戏领域工作。他们研究了系统的多智能体规划能力,并将基础设施部署到真实的视频游戏中,以证明其多智能体和人工智能的协作效能。此外,他们还展示了"餐饮世界",这是一个基于文本的多智能体协作基准,提供了一个新的自动度量协作分数(CoS)以量化协作的效率。

1.2 Robotics

机器人是需要与环境有效交互的代表性代理。这个部分,研究者们将介绍对于高效机器人操作至关重要的关键元素,回顾最新的LLM/VLM技术被应用到的研究领域,并分享我们最近的研究成果。

视觉运动控制。视觉运动控制指的是视觉感知和运动行为在机器人系统中的整合,以有效地执行任务。这个整合至关重要,因为它让机器人能够解读来自环境的视觉数据,并相应地调整它们的运动行为,以准确地与环境交互。例如,在装配线上,一个配备有视觉运动控制的机器人可以感知对象的位置和方向,并精确地调整其操作器与这些对象交互。这个能力对于保证机器人在从工业自动化到协助老年人做日常工作等各种应用中的精度和效率至关重要。此外,视觉运动控制可以帮助机器人适应动态环境,这里环境的状态可能会迅速变化,需要根据视觉反馈进行实时的运动行为调整。

此外,在安全操作的场合中,视觉信息对于检测执行错误和确认每个机器人动作的前后条件至关重要。在无法控制的环境中,比如未知的家庭环境,机器人更有可能因为不可预测的因素,比如变化的家具形状、多变的光线和滑动,而面临不预期的结果。在这些情况下,仅仅通过前馈方式执行预计划的动作可能带来明显的风险。因此,使用视觉反馈在每个步骤中持续验证结果,是保证机器人系统的稳健和可靠操作的关键。

基于语言的操作。基于语言的操作意味着机器人系统能够依据语言指令解读和执行任务。这一点对于创建直观的、用户友好的人机交互界面特别重要。通过自然语言命令,用户可以给机器人指定目标和任务,这种方式类似于人与人之间的交流,从而降低了操作机器人系统的难度。在实际场景中,例如,用户可以指示服务机器人从桌子上拿起红苹果,机器人就会解析这个指示,识别所述的对象,并执行拿起它的任务。核心的挑战在于开发鲁棒的自然语言处理和理解算法,能够准确解读各种各样的指示,从直接的命令到更抽象的指示,并让机器人可以将这些指示转化为可行的任务。此外,确保机器人可以将这些指示推广到各种不同的任务和环境,是提高其在现实世界应用中的通用性和实用性的关键。

在被称为任务和运动规划的机器人框架中,使用语言输入来指导机器人任务规划已经引起了人们的关注。

技能优化 最新的研究表明,LLMs在机器人任务规划中的效果显著。然而,有效的执行任务,特别是那些涉及到物理交互的任务,比如抓握,需要对环境有深度的理解,而这超过了单纯的解读人类指示的范围。例如,机器人抓取需要精确的接触点和手臂姿势,以便高效执行后续动作。而这些元素——精确的接触点和手臂姿势——对人来说是直观的,但通过语言描述它们却是有挑战性的。尽管在互联网规模的VLMs方面取得了进展,但从场景中捕捉这些微妙的间接线索,并有效地将它们转化为机器人技能,仍然是一个重要的挑战。为了应对这个挑战,机器人学社区越来越多地集中在收集增强数据集,或者从人类示范中直接获取技能的方法论的开发上。这些包括从示范学习和仿真学习的框架,它们在优化物理技能中起着关键的作用。

1.2.1 LLM/VLM Agent for Robotics.

近期的研究表明,涉及机器人与环境中的人类互动的LLM/VLM有巨大的潜力。试图利用最新LLM/VLM技术的研究主题包括:

多模态系统:近期的研究热点在于开发将最新的LLM和VLM技术作为输入信息编码器的端到端系统。特别的,修改这些基础模型以处理多模态信息的趋势非常明显。这种改适旨在基于语言指令和视觉线索引导机器人行动,从而实现有效的实体化。

任务规划和技能训练:与端到端系统相反,任务和动作规划(TAMP)基础系统首先计算高层次的任务计划,然后使用被称为技能的低层次机器人控制来实现它们。LLM的先进语言处理能力已经证明了能够解释指令并将其分解为机器人的行动步骤的能力,极大地推进了任务规划技术。在技能训练方面,有一些研究探索了将LLM/VLM用于设计奖励功能,生成数据以促进政策学习,或作为奖励函数的一部分。这些努力将促进高效机器人控制器的开发。

现场优化:在机器人领域执行长期任务步骤可能会非常困难,因为环境条件可能会出现意外和不可预测的情况。因此,在机器人领域的一个重大挑战涉及通过将任务计划与实时环境数据集成,动态地调整和优化机器人技能。例如,有一种方法提出了计算行动(即,便利性)的可行性的方法,并将其与已计划的任务进行比较。此外,也有一些方法专注于使LLM能够输出任务计划的前提条件和后续情况(例如,对象的状态和它们之间的关系),以优化任务步骤的执行,和检测预设条件错误,从而对任务计划进行必要的修订。这些策略试图通过整合环境信息以及调整任务计划或控制器水平的机器人行动来实现环境基础的机器人实施。

交谈代理:在创建对话机器人时,LLM可以为机器人与人类的自然、环境敏感的互动做出贡献。这些模型处理和生成仿照人类对话的回应,使机器人能够参与有意义的对话。此外,LLM在估计概念和情感特性的表述方面发挥着重要的作用。这些属性有助于理解人类意图和产生有意义的姿势,因此有助于提高人机交流的自然度和有效性。

导航代理:机器人导航有着悠久的研究历史,主要关注诸如基于地图的路径规划和同时定位和绘图(SLAM)等核心研究,以用于创建环境地图。这些功能已经成为ROS等广泛使用的机器人中间件的标准功能。然而,尽管经典的导航技术在许多机器人应用中仍然普遍存在,但是它们通常依赖于静态或预创建的地图。最近,人们越来越感兴趣的是能够使机器人在更具挑战性的环境中导航的先进技术,这些环境利用了计算机视觉和自然语言处理等领域的突破性成果。一个代表性的任务是对象导航,其中机器人使用对象名称进行导航,而不是地图坐标,这需要对环境中的对象名称进行视觉基础定位。此外,最近还关注了利用视觉语言导航(VLN)技术引导机器人在完全陌生的新环境中进行即时导航的技术,这被称为零射击对象导航。此外,视觉语言导航(VLN)是一项典型的任务,任务涉及到在以前未见过的实际环境中通过自然语言指令导航代理。VLN解读句子而非对象名称,如"去你左边的浴室",因此需要一个更高功能的解析输入文本。基础模型的出现有助于通过增强对人类语言指令的理解以及环境信息的视觉解释来发展这种适应性的、即时的导航技术。更详细的代表性VLN研究说明将在导航中给出。

1.2.2 Experiments and Results.

研究者们提出了一个集成了ChatGPT的机器人教学系统,目标是通过多模态输入实现更有效和精准的执行任务计划。该系统包括两个步骤:任务计划和演示。在任务计划环节,用户使用任务计划器来创建一个动作序列,并可通过反馈进行相应调整;然后,在演示环节,用户通过视觉方式演示动作序列,以提供机器人运行所需的信息。然后,视觉系统收集这些会在机器人执行时使用的视觉参数。

尽管最近的VLMs和LLMs在符号任务计划方面表现出了潜力,但每个任务都需要低级的控制策略,如何通过强化学习和模仿学习等数据驱动的方式进行策略学习尚待探索。两者均需要人在现场直接演示以便机器人获取策略。这种方法称为Learning-from-Observation。系统将语言指令和工作环境的描述输入到ChatGPT,它会生成一个任务序列和相应的文本描述。我们使用少量示例的方式,这意味着并没有针对此任务训练ChatGPT,从而在适用性上具有一定的优势,因为它消除了对硬件相关的数据收集和模型训练的需要。此外,结果中的文本描述使用户能够检查和调整结果,这对于确保操作的安全性和稳健性至关重要。

当然,任务计划员可以保证任务序列的连贯性,但在现实中成功操作则需要详细的参数。例如,握取类型对于避免倾倒箱子中的内容至关重要,此类参数往往在仿真器中被忽视。因此,在我们的机器人系统中,用户需要视觉地演示每个动作,任务上预定义了执行所必需的参数,我们的视觉系统从视频中提取出这些参数。需要明确的我,我们的机器人系统并非设计用来精确复制人类的动作,而是为了应对真实世界条件的变化,如物体位置的变化。因此,从人类演示中提取的参数并不包括精确的运动路径,而包括指导环境运动的可供性信息、用于避免碰撞的路径点、握取类型和上肢姿势。

同时,研究者们还将GPT-4V的任务计划器扩展到实现多模输入语境下的机器人系统。在这个概念示例中,用户会执行需要机器人复制的动作。系统获取演示视频和文本,然后输出一系列机器人动作。视觉分析器旨在理解视频中人类执行的动作。我们使用GPT-4V并提供一个提示,以生成典型的人对人交流风格的文本指令。然后,场景分析器将预期的工作环境编译成文本信息,这些信息包括由GPT-4V识别的物体名称列表、对象的可抓取属性以及对象之间的空间关系。我们用一个提示告诉GPT-4V解释对象选择过程的结果以及这些选择背后的理由。实践中,我们发现这种方法产生了合理的输出。最后,基于给定的文本指令和环境信息,任务计划器输出一系列任务。

此外,研究者们也探索了视觉语言导航(VLN)的问题,即在真实3D环境中,导航一个具象代理以执行自然语言指令。研究者们提出了一个新的增强跨模态匹配方法。这种方法通过强化学习在本地和全局强化跨模态基础上,例如,通过使用匹配批评家来提供内在奖励鼓励指令与轨迹的全局匹配,并通过使用推理导航器在本地视觉场景中执行跨模态基础。在VLN基准数据集的评估中,我们的RCM模型明显优于以前的方法,并在SPL上提高了10分,实现了新的最佳性能。通过自我监督模仿学习的方法,可以更好地探索未见到的环境,这将成功率性能在看到的环境和未见到的环境之间的差距尽可能地缩小从30.7到11.7。同时,我们首次提出探索用于VLN任务的未接触环境。

1.3 Healthcare

在医疗领域,语言模型(LLM)和视觉语言模型(VLM)可以充当诊断代理、病人护理助手,甚至是治疗辅助工具,然而这些工具在具备潜在的优势的同时,也带来了独特的挑战和责任。随着AI代理在改善病人护理和挽救生命上的巨大潜力,其误用或仓促部署的风险也随之显现,可能会危及全球数以千万计的人。研究者们在医疗背景下讨论了AI代理的一些有前景的应用路径,同时也分析了面临的主要挑战。

诊断代理。近期,由于医疗专家的高需求,以及LLM帮助分诊和诊断病人的潜力,利用LLM作为病人诊断的医疗聊天机器人受到了大量关注。能有效传达重要医疗信息给来自各种病人群体的对话代理,有可能为历史上处于劣势或被边缘化的群体提供公平的医疗服务。此外,全球的医生和医疗系统在很大程度上都承受着过重的工作负担,而资源却不足,导致全球数亿人无法获得足够的医疗照顾。诊断代理为百万人提供了改善医疗照顾的优势途径,因为它们可以建立起理解各种语言、文化和健康状况的能力。初步结果表明,利用大规模网络数据进行训练可以使得医疗知识丰富的LMM得以实现。尽管这是一个令人兴奋的方向,但诊断代理的希望并非没有风险。研究者们在以下部分中突出了在医疗语境中的错误混淆风险,以及可能的解决路径。

知识检索代理。在医疗背景下,模型的错误混淆特别危险,可能会导致病人严重受伤或甚至死亡,具体取决于错误的严重程度。例如,如果一个病人错收到一个诊断,暗示他们没有他们实际上患有的情况,这可能导致灾难性的结果。如,延误或不适当的治疗,或在某些情况下,完全缺乏必要的医疗干预。未被诊断或误诊的疾病可能导致医疗费用增加,治疗期延长引发进一步的身体负担,并在极端情况下,造成严重的伤害甚至死亡。因此,能利用代理更可靠地检索知识或以检索为基础生成文本的方法,是有前景的方向。将诊断代理与医疗知识检索代理配对有可能显著减少错误混淆,同时提高诊断对话代理的回应质量和准确性。

远程医学和远程监测。基于AI的代理在远程医疗和远程监控领域也有巨大的潜力,可以提高医疗服务的可获得性,改善医疗服务提供者和患者之间的沟通,同时提高医生和病人频繁互动的效率,降低成本。基础护理医师花费大量的时间来筛选病人的消息、报告和电子邮件,这些大多数对他们来说是无关紧要或不必要的。为护理代理开启筛选医生、病人和其他医疗服务提供者的信息,并突出重要消息的潜力是存在的。通过赋予AI系统与患者、临床医生和其他AI代理的协作能力,有巨大潜力来革新远程医疗和数字健康行业。

Current Healthcare Capabilities

在健康和医疗影像理解领域,当使用像GPT-4V这样的多模态智能体,如图fig:gpt4v-medical-image所示,研究者们进行了一些用例和响应示例。首先,研究者们展示了一个护士和医生正在进行CT扫描的图像,其次,一个合成的不规则的EKG扫描图像,以及一个来自ISIC isic肤病图像数据集的图像。从这些例子中可以看出,GPT-4V具备了不少医疗知识,能够对医疗图片进行合理推理。然而,由于安全性培训的原因,对于某些医疗图像,GPT-4V无法做出诊断。

在健康和医疗视频理解领域,对于GPT-4V这样的多模态智能体,如图fig:healthcare_videos所示,研究者们提供了一些例子和响应。研究者们将需要分析的视频以2x2的网格布局并有字幕标注帧顺序。在前两个例子中,研究者们引导GPT-4V观察视频中的帧来检测志愿者患者接受的临床病床活动。对于最后一个例子,研究者们尝试引导GPT-4V评估心脏超声波视频,但由于GPT-4V的安全训练,它没有提供详细的反馈。为了保证清晰度,研究者们用粗体表示感兴趣的活动,并简化不必要的模型反馈。同时,他们对个体的脸部进行了灰度处理以保护他们的隐私。

总的来说,虽然这些多模态智能体如GPT-4V在识别医疗设备和流程方面具有高显著度的内部知识,但对于用户更具指导性或诊断性的查询,它并不总是回应。而且,尽管在医疗视频理解上具备了一定的能力,比如识别临床环境中的重要患者护理活动,或者分析更技术性的视频如超声图像,但仍然存在一定的局限性。

 

1.4 Multimodal Agents

多模态代理主要包括四大支柱:交互、语音、视觉和语言。这四个部分可以类比成人类的四种基础能力,交互代表着自主决策,彷如大脑的决策中心;语音则可比作听觉和口语表达能力;视觉好似人的眼睛,有识别和分析图像、视屏和数字墨迹的功能;而语言则代表理解和抽象出来的含义,类似人的语言理解和文字表达能力。

复杂的多模态AI代理的开发,其关键在于视觉和语言理解的整合。这其中包括了像图像字幕、视觉问题答案、视频语言生成和视频理解等任务。就好比我们人类在拿到一幅画或者一段视频时,能够通过观察理解其代表的含义,甚至做出回答。

这些任务可以看作是挑战和机会并存的领域,在AI代理的语境中,科技主编们则将这些视为未来的发展方向和探索空间。

1.4.1 Image-Language Understanding and Generation

图像语言理解是一项涉及对给定图像中的视觉内容进行解释,并生成相关语言描述的任务。这项任务对于开发能以更人性化的方式与世界互动的AI代理至关重要。一些最受欢迎的任务包括图像标注(如 mscoco、conceptual-caption、flckr30、krishnavisualgenome等),指代表达(如 yu2016modeling、karpathy2014deep等)以及视觉问题回答(如 antol2015vqa、ren2015exploring、singh2019towards等)。

最近,研究者们引入了一些更加知识密集的视觉问题回答任务,例如 OKVQA (marino2019ok)、KB-VQA (wang2015explicit)、FVQA (wang2017fvqa) 以及 WebQA (chang2021webqa)。多模态代理应具备识别图像中物体、理解它们的空间关系、生成关于场景的准确描述句子,并使用推理技巧处理知识密集视觉推理的能力。这不仅需要物体识别能力,还需要对空间关系、视觉语义的深入理解,以及将这些视觉元素映射到语言结构并整合世界知识的能力。

类比地,这就好像是要求一个人不但要能认识物体,还要能准确描述物体之间的关系,理解它们在整个场景中的意义,甚至可以根据已有的知识对物体进行深入的推理。

1.4.2 Video and Language Understanding and Generation

视频-语言生成. 在一系列视频帧中生成连贯的句子序列的任务被称为视频字幕或视频讲述。受到在视频和语言任务中大型基础模型的成功运用启发,一些派生的、由代理驱动的强化模型在视频-语言生成任务上显示出了有前景的结果。但是,神经编码-解码模型表现强劲的的挑战在视频讲述中并没有得到良好的推广,因为这项任务需要对每幅图片的内容以及不同帧之间的关系有全面理解。这个领域的一项重要目标就是创建一个能够有效地编码帧序列并生成主题连贯的多句段落的代理感知文本合成模型。

视频理解. 视频理解将图像理解的范围扩展到动态视觉内容,涉及对视频序列的解释和推理,同时常常与伴随的音频或文本信息结合。代理应该能够与视觉、文本,以及音频多模态交互,以展示他们对视频内容的深度理解。此领域任务包括视频字幕,视频问题回答,和活动识别等等。视频理解的前沿领域则包括视觉和语言内容的时间对齐,处理长的帧序列,以及解释随着时间展开的复杂活动等。关于音频方面,代理可以处理语音,背景噪音,音乐,以及声音的音调,通过这些来理解视频内容的情绪,环境,以及微妙之处。

之前的研究主要集中在使用在线现有的视频-语言训练数据来创建视频基础模型,如li2020hero,li2021value,fu2022violet,bain2021frozen,zellers2021merlot,zellers2022merlot,fu2023empirical。然而,这样的训练流程和功能支持由于数据集的有限性和通常的不一致性,变得十分困难。视频基础模型设计为具有屏蔽和对比性的预训练目标,并在各自的任务上进行调优。尽管在多模态基准上显示出了显著的结果,但这些模型在仅依赖视频任务如动作识别上遇到了困难,因为它们依赖于从噪声音频转录生成的有限的视频-文本数据。这个限制也导致了大语言模型可能拥有的强大和细腻的推理技能的缺失。

其他方法借鉴大型语言模型强大的推理技能和广阔的知识,来改善视频解释的不同方面。视频理解的任务通过只需要语言的模型如ChatGPT和GPT4或需要图像-语言模型GPT4-V来简化,这些模型将音频,视频,和语言模态视为单独可以解析的输入数据类型,将代理定位为强大的开源模型。例如,dolphin,2023videochat将视频理解转化为自然语言处理(NLP)问题回答的形式,通过开源的视觉分类/侦测/字幕模型对视频内容进行文本化。lin2023mmvid将GPT4-V和视觉,音频,和语音的专业工具整合,以帮助复杂的视频理解任务,如在长视频中编排角色的动作和活动。

同时进行的研究考察了从大型模型生成的大小数据集,然后将视觉指令调整liu2023llava,li2023blip,zhu2023minigpt4应用于生成的数据。考虑到音频、语音、和视觉专家感知模型随后被用来语言化视频。语音被自动语音识别工具转录,并且使用各种标签,定位,和字幕模型,生成视频描述和相关数据2023videochat,maaz2023videochatgpt,chen2023videollm,wang2023internvid。这些技巧展示了如何在生成的数据集上对指令调整视频-语言模型,可能导致增强视频推理和沟通能力。

1.4.3 Experiments and Results

知识强化模型:正如INK模型(Intensive Neural Knowledge)和KAT模型(Knowledge Augmented Transformer)在park2022ink和gui2022kat中所介绍,这是一项需要人类注释所需知识进行支持的知识强化检索任务。

多模态代理:如lu2023chameleon和yang2023mmreact所示,对多模态语言模型(如Chameleon和MM-React)的兴趣正在逐渐增长。

视觉指导调整:VCL gui2022vlc、Mini-GPT4 zhu2023minigpt4、MPLUG-OWL ye2023mplugowl和LSKD park2023localized都可以生成图像级别的指导调整数据集。

示例展示了INK任务是如何利用知识从一组文本候选者中识别出与图像相关的文本的。我们的任务就是利用从网页上以及人类注释的知识中捕获的视觉和文本知识。

知识强化代理:如图fig:INK-knowledge和fig:KATframework所示,基于视觉的问题回答和视觉-语言检索任务是多模态机器学习中具有挑战性的任务,它们需要去除图像内容以外的知识。最近对大规模变压器的研究主要集中在最大限度地提高模型参数存储信息的效率上。这一研究方向探讨了不同的问题:多模态变压器是否可以在其决策过程中使用显式知识。基于变压器的预训练方法已经在隐式地学习跨多种模态的知识表示方面取得了显著的成功。然而,传统的主要是单模态的方法已经研究了知识检索和接下来的答案预测,这使人们对检索出的知识的质量和相关性以及使用隐式和显式知识进行推理的过程的整合产生了疑问。为了解决这些问题,我们引入了知识增强变压器(KAT)。在查询模态开放领域任务中,KAT是采用了编码器-解码器结构的模型,它打败了其他所有的模型,使得精度提高了6。KAT将来自GPT3的隐式知识与来自网站的显式知识相结合,并在答案生成过程中同时推理这两种知识类型。此外,引入显式知识可以增强模型预测的可解释性。

 

视觉-语言变压器代理:接下来,我们将介绍VLC模型(Vision-Language Transformer)gui2022vlc,这是一个完全只使用图像-标题对进行预训练的变压器模型。尽管VLC只使用一个简单的线性投影层进行图像嵌入,但是,对于各种视觉-语言任务,它的表现和其他依赖于对象检测器或有监督的CNN/ViT网络的方法一样出色。通过大量的分析,我们探讨了VLC作为视觉-语言变压器代理的潜力。例如,我们展示了VLC的视觉表征对于ImageNet-1K分类任务非常有效,我们的可视化结果证实了VLC可以准确地将图像块匹配到相应的文本记号。性能随训练数据量的增加而扩展的可能性,突显了开发大规模、弱监督、开放领域视觉-语言模型的潜力。

1.5 Video-language Experiments

为了理解预训练图像语言模型(InstructBLIP)应用于视频理解的实用性,研究者们对其进行了拓展和微调,以实现视频字幕生成。更具体地说,他们扩展了InstructBLIP的视觉编码器,使用了与"冻结的时光"相同的分割时空注意力方案,以及在训练中固化了Q-former和LLM (Flan-T5-XL) 。研究者们在字幕生成训练时,固定了视觉编码器的所有空间层,同时保持时间层处于未冻结状态,使得模型能够接受图片和视频作为输入,从而实现与InstructBLIP在图片级别的性能匹配。该模型在WebVid10M的500万部视频字幕子集上进行培训。

然而,现有的模型无法完全理解视频内容中精确、细微的视觉细节。视觉指令调整方法也存在类似的限制,它们缺乏人类水平的通用知觉能力,这仍然需要通过多模态模型和智能体来解决。尽管指令调谐模型成功地摘录了视频中的行动,并有效地识别出如"人坐在长凳上"的行动,但他们有时会添加错误的细节,比如"人向摄像头微笑",这显示出尚未抓住对话话题或视频氛围的细微之处,这些元素对人类观察者来说是显而易见的。这种不足突显出另一项关键的限制:模型省略了丰富视觉理解的音频和语音模态,更准确的解释和防止误解需要整合所有可用模态,使多模态智能体接近人类的感知水平,确保实现全方位的视频解释。

之后,研究者们使用GPT-4V作为一个能整合视觉、音频和语音的多模态智能体来准确和详细地理解视频。他们发现,仅有视觉模态的视频总结可能会产生虚构的事件,例如,在没有音频输入的情况下,智能体误以为人正在咬棍子。然而,当我们对智能体提供音频转写时,智能体就能准确刻画内容,都能捕获详细的物理动作,如"将扫帚垂直于身体并向下旋转"。这种详细程度明显更具信息性,让观众更清楚地了解视频的目的和关键细节。这些发现凸显了整合音频、视频和语言交互以开发高质量多模态智能体的重要性。幸运的是,GPT-4V正是这种先进的多模态理解和交互的有力基础。

最后,研究者们使用了名为GPT-4V的机器人,该机器人拥有堆栈的视听模态,并能从堆栈中获取初始问题,随后利用Bing搜索API检索与问题相关的视频和音频,然后主要使用GPT-4V获取相关的文本信息和高级视频描述。另一方面,他们通过ASR将关键帧音频转化为关键帧的低级分段描述。最后,使用GPT-4V生成令人信服的"错觉",作为视频问题和回答任务的艰难负面查询。他们在推理过程中,还结合了通过网络搜索获得的外部知识信息,以提高问题回答能力。

1.6 Agent for NLP

1.6.1 LLM agent

在人工智能和自然语言处理的交互中,识别任务指令并采取动作一直是一个根本性的挑战,存在于这个领域几十年的时间。然而,随着深度学习的最新发展,学者们对于联合研究这些区域以改善人机协作的兴趣越来越浓厚。研究者们提出了三个特定的方向,以改善与语言相结合的AI代理:

  1. 1. 利用工具和从知识库中查询。 这个方向强调的是将外部知识库、网络搜索或其他有用工具整合到AI代理的推理过程中的重要性。通过利用各种来源的结构化和非结构化的数据,AI代理可以增强它们的理解,并且提供更精确和具有上下文意识的应答。此外,当面临陌生情况或者查询时,这还可以提升AI代理主动寻找信息的能力,从而确保应对从而确保应对能更全面和深入。例如Toolformer(schick2023toolformer)和Retrieve What You Need(wang2023retrieve)就是典型的实例。

  2. 2. 提高AI代理的推理和规划能力。 增强AI代理的推理和规划能力对于有效的人机协作至关重要。这涉及到开发能够理解复杂指令、推断用户意图,并预测未来可能的场景的模型。这可以通过让AI代理反思过去的行动和失败,如ReAct(yao2023react)所做的,或者像yao2023tree那样将AI代理的思维过程框架化为搜索的形式。通过模拟不同的结果和评估各种行动的后果,AI代理能做出更有见地、更具有上下文意义的决定。

  3. 3. 综合系统反馈和人类反馈。 AI代理通常在两类主要的环境中操作:一种是能提供关于它们行为效果的明确信号的系统反馈环境,另一种是他们可以与可以提供口头批评的人类进行协作的环境。这个方向强调的是需要适应性的学习机制,它们可以让AI代理完善其策略并纠正错误,比如AutoGen(wu2023autogen)所做的。能够从各种反馈源不断学习和适应,确保AI代理能始终对用户的需求保持有用且一致。

1.6.2 General LLM agent

在过去的几十年里,识别和理解代理内容与自然语言一直是交互式人工智能和自然语言处理的基本挑战。随着深度学习的最近进步,人们越来越关注同时研究这两个领域,以深入理解代理规划或人类反馈对知识推理和自然语言生成的影响。这两个部分是许多人机交互代理的关键组成部分,如AutoGen"wu2023autogen和Retrieve What You Need"wang2023retrieve。

从第一性原理出发,研究者们通过深度学习这个强大的工具,深入挖掘代理规划、人机交互反馈、自然语言理解与生成等复杂问题的内在联系和规律。这就好比研究者们手中拿着一把精巧的钥匙,打开了了解人类和机器之间高效交互的大门。

代理规划和人类反馈可以帮助理解知识推理的过程。比方说,一名商店的店员(代理)需要理解顾客的需求(人类反馈),并根据库存(知识库)提供相应的商品推荐。而这个过程就类似于知识推理的过程。

自然语言生成则是这个过程的延伸和输出。如同店员需要以清晰易懂的语言将商品推荐传达给顾客,人工智能系统也需要以自然、流畅的语言呈现其推理结果,才能更好地实现人机交互。

这些元素都被运用在AutoGen和Retrieve What You Need等人机交互系统中,以提高系统的交互效率和用户体验。

总的来说,当前的研究关注于如何联合利用深度学习,以实现更深入的理解代理规划或人类反馈对知识推理和自然语言生成的影响,从而推动人工智能和人类交互的发展。

1.6.3 Instruction-following LLM agents

在人工智能研究中,创建能有效遵循人类指示的语言模型代理(Language Model Agents,简称LLM代理)已成为一个重要的研究领域。早期模型采用人类反馈训练代理奖励模型以模拟人类偏好,该过程被称为基于人类反馈的强化学习(Reinforcement Learning with Human Feedback,简称RLHF)[1]。

此过程产生了像InstructGPT和ChatGPT这样的模型。为了能更高效地训练指示遵循的LLM代理,而无需人力标记,研究者们开发了一种更有效的指示调谐方法,直接基于指示/响应对训练LLM代理。这些对可以由人类产生,如Dolly 2.0[2],也可以由LLM自动生成,如Alpaca[3]。

研究者们大致展示了Alpaca训练流程图。简单来说,现有的LLM用于从少量种子任务生成大量的遵循指示的示例,然后将生成的遵循指示示例用于调节具有底层模型权重的LLM。

研究者们还整合了逻辑推理模块到基于Transformer的抽象概括模型中,以使逻辑智能代理具备了逻辑推理能力,可以通过自由文本和对话逻辑进行推理,从而能产生更好的抽象概括并减少事实性错误。

1.6.4 Experiments and Results

在日益广泛使用的对话反馈系统中,这种 AI 形式对于从自身的隐性知识生成事实性正确的响应的性能还不足,因此它们在推理时常常借助诸如网页搜索和知识检索机制的外部工具来增强其响应。应对这一问题将有助于在许多实际应用中为用户创造更多引人入胜的体验。在社交对话中(如 Instagram 和 Facebook 等社交媒体平台上的对话),或者在问答网站上(如 Ask 或 Quora),人们通常通过一系列评论和网页搜索与他人进行交互,并搜索与讨论相关的信息和知识。因此,在这种环境下生成对话交换的任务并非仅仅基于传统的 NLP 模型和任务,而是需要用智能体通过反映知识搜索和获取的智能行为来生成对话。这种方式的智能 NLP 任务智能体扩展了任务描述,并通过在对话过程中增加一个明确的知识搜索和检索步骤,提高了响应的可解释性。将这些网页搜索和检索智能体作为对话过程中的反馈,将有助于进一步增强人与智能体之间的社交互动。

研究者们在论文 wang2023logical 中提出了一种新颖的模型,这种模型对变换器语言模型提出了新的建模范式,它可以检测和提取输入文本中的重要逻辑结构和信息,然后通过精心设计的多层次逻辑映射,将这些信息整合到输入嵌入中,从而将逻辑结构融入到预训练的语言模型中,作为一种 NLP 智能体。然后他们开发出一种新的建模范式,可以将所有现有的变换器语言模型升级为逻辑变换器,以持续提升他们的性能。这种逻辑变换器智能体通过对文本逻辑结构的更深入理解,始终在其基线变换器模型上获得超越的性能。

对于人类用户来说,通过智能主体对话和信息检索的协调,使对话更有意义和有趣的方面往往更为重要。

在深入研究自然语言处理的过程中,这个话题将探讨如何使语言模型(LoLM)智能体,使其更适合进行各种语言中心任务。

开放领域的问题回答(QA)系统通常遵循"先检索后阅读"的模式,即使用检索器从大型语料库中检索相关文章,然后生成器根据检索到的文章和原始问题生成答案。在wang2023retrieve中,我们提出了一个简单而新颖的相互学习框架,通过引入中间模块——知识选择器智能体,并使用强化学习进行训练,以此改进"先检索后阅读"式模型的性能。知识选择器的目标是构建一个包含与问题相关信息的小型文章子集。如Figurefig:TACLknowledge 所示,知识选择器智能体作为我们新颖的相互学习框架的一个组成部分接受训练,该框架交替训练知识选择器和阅读器。我们采用了一种新颖的策略,使用策略梯度来优化知识选择器智能体,通过反馈阅读器来进行训练,以选择一个小而有用的文章集。这种方法避免了蛮力搜索或人工设计的启发式方法,无需任何标注的查询-文档对数据进行训练。我们发现,迭代训练阅读器和知识选择器智能体可以在某些公开的开放领域问题回答基准上得到更好的预测性能。

在如下的框架结构图中,每个周期内,执行阶段1与阶段2互为交替。在阶段1期间,阅读模型的参数保持不变,只更新知识选择器的权重。相反,阶段2期间,调整阅读模型的参数,而知识选择器的权重保持不变。

Agent Dataset and Leaderboard

为了推动这一领域的研究,研究者们分别提出了多代理游戏和能动视觉语言任务的两项基准。他们将发布两个新的数据集 - "CuisineWorld"和"VideoAnalytica",以及一套基线模型,鼓励参与者探索新的模型和系统,并提交其在排行榜测试集的结果。

譬如,我们可以将“多代理游戏”比作一个家庭里的成员,每个人都有不同的角色和任务,他们需要通过互动和合作达成共同目标。这与多代理系统在複杂环境中的行为非常相似。

而“能动视觉语言任务”则可以理解为,像看电视新闻那样,观众可以通过观看视觉元素和听取语言描述,来理解正在发生的事件。能动视觉语言任务便是让计算机模型学会这样的能力,识别视觉元素并理解其含义。

数据集"CuisineWorld"和"VideoAnalytica",则类似于研究者们为这两类任务份别准备的“试卷”或“练习册”。这些数据集包含了丰富的情境和问题,用以测试和训练新的模型和系统。

研究者们也提供了一套基线模型,这就像是一位资深的教师,为参与者们提供了一套已经验证过的解题方法。参与者们可以从这些基线模型学习,也可以尝试开发出超越它们的新模型和系统。

最后,参与者们的成果可以被提交到一个排行榜,也就是“试卷”的批改系统。通过这个系统,参与者们可以看到他们的模型和系统在各类任务上的表现,并与其他参与者比较。

Appendix

研究者们正在审视AI代理模型在各种领域的适应性,本质上展现了各种排行榜、观点和解决方案的多样性。在此背景下,他们的项目旨在通过探索多模态和智能AI的广泛主题来建构一个多元化的社群。

考虑到这些原则,项目专注于研究能够在实体及虚拟环境中有效交互,并促进人与机器的有效沟通的先进多模态系统。因此,他们打算邀请一批技术专业人员,来自各种文化、国家、学术领域的专家和实践者,讨论包括但不限于以下重要主题:

  1. 1. 基础模型的应用:开发具有集成模式(音频,图像,文本,传感器输入)的代理人,旨在提高其对各种应用的识别和响应能力。

  2. 2. 通用的端到端系统:开发训练大量数据的端到端模型,寻求创建灵活和可适应的AI解决方案。

  3. 3. 为模式建立基础的方法:整合各种模式的信息,提高数据处理的一致性和有效性。

  4. 4. 直观的人机界面:开发有效且有意义的人机交互。

  5. 5. 驯服LLM/VLMs:探索应对大规模模型常见问题的新方法,如他们的输出中的幻觉和偏见。

他们希望通过利用自身独特且多元的视角,进一步拓宽对智能AI潜力和限制的集体理解。他们坚信,这种方式不仅可以丰富各自的视野,还能提升社区的集体知识,促进对于多模态AI代理面临的广泛排行榜的更多元、更全面的理解。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/神奇cpp/article/detail/916326
推荐阅读
相关标签
  

闽ICP备14008679号