知识增强型代理在互动文本游戏中的应用-平芜编程栈

原文：towardsdatascience.com/knowledge-enhanced-agents-for-interactive-text-games-359e57da5de3?source=collection_archive---------17-----------------------#2024-01-10

用知识增强型 AI 代理革命化互动文本游戏

https://medium.com/@prateekchhikara?source=post_page---byline--359e57da5de3--------------------------------https://towardsdatascience.com/?source=post_page---byline--359e57da5de3-------------------------------- Prateek Chhikara

·发表于Towards Data Science ·阅读时长 12 分钟·2024 年 1 月 10 日

–

简介：

通过自然语言进行交流对机器智能至关重要[9]。计算语言模型（LM）的最新进展使得在有限交互的任务上，如问答和程序化文本理解，取得了显著的性能[10]。认识到互动性是交流的一个关键方面，研究界将目光投向了在互动小说（IF）环境中训练和评估代理，比如基于文本的游戏，这为研究语言模型的推理能力以及人工智能（AI）代理在受限环境中执行多步骤现实任务的潜力提供了独特的测试平台。例如，在图 1 中，代理需要在客厅采摘水果，并将其放入厨房的蓝色盒子中。在这些游戏中，代理通过基于文本的输入在复杂环境中进行导航，这要求 AI 代理对自然语言和战略决策做出深刻理解。要在这些游戏中取得成功，代理必须管理其知识、推理并生成基于语言的行动，从而在游戏世界中产生预期且可预测的变化。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/719f0bb5fb40ca659de1eea76ddf22ac.png

图 1. 互动小说（IF）游戏的示意图，其中一个代理需要完成采摘水果（例如苹果）并将其放入厨房的蓝色盒子中的任务。

背景与动机：

先前的研究表明，基于强化学习和语言模型的代理在 IF 环境中推理或解释科学概念时存在困难[1]，这引发了关于这些模型是否能够在训练过程中观察到的情境之外的未知情境中进行泛化的问题[2]。例如，虽然像‘获取已知物质的熔点（或沸点）’这样的任务可能相对简单，但‘在特定环境中确定未知物质的熔点（或沸点）’对这些模型来说却可能具有挑战性。为了提高泛化能力，结合世界知识（例如，关于物体的可用性知识）可能是有效的，但迄今为止没有相关研究探索这一方向。此外，现有模型在从环境反馈中有效学习方面仍然存在困难。例如，在检查特定物质的导电性时，代理必须理解它已经获得了必要的电线和特定物质，才能继续寻找电源。因此，亟需一个框架，能够分析和评估不同类型的知识及其注入方法对基于文本的游戏代理的有效性。

我们的论文《增强知识的交互式文本游戏代理》提出了一种新颖的框架，旨在提升 AI 代理在这些 IF 环境中的表现。

已发布版本：dl.acm.org/doi/10.1145/3587259.3627561

我们很高兴地宣布，我们的论文在 KCAP 2023 会议上获得了最佳学生论文奖，这是我们团队创新研究和奉献精神的体现。🏆🏆🏆

核心创新——知识注入框架：

我们的工作提出了一个独特的框架，旨在增强 AI 代理的特定知识。该框架包含两个关键组件：

正确行为的记忆 (MCA):该特性使得 AI 代理能够记住并利用过去的正确行为。通过保持对过去有效行为的记忆，代理可以制定更有效的策略，避免重复犯错。MCA 由环境反馈决定。如果一个行为获得了奖励，那么它就被认为是正确的。因此，正确的行为不能一开始就直接提供给代理，而是随着代理在（训练/测试时间）回合的进行，逐步存储到记忆中。
可用性知识 (Aff):理解游戏世界中与物体的潜在互动至关重要。我们期望可用性能够通过列出与周围物体的可能互动，帮助模型更好地学习。与历史知识不同，环境并不提供这些可用性信息，而是需要从外部资源中获取。为此，我们使用 ConceptNet，并获取其关于给定 IF 游戏回合中物体的capableOf和usedFor关系。

我们在两种 AI 代理架构中实现了该框架：

通过奖励的在线策略优化 (RL 方法)
单步离线预测（LM 方法）

1. 在线策略优化通过奖励（RL 方法）

纯 RL 基础模型 —DRRN3

基线 DRRN 模型仅使用观察、库存和任务描述的输入来计算每个动作的 Q 值。为了增强 DRRN 基线，我们将外部知识注入到模型中，并创建了 DRRN 的三种新变体：

aff：通过使用一个独特的 GRU 编码层，我们将输入中的物体可用性引入到基线模型中。
mca：在该模型中，使用独立的 GRU 编码层将所有先前正确的动作传递给基线模型。
aff ⊕ mca：该架构的编码由代理的先前正确动作和物体可用性作为独立组件组成。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/53858d7b29b4a7115bd197507563c2d7.png

图 2：DRRN 架构，增强了先前正确动作和物体可用性的记忆。

RL 增强型 KG 模型 —KG-A2C[4] (图 3)

作为基线，我们使用 KG-A2C 的修改版，在该版本中，我们利用环境提供的单一黄金动作序列作为目标，尽管可能存在多个可能的黄金序列。我们发现这个目标的表现优于原始的预测有效动作目标。我们设计了以下知识注入策略来整合

KG-A2C 的正确动作和物体可用性知识记忆：

mca：在基线的基础上，我们将所有先前正确的
动作上，通过使用一个独立的 GRU 编码层并将其与
输出向量与其他输出表示一起。
aff：KG-A2C 模型中的 KG 组件为我们提供了一个方便的方式来添加更多知识。特别是，我们直接将物体可用性知识作为附加三元组添加到 KG 中，位于
基线模型。例如，给定 KG 中的现有关系
（客厅，hasA，苹果）我们可以添加物体可用性关系：（苹果，
使用了 For，eating）。通过这种方式，KG 编码网络可以生成
游戏状态的更有意义的表示，并可能
引导模型生成更好的动作。在我们的实验中，我们
将这种方法与使用
独立的 GRU 编码层，类似于 DRRN 的情况。
aff ⊕ mca：我们将 KG 中的物体可用性和所有
先前的修正动作使用独立的 GRU 编码层。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/422c7e31d5898a8c9fab79747319656e.png

图 3：集成了物体可用性和先前正确动作的 KG-A2C 模型架构。

2. 单步离线预测（LM 方法）

预训练语言模型 —RoBERTa5

在这里，我们将任务视为多选题问答。在每一步，当前的游戏状态被视为问题，模型必须从候选动作集合中预测下一个动作。类似于强化学习（RL）智能体，模型在每一步都会接收到环境观察（𝑜𝑏𝑣）、库存（𝑖𝑛𝑣）和任务描述（𝑑𝑒𝑠𝑐）。然后，我们将其与每个动作拼接在一起，让语言模型选择得分最高的动作。由于可能的动作集合非常庞大，在训练过程中我们仅随机选择𝑛=4 个干扰动作，以减少计算负担，语言模型通过交叉熵损失进行训练，选择正确的动作。在推理时，模型会为所有有效动作分配分数，我们使用 top-p 采样来选择动作，以防止模型陷入动作循环。我们为基准 RoBERTa 模型提出了三种知识注入策略。

mca:在这里，我们通过将过去的正确动作列出为一个字符串并附加到原始输入中，使得语言模型（LM）能够意识到自己的过去正确动作。由于 RoBERTa 的 token 限制，我们使用一个大小为𝐴=5 的滑动窗口，即在每一步，模型最多只能看到过去的
𝐴个正确动作。
aff:我们通过首先在一个包含对象效用的常识知识图子集上对语言模型进行适应，向模型注入效用知识。我们通过一个辅助的问答任务来对模型进行适应，遵循之前的知识注入工作[6]。由于效用知识三元组的数量庞大，无法简单地将其拼接到 RoBERTa 的输入中，因此我们使用预训练而非简单拼接输入。通过辅助问答任务对效用进行预训练可以缓解这一挑战，同时仍能使模型学习到相关知识。接着，我们在增强效用的模型基础上对我们的任务模型进行微调，如基准中所述。
aff ⊕ mca:这种变体仅仅是将 mca 和 aff 结合在一起。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0e09e421f92a4a224d8201706e82d999.png

图 4：使用干扰项训练的 RoBERTa 架构。

指令调优语言模型 —Flan T5[7][8]（图 5）

Swift 模型本身集成了前十个动作的历史背景。值得注意的是，与之前检查过的三个仅考虑最后十个正确动作历史的模型不同，Swift 模型遵循其原始设计，涵盖了前十个动作的完整历史。为了建立一个可与之前三种架构中应用的方法相比较的基准模型，我们从 Swift 模型中省略了动作历史。未做更改的 Swift 变体在这里被表示为mca版本。此外，将可供性融入基准模型中，形成了aff model。类似地，将可供性融入 mca 版本后，形成了aff ⊕ mca模型。这些可供性被引入主输入序列，紧随库存数据之后，并位于已访问房间信息之前。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e50387af9e741dd9de9c7b95f6da8238.png

图 5：以 Seq2Seq 方式训练的 Swift 架构。

实验设置

环境：我们使用了 ScienceWorld [1]，这是一个基于文本的复杂虚拟世界，呈现为英文。它拥有 10 个互联的地点，并包含 218 个独特的物品，包括各种仪器、电气组件、植物、动物以及家具和书籍等日常物品。游戏提供了丰富的互动，具有 25 种高级动作和每步最多 200,000 种可能的组合，尽管其中只有少数是实际有效的。ScienceWorld 包含 10 个任务，共有 30 个子任务。由于 ScienceWorld 的多样性，每个任务作为一个独立的基准，具有不同的推理能力、知识要求，并且需要完成目标状态的动作数不同。此外，每个子任务都有一组必须完成的目标（例如，专注于一个非生物物体并将其放入厨房的红色盒子中）。为了实验目的，我们从每个任务中选择了一个代表性的子任务。任务细节见附录（文章末尾）。

奖励与评分系统：ScienceWorld 的奖励系统旨在引导智能体朝着优选的解决方案前进。每个动作执行后，环境都会提供一个数值评分和一个布尔指示器，显示任务是否完成。智能体每个回合最多可以执行 100 步（动作）。最终得分介于 0 到 100 之间，反映了智能体在完成回合目标和子目标方面的表现。当智能体完成任务或达到 100 步限制时，回合结束，并计算累计得分。

实验见解：

知识注入有助于文本游戏中的智能体——在 40 个案例中的 34 个中，我们的知识注入策略优于基准模型。
可用性知识比正确行动的记忆更有益——可用性模型在 15 个案例中获得了最佳结果，其次是包括 MCA（8 个案例）。将这两种知识类型结合在一起在 11 个案例中取得了最佳结果。
就任务的整体影响而言，语言模型变体 RoBERTa 和 Swift 从包含可用性知识中获益最大，分别相对于基线提高了 48%和 8%。图 6 中展示了一个例子，说明了语言模型在加入可用性知识后受益匪浅。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2754c5fc9218edca5e22c695d8c1c3df.png

图 6：可用性模型在任务 4 中采取的行动。蓝色=步骤索引，绿色=累积得分，黄色=正确的行动。

在任务中的变动效果取决于注入知识与任务的相关性——任务中的变动效果通常是由于注入知识与当前任务的相关性，某些任务（例如电力）从知识注入中受益更多。
通过知识图谱注入可用性是最有效的；将其作为原始输入加入会增加模型的学习复杂度——我们探索了将可用性知识注入到 KG-A2C 的多种变体（图 7）：通过将其作为输入添加到观察、库存和描述中，为可用性创建一个单独的 GRU 编码层，并将可用性添加到知识图谱本身。我们在三个子任务上评估了每种方法的表现：简单、中等和困难。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/17d48932521a83afbb150d9176bf0b83.png

图 7：在 KG-A2C 中添加可用性的五种方法的效果。

结论性思考：

我们的研究代表了朝着更复杂的 AI 智能体迈出的重要一步。通过赋予它们从过去的行动中学习并深刻理解环境的能力，我们为 AI 铺平了道路，使其能够在各种生活场景中智能、直观地进行游戏和互动。该框架可以扩展到其他 AI 应用，如虚拟助手或教育工具，在这些应用中，理解和与环境互动至关重要。

大型语言模型的少样本提示最近在推理任务中显示出了潜力，同时互动交流和输入澄清也带来了明显的好处。探索它们在互动任务中的作用，无论是作为需要较少训练数据的解决方案，还是作为能够为知识蒸馏生成合成数据的组件，都是一个有前景的未来方向。

如果你喜欢我们的工作，请引用它 😁

@inproceedings{chhikara,author={Chhikara,PrateekandZhang,JiaruiandIlievski,FilipandFrancis,JonathanandMa,Kaixin},title={Knowledge-Enhanced AgentsforInteractive Text Games},year={2023},doi={10.1145/3587259.3627561},booktitle={Proceedings of the 12th Knowledge Capture Conference2023},pages={157–165},numpages={9},series={K-CAP '23}}