论文题目:
CoGen: Learning from Feedback with Coupled Comprehension and Generation
论文链接:
https://arxiv.org/abs/2408.15992
在这一章节中,论文探讨了语言理解与生成之间的紧密关系,并强调了将这两者结合在计算系统中的潜在益处。研究表明,语言理解(comprehension)和生成(generation)是密切相连的过程,二者的协同作用能够显著提升系统的学习能力和推理性能。
作者通过引用相关的实验证据和理论研究,指出这种联结不仅能提高系统的准确性,还能使生成的语言更加接近人类的自然交流方式。
随着人机交互的不断深入,基于用户反馈进行持续学习(continual learning)变得尤为重要。作者强调,结合理解与生成的能力,能够更有效地实现基于交互的学习反馈。
具体而言,系统在与用户进行互动的同时,可以在理解者角色(listener)和发言者角色(speaker)之间交替,互相促进,从而形成一个良性循环。在这个循环中,一方面理解的提升推动生成能力的改进,另一方面生成的改进又反过来增强理解能力。
整体而言,本章节为论文的研究背景与动机提供了清晰的框架,让读者了解到将语言理解与生成技术相结合的意义,以及如何通过这种结合实现更智能、更人性化的计算系统,为后面的章节奠定了基础。
在这一节中,研究者选择了参考游戏作为他们的交互场景,以便分析语言理解与生成之间的耦合。参考游戏涉及两名参与者,即发言者和听众,二者在图像识别和描述生成任务中互相配合。
首先,研究者设置了一个包含抽象拼图图像的上下文集合 ,每位参与者会看到这些图像的不同顺序。发言者被分配一个目标图像 ,并需要生成一段描述性语言 ,以便让听众能够从图像集合中识别出目标图像。听众随后做出选择,若他们正确识别目标,则游戏成功。
图 1 展示了研究者所设计的交互场景,其中参与者的角色可以互换,允许模型在发言者和听众角色之间转换。这种设计使得每次交互都可以收集有效的反馈信号,以加强模型的学习过程。
通过构建这样的参考游戏,研究者能够有效地实现语言理解与生成之间的紧密耦合,从而使模型在给定的上下文中不断学习和改善其性能。
在游戏的实施过程中,发言者会生成一条描述性语言,而听众则依据该语言尝试选择匹配的目标图像。此过程中的每一次输入和输出都被记录下来,以便后续的分析与训练。参与者在游戏中所产生的互动数据为耦合理解与生成提供了必要的原材料,有助于模型建立起语言生成与理解之间的联动关系。
所选用的参考游戏由于其复杂性适中且易于实施,已经在多项研究中得到了广泛应用,包括自然语言处理(NLP)和认知科学等领域。这为模型的训练和评估提供了良好的平衡,使得在无需过多数据的情况中,模型能够有效学习到自然语言的使用规则和互动模式。
在这一节中,论文探讨了如何结合语言理解与生成能力进行持续学习。研究者们设计了一种交互机制,使模型能够不断接收用户反馈,并基于这些反馈进行自我完善。这种持续学习的过程不仅提高了模型的理解和生成能力,也增强了模型与人类用户的互动质量。
论文中的模型在进行人为交互时,反馈收集是至关重要的一个环节。在每轮交互中,模型扮演听众或发言者的角色,并根据其对应角色的表现收集反馈信号。具体来说,当模型作为听众进行目标选择时,它会接受人类生成的描述,预测目标图像的索引,并根据选择的正确性获得反馈。
如果选择正确,模型则获得正反馈,反之则获得负反馈。这些反馈被直接映射到理解数据点上,形成一个可以反馈学习的机制:
其中, 表示游戏成功, 则反之。作为发言者时,模型生成描述,并从人类听众的反应中收集反馈,同样形成生成数据点:
这种反馈机制与传统的监督学习相对比,在形式上明确将人类反馈融入模型的学习过程中。
在模型的学习过程中,作者采用了一种基于反馈的在线学习策略。每轮交互后,模型将收集到的所有反馈数据用于参数更新,生成新的模型版本。这一过程被描述为连续的上下文强盗问题(contextual bandit problem),通过结合理解和生成任务的多任务加法目标来进行优化。
具体优化过程使用了 REINFORCE 算法,以此简单而有效的方式实现在线更新:
其中, 为通过逆倾向评分(inverse propensity score)修正的系数,旨在减小负样本对学习的负面影响。
3.3 训练动态
在实际操作中,模型在每一轮结束时,都会对累积的数据进行重训练,并学习到有效的理解和生成策略。这种动态更新的学习方式,使得模型逐渐形成一个把理解与生成耦合的良性循环,彼此促进,从而在长期内提升整体性能。
整体来看,这一节阐述的持续学习框架为后续的系统变体与实验提供了核心基础,强调了使用人类反馈信号的价值,并为模型的后续表现和语言能力的提升打下了坚实的基础。
在本节中,研究团队详细阐述了在训练和推理过程中如何通过数据共享和联合推理来耦合理解与生成能力。研究中通过几个策略来建立这两种能力之间的联系,从而提高模型的整体表现。
为充分利用在交互过程中收集到的数据,研究者将理解(listener)任务的数据点转换为生成(speaker)任务的数据点,反之亦然。
例如,当一个模型作为听众确定了图像的描述“目标是一只面向右方的天鹅”,并且成功猜出了目标图像时,不仅仅是为这个选择获得正反馈,模型还可以学习到“面向右方的天鹅”是对于当前上下文和目标组合的一个有效描述。
在每一轮收集到的理解数据集 和生成数据集 中,研究者扩展数据集如下:
这一过程的一个显著结果是向生成模型的训练数据中引入人类语言。这在传统生成系统中往往是缺乏的,因为它们只从自己的生成语言中学习。通过将人类的描述融合入生成模型的训练数据中,研究者使得系统在语言生成能力上能够更接近人类的习惯和风格,从而避免了由于自我训练导致的语言漂移。
这一联合推理方法与理性言语行为模型(RSA)相似,其中语者和听者模型之间的推理过程是递归的。联合推理除了增强两者能力的互动外,也促进了生成语言的有效性和多样性。这种耦合策略在实验结果中得到了验证,显示出在耦合策略的辅助下,模型的语言生成能力能够更好地与人类语言对齐。
通过以上两种耦合策略的实施,研究者发现,理解和生成的耦合不仅能够显著提高模型在多个交互轮次中的表现,也能促使生成语言向更符合人类习惯的方向发展。
在本节中,研究团队描述了实验设计的详细情况,包括参考游戏的构建、模型的初始化及多种系统变体的设置。为了有效评估模型在理解与生成任务中的性能,研究团队设定了一系列标准与方法,并详细阐述了实验的部署过程。
实验中所采用的参考游戏利用了 KILOGRAM 数据集(Ji et al., 2022),该数据集包含 1,016 种抽象的 tangram 形状。每个实验上下文由 10 张图片构成,都是从该数据集中提取的。为了确保图片之间的视觉相似性并增加任务的难度,研究团队使用了对 KILOGRAM 注释进行微调的 CLIP 模型(Radford et al., 2021)。
研究团队对指令调优的 IDEFICS2-8B 模型(Laurençon et al., 2024)进行了微调,模型的各项任务通过相应的提示进行区分。
训练期间,超参数保持固定,以确保不同的持续学习轮次和系统变体之间的一致性。在进行首次互动轮次之前,团队使用 104 个成功的人类交互示例对模型进行了初始化微调,并将这些数据在后续的重新培训过程中进行再次利用。
研究团队比较了四种系统变体,包括完整的耦合系统 FULL,不结合数据共享的 NO-DS,不结合联合推理的 NO-JI,以及不结合任何耦合方法的基线系统 BASELINE。此外,团队还收集了人类间的互动数据(HUMAN),以便在研究结果中进行对比分析。
在每轮实验中,研究团队与人类参与者进行交互获取反馈。每轮包含预设数量的互动,其中模型轮流扮演发言者和听众角色。第一轮的每个角色收集了 2,000 次交互,后续轮次根据边际效益定期增加每个角色的交互次数。
虽然数据共享在第一轮中不可用,但完整的 F ULL 系统、NO-DS 系统,以及 NO-JI 系统和 BASELINE 系统在第一轮中的行为是相同的。整个实验的互动过程以人力成本约为 12,980 美元进行。
每轮实验的评估重点在于理解性能的指标,即模型在听众角色中的目标选择准确率。同时,模型作为发言者时的生成性能通过人类听众对目标选择的准确率进行评估。为了确保实验的严谨性,团队还特别分析了生成语言的变化趋势。
▲ 图示:实验设置
通过上述设置,研究团队旨在探索理解与生成能力之间的关联,以及耦合机制如何影响模型的学习效果与语言生成质量。
在这一节中,研究者们分析了模型的性能变化及其生成语言的趋势。研究着重关注了通过耦合理解和生成能力,系统在学习阶段的表现提升,以及这种耦合对生成语言的影响。
如图 3 所示,所有模型在理解与生成任务上均表现出显著的性能提升。研究者们观察到,结合理解与生成能力的系统(F ULL)在每一轮都优于其他对照组。
在首次实验中,F ULL 的理解准确率为 53.31%,而基线系统只有 42.64%。最终,F ULL 在理解任务上的准确率达到了 72.79%,借此实现了 19.48% 的绝对改善;而生成任务的准确率则从 52.00% 提升至78.07%,提升幅度为 26.07%。
在性能提升率方面,耦合系统表现尤为突出,F ULL 的学习样本效率大幅提高,甚至在第二轮即超越了基线系统在最后一轮的表现,这表明 F ULL 即使在较少的数据下依然能够实现高效的学习。
此外,伴随着性能差距的加大,理解任务的差距从 10.67% 扩大至 14.80%,而生成任务的差距则从 3.55% 增加至 17.10%。这表明,耦合不仅提升了样本利用率,也增强了系统的互动能力。
人为适应性可能成为一个重要的混淆因素,因此研究者在最终轮次进行了额外的部署实验,以探索用户适应对模型改进的影响。在最终轮中,模型仅因用户适应而获得的提升微乎其微,理解和生成任务的提升分别仅为 0.42% 和 2.56%,这表明模型自身能力的提升远超过用户适应的影响。
在语言使用的趋势分析中,研究者重点关注了耦合系统在生成语言的相似性和多样性方面的表现。根据研究,语言生成的句子长度在所有模型中均出现下降趋势,F ULL 和 N O -JI 系统在这一方面最接近人类的表现,产生的句子长度整体更短。
此外,有效词汇量的变化同样值得关注。所有系统中生成的独特词汇量均呈现下降趋势,但结合了数据共享的模型(尤其是 F ULL)在这一方面减少得最小。所有系统对比人类的词汇量仍显不足,这为未来的研究提供了改进方向。
使用 MAUVE 这一生成语言评估指标,结果显示耦合模型的语言与人类语言的相似性不仅没有降低,反而在时间推移中逐渐向人类语言靠近。这表明数据共享与联合推理的结合对提高模型语言的自然性至关重要。
最后,研究者们还初步探讨了耦合如何影响模型的实用推理能力。在参考游戏中,充分利用情境中存在的信息对于发言者的选择至关重要。通过计算不同上下文集中的描述多样性,可以判断耦合模型在多样性上的表现,结果显示 F ULL 系统在引入更高多样性的同时,表现出更强的实用推理能力。
这种多样性与词汇量趋势相呼应,进一步表明耦合策略的有效性和必要性。在后续研究中,对于这种现象的深层次分析仍需进一步展开。
总体而言,研究者们发现耦合策略在性能提升和语言生成质量方面产生了显著的正面影响,并为未来的研究指明了方向。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
? 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
? 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
?
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·
·