神经网络中的构成性泛化

高智创新    人工智能    神经网络中的构成性泛化

    人工智能(AI)近年来取得了重大进展。特别是神经网络,在从图像识别到语言翻译等各种任务中表现出巨大的能力。然而,这些网络面临的重大挑战之一是构成性泛化(Compositional Generalization),即以新颖的方式理解和组合已知信息的能力。最近一篇研究文章揭示了这一主题,重点是神经模型在面临需要这种泛化任务时的表现。

理解构成性泛化

    构成性泛化在许多认知任务中至关重要。从本质上讲,一旦接受“蓝色汽车”和“快速自行车”概念的训练,这项技能将允许一个实体在不事先明确接触的情况下理解“快速汽车”的概念。在神经网络的背景下,特别是那些处理语言的网络,这种能力可能是简单地重复学习数据的模型与基于该模型真正进行理解创新的模型之间的区别。

研究的框架:SCAN和COGS

    该研究使用了机器学习文献中的两个特定基准,SCAN和COGS,这两个基准都旨在评估模型的构成性泛化能力。

    SCAN专注于将命令映射到操作。例如,如果一个模型在特定的命令-操作对上训练,它如何能很好地处理一个从未见过的新命令。而COGS更进一步,测试各种形式的系统泛化,包括构成的复杂挑战。

    在SCAN和COGS的元训练(meta-training)阶段,模型接触到特定的研究和查询示例。这些例子不仅仅是任意的数据点。相反,他们迫使模型根据有限的暴露(exposure)推断单词及其含义之间的关系。在此之后,模型必须利用这些推断的关系来回答随后的查询。

长序列的挑战

    研究确定的一个重大障碍是处理长上下文序列。SCAN和COGS通常涉及长序列,这使得传统神经网络架构处理它们具有挑战性。具体来说,鉴于查询输入序列与多个研究示例序列的串联,处理可能会变得棘手。这在神经架构的编码器自我关注层(encoder self-attention layers)中尤其成问题。

    为了解决这个问题,研究人员设计了一个可扩展的流程。不是处理一个猛犸序列(mammoth sequence),而是输入序列被多次复制并与每个研究示例单独连接,创建了几个较小的序列。然后对这些序列进行单独处理,每个生成的上下文嵌入(contextual embeddings)都根据其来源进行标记。这项技术不仅使处理更易于管理,还保留了长序列提供的丰富上下文。

测试构成性技能(Compositional Skills)

    该研究在SCAN和COGS中引入了排列流程(permutation procedures),有效地改变了输入输出关系。通过这样做,他们确保了模型不能仅仅依靠死记硬背。他们必须在不同的情节中以不同的方式重新学习和结合意义,从而真正测试他们的构成性技能。

    此外,COGS通过包含比SCAN大得多的词汇量带来了额外的挑战。由于大量的单词和它们之间的潜在关系,模型必须从一组有限的示例中提取意义和关系,展示他们的构成性技能。

关键启示

    该研究强调了几个要点:

1.神经网络和成分挑战:即使是高级神经模型,当面临需要构成性泛化的任务时,也会遇到困难。这强调了设计专门针对此类挑战的架构和训练方法的重要性。

2.训练程序的重要性:通过引入排列流程和操纵输入输出关系,研究表明,以增强其构成性泛化能力的方式训练神经模型是可能的。

3.前进之路:虽然引入的可扩展程序以及通过SCAN和COGS进行的广泛测试值得称赞,但它们也强调,仍有很多东西需要探索。神经网络中的构成性泛化领域是广阔的,有无数途径等待探索。

    总之,虽然神经网络在各个领域取得了飞跃,但构成性泛化仍然是一个复杂的挑战。这项研究不仅突出了问题的复杂性,还为该领域未来的研究和创新铺平了道路。最终目标很明确:构建这样的神经模型,其不仅能够学习,而且可以通过以前未接触的方式创新地对知识进行结合。

 

 

2023-10-29 09:01
浏览量:0