NOIA中文网
启示AGI之路:神经科学和认知心理学大回顾 全译下|算法|神经网络 |
发布日期:2025-01-04 16:35 点击次数:180 |
A Review of Findings from Neuroscience and Cognitive Psychology as Possible Inspiration for the Path to Artificial General Intelligence 神经科学和认知心理学的发现回顾:作为通往人工通用智能之路的可能启示https://arxiv.org/abs/2401.10904以下10.3章开始1. Introduction2. The Biological Neuron - 2.1. The Structure of the Neuron - 2.2. The Structure of the Chemical Synapse - 2.3. The Formation of the Action Potential - 2.4. Excitation and Inhibition - 2.5. The Complexity of the Brain3. Neuron Models - 3.1. Hodgkin-Huxley Model - 3.2. Izhikevich Model - 3.3. Integrate and Fire (IF) and Leaky Integrate and Fire (LIF) Neurons - 3.4. Spike Frequency Adaptation - 3.5. The Compartmental Neuron4. Spiking Neural Networks - 4.1. Neural Coding - 4.1.1. Rate Coding - 4.1.2. Temporal Coding - 4.1.3. Burst Coding - 4.1.4. Comparison - 4.2. The Computational Power of SNNs - 4.3. Discussion5. Learning Rules - 5.1. Hebbian Learning - 5.2. Extensions of Hebb’s Rule - 5.2.1. Oja’s Rule - 5.2.2. Sanger’s Rule - 5.2.3. The ABCD Rule - 5.2.4. BCM Rule - 5.3. Spike-Timing Dependent Plasticity - 5.4. Other Learning Algorithms6. Neuronal Ensembles (Cell Assemblies)7. Cell Assembly Models8. Dynamic Models - 8.1. Wilson-Cowan Model - 8.2. Reservoir Computing - 8.2.1. Echo State Networks - 8.2.2. Liquid State Machines - 8.2.3. Other Issues and Models - 8.3. Attractor-Based Models and Other Dynamic Models of the Brain9. Brain Anatomy - 9.1. The General Structure of the Brain - 9.2. The Cortical Lobes - 9.3. The Visual Cortex - 9.4. The Function of the Cortical Layers - 9.5. The Language Areas - 9.6. The Memory Areas - 9.7. Grid Cells and Place Cells - 9.8. The Decision-Making Areas - 9.9. The Homogeneous Cortical Columns10. Neuroscience Models - 10.1. Hierarchical Temporal Memory - 10.1.1. The HTM Neuron Model - 10.1.2. Spatial Pooling Algorithm - 10.1.3. Temporal Memory Algorithm - 10.2. “A Thousand Brains” Theory - 10.3. Other Models11. Representations in the Brain - 11.1. Numbers - 11.2. Decisions - 11.3. Actions12. Vector Symbolic Architectures (Hyperdimensional Computing) - 12.1. Fundamental Operations - 12.2. Representation Methods - 12.2.1. Tensor Product Representation - 12.2.2. Holographic Reduced Representation - 12.2.3. Other Representations - 12.3. Analogical Reasoning - 12.4. Representing Compositional Structures - 12.4.1. Representing Symbols - 12.4.2. Representing Numeric Values - 12.4.3. Representing Sequences - 12.4.4. Representing Graphs13. The Neural Binding Problem - 13.1. Variants of the Neural Binding Problem - 13.2. Variable Binding14. Cognitive Models - 14.1. Global Workspace Theory - 14.2. Conceptual Spaces15. Categorization Models - 15.1. Adaptive Resonance Theory (ART) - 15.2. The Generalized Context Model (GCM) - 15.3. ALCOVE - 15.4. RULEX - 15.5. ATRIUM - 15.6. COVIS - 15.7. SUSTAIN16. Cognitive Architectures - 16.1. ACT-R - 16.1.1. General Architecture - 16.1.2. Decision Making - 16.1.3. Learning - 16.2. SOAR - 16.2.1. The Problem-Space Computational Model - 16.2.2. General Architecture - 16.2.3. The Spatial-Visual System - 16.2.4. Working Memory - 16.2.5. Semantic Memory - 16.2.6. Episodic Memory - 16.2.7. Producing Deliberate Behavior - 16.2.8. Impasses - 16.2.9. Chunking - 16.2.10. Reinforcement Learning - 16.3. The Standard Model of the Mind - 16.4. Semantic Pointer Architecture - 16.4.1. Using a VSA for Representation - 16.4.2. The Structure of SPA - 16.4.3. SPAUN - 16.5. NEF (Neural Engineering Framework) - 16.5.1. Representation - 16.5.2. Transformations - 16.5.3. Dynamics - 16.6. NENGO (Neural Engineering Object)17. Discussion: Challenges for AGI Systems - 17.1. Dual-Process Theory - 17.2. Jackendoff’s Challenges - 17.3. Stability-Plasticity Dilemma - 17.4. Symbol Grounding Problem18. ConclusionsAbbreviationsReferences(上篇5万字,下篇4.6万字)10.3. 其他模型(Pischedda等人,2017年)研究了人脑如何在各种认知任务中表示和组织使用的规则。一些理论认为大脑在前额叶皮层的不同层级编码规则,这项研究旨在澄清不同层级的规则是否真的在不同的大脑区域中表示。该研究依赖功能性磁共振成像(fMRI)来检查低层级和高层级规则在大脑中的编码是否不同。参与者的任务是应用包含低层级刺激-反应规则和高层级选择规则的规则集。研究结果揭示了在编码不同层级规则的大脑区域之间没有显著差异。与一些理论预期相反,这些规则似乎以类似的方式被表示。包含低层级和高层级规则的层级规则,在空间上没有根据它们在层级中的位置显著区分。这意味着无论规则是基本的低层级规则(处理基本感官刺激和反应)还是高层级规则(涉及更抽象的认知过程,如决策制定和任务选择),这两种类型的规则都由相同的大脑区域网络处理。虽然网格细胞可以有效表示二维变量,但它们能否表示更高维度变量的问题随之而来。(Klukas, Lewis & Fiete, 2020年)提出的模型展示了它们如何有效编码大于二维的变量,同时保持低维结构。它通过低维随机投影和传统的六边形网格细胞响应的结合来实现这一点。网格细胞以其在表示空间信息方面的作用而闻名,但最近的研究表明,它们也可以表示超出空间位置的各种认知变量。在飞行的蝙蝠或攀爬的老鼠等动物中观察到的放电场可以由结合多个网格模块活动的神经元生成。在三维环境中的网格细胞响应可能不会显示出规则的三维网格模式,但它们确实似乎允许在所有三个维度上进行定位。这种定位可能受到空间地标的影响,或由编码更高维空间的网格细胞的组合形成。这表明网格细胞可以实现一种通用电路,能够为高维变量生成编码和记忆状态。作者提出了一种针对高维变量的编码方案,考虑到网格细胞响应的结构和动态约束。他们假设每个网格模块的活动保持在神经状态空间中的二维环形吸引子内。模块化编码,即将神经元划分为不同的组以编码变量的不同方面,为表示高维变量提供了一种有效手段。网格细胞的多模块表示提供了一个高效的高维向量空间,既可以用于表示,也可以用于记忆任意更高维度的向量。网格细胞的更新机制允许存储向量之间的向量代数运算,这对于抽象高维空间中的向量整合至关重要。该网络可以在不需要重新配置网格细胞网络的情况下,表示、存储并对不同维度的抽象向量执行代数运算。(Constantinescu, O'Reilly & Behrens, 2016)解释说,在与空间和概念任务相关的大脑区域中发现的类似网格的活动,提出了存储空间和概念表征的共同神经编码机制的可能性。它引用了海马体细胞在人类中编码个体概念的证据,并指出啮齿动物的网格细胞可能代表超出空间的维度,例如时间。该研究使用功能性磁共振成像(fMRI)来调查人类在导航抽象概念表征时是否采用六边形对称编码。为实验设计的任务类似于空间导航,但涉及抽象维度。实验的参与者学习了鸟类刺激与圣诞节相关符号之间的关联。鸟类刺激是独特的,并在两个连续维度(颈部和腿部长度)上有所变化,但在一维(垂直)视觉空间中呈现。这要求参与者从一维视觉呈现中提取二维概念信息。参与者观看了根据特定颈部到腿部比例变形的鸟类视频,并被指示想象如果鸟类继续以相同的方式变形,将出现哪个符号。为确保鸟类空间中的运动轨迹方向与视觉属性分离,轨迹设计为避免与视觉特征共享方差。在某些试验中,参与者必须从三个符号中选择一个(图10.6)。参与者在基于鸟类变形预测符号方面达到了高准确率(约73%),然而,没有人报告说他们将鸟类和符号之间的关系想象成空间地图,即参与者并没有意识到这些关联可以组织在一个连续的“鸟类空间”中。研究发现了神经活动中的六角调制效应;这种效应在整个大脑中被识别出来,并且在特定区域最为强烈。因此,大脑可能使用具有六角网格模式的全局代码来组织非空间的概念表征。(Mok & Love, 2019)对内侧颞叶(MTL)中的概念知识依赖于空间处理和导航回路的观点提出了挑战,提出了一个通用学习算法作为解释空间和概念领域中发现的现象。尽管MTL支持的记忆类型在表面上存在差异,但本文提出MTL采用通用算法来学习和组织与上下文相关的信息,使其以有用的格式呈现,而不是依赖于特定于导航的神经回路。将啮齿动物置于不同几何环境中的实证研究支持了模型预测。在这种情况下,网格细胞的激活在非均匀环境中变得不那么网格化,特别是在更狭窄的区域中,这种下降尤为明显。(第15.7节中介绍的)一个认知聚类模型在一个正方形环境中被训练,然后转移到一个梯形环境中。因此,模型的“网格得分”(六角对称性的度量)在梯形环境中下降,与梯形的宽侧相比,狭窄侧的下降更为显著。聚类模型表明,由于空间导航任务中可能的输入分布相对均匀,网格状表征在空间导航任务中出现。相比之下,在概念任务中,输入采样更稀疏,整体空间更高维,表征更符合人类的概念知识。环境几何形状的变化,包括非均匀性,预计会影响聚类并使网格模式不那么明显。该研究强调,最初提出用于理解记忆和概念学习的模型,也解释了空间导航现象,包括地点细胞和类似网格细胞的表征。它表明,空间发现自然地作为更一般的概念学习机制的特例出现。因此,在编码抽象空间时,类似网格的响应应该是例外,而不是规则。表征空间可以是高维的,并非所有维度都同样相关,导致在复杂环境中出现非网格状的响应。在(Stachenfeld, Botvinick & Gershman, 2017)中,对海马体中地点细胞作为编码纯空间认知地图的传统观点提出了挑战。相反,作者提出海马体主要编码一个预测地图,它代表对个体未来状态的预期。这意味着地点细胞的激活不仅仅与当前位置有关,还取决于个体预期接下来要去哪里。海马体的预测功能在强化学习(RL)框架内被形式化,强调编码期望和预测。后继者表征(SR)方法被提出作为无模型和基于模型学习方法之间的中介。它允许灵活的价值计算以响应奖励的变化,而没有纯粹基于模型的方法所伴随的计算效率低下。该论文建议,SR可以通过扩展优先更新的前向扫描范围来补充基于模型的规划。与传统的认知地图或基于模型的RL不同,这一理论认为,使用无模型学习方法构建预测地图,在动态环境中更具适应性。作者提出海马体将SR编码为神经元群体的速率码。每个神经元代表一个可能的未来状态(例如,未来空间位置)。编码特定状态的神经元的放电率与在当前策略和当前位置下,该状态在访问次数上的折现期望值成比例。论文引入了“SR地点场”或“SR感受野”的概念,这些是环境中特定编码未来状态的神经元具有高放电率的区域。在二维环境中,这些SR地点场类似于地点细胞的传统圆形放电场。当人们从场地的峰值移开时,放电率逐渐降低。最初,网格细胞被认为是表示欧几里得空间度量,有助于路径整合(或航位推算),即通过使用先前确定的位置和速度、航向和经过时间的估计来近似当前位置。提出的预测地图理论表明,网格场倾向于不是全局规则的网格,而是受全局边界和多室结构影响的任务结构的预测地图。在多室环境中,与单一室矩形围栏相比,网格场的规律性变得不那么明显,因为分隔室之间的障碍物扰乱了从不间断的二维网格的任务拓扑。在(Stoewer等人,2023年)中,认知地图被讨论为记忆和经验及其关系的表示。这些地图是通过地点和网格细胞形成和导航的。论文引入了“多尺度后继者表征”作为地点和网格细胞计算背后的数学原理。这一原理被提出为构建认知地图的基础。提出了一个神经网络模型,该模型被训练学习从编码为特征向量的32种不同动物物种中派生出的语义空间的认知地图。通过训练,网络有效地识别了这些物种之间的相似性,并构建了一个“动物空间”的认知地图。该神经网络模型实现了用于非空间导航任务的后继者表征(SR),并结合了记忆痕迹理论和认知地图理论。SR被视为模拟地点细胞放电模式的一种方式。它涉及计算环境中状态的未来奖励矩阵,并使用它们构建表征。基于SR发展的认知地图可以用于通过任意认知地图进行导航,以及在新输入和过去记忆中寻找相似性。模型展示了创建具有不同尺度的层次化认知地图的潜力。细粒度地图显示了特征空间中动物向量的均匀分布,而粗粒度地图则按生物类别对动物进行聚类,例如两栖动物、哺乳动物和昆虫。该模型还展示了它可以通过从认知地图中插值表征来准确表示完全新的或不完整的输入。这种模型的实现为理解大脑如何处理和导航抽象概念空间提供了新的视角,并可能有助于开发更智能的人工智能系统,这些系统能够学习和适应不断变化的环境。通过将抽象概念空间映射到类似于空间导航的神经表征中,这些模型可以帮助揭示大脑如何在复杂环境中识别模式和关系。(Whittington等人,2020年)将空间记忆和关系记忆问题视为结构抽象和泛化的例子。这意味着,就像不同的空间环境共享共同的规律性,允许进行推断和捷径一样,类似的结构规律性也使得非空间关系问题中能够进行推断。分解表征涉及将知识的不同方面分开,并灵活地重新组合它们以代表新的经验,这对学习和进行推断是有益的。作者引入了托尔曼-艾肯鲍姆机器(Tolman-Eichenbaum machine, TEM)作为一个模型,利用分解和结合来构建一个能够在空间和非空间领域泛化结构知识的关系记忆系统。TEM预测,尽管海马重映射可能看起来是随机的,但实际上反映了跨环境保持的结构表征。作者在地点细胞和网格细胞中验证了这一预测,提出了一个统一的框架,用于海马-内嗅皮层在各种任务中的表征、推断和泛化。论文描述了一个无监督学习问题,涉及一个代理任务,该代理任务需要预测从图的概率转换中派生的序列中的下一个感官体验。代理被呈现感官观察序列以及有关引起图上相邻节点之间转换的关系或动作的信息。存在不同类型的关系,如家族层级或空间导航。当代理经历了图上所有可能的转换时,它可以将整个图存储在记忆中并进行完美预测。然而,如果事先知道图的结构属性,即使在经历所有转换之前,也可以进行完美预测。这是因为理解结构允许代理根据已知模式推断额外的关系和转换。例如,在家族层级中,了解结构允许代理进行诸如“Bob有一个女儿,Emily”的推断,这立即导致其他推断,如“Emily是Alice的孙女和Cat的侄女”,而无需直接经历这些转换。同样,在空间导航中,理解二维图的结构使代理能够在坐标上放置一个新节点,并推断其与图上其他点的连接关系信息。感官预测问题被分解为两个主要组成部分:关系图结构和感官观察。理解关系结构有助于路径整合,而关系记忆将感官观察绑定到结构中的位置。为了促进泛化,模型将与抽象位置相关的变量(跨地图概括)与那些植根于感官体验的变量(特定于特定地图)分开。这些变量在神经网络中被表示为单元群体。主要目标是学习神经网络(NN)权重,这些权重能够表示关系结构中的位置并形成关系记忆。这些记忆通过Hebbian学习存储,并稍后被检索。由此产生的神经网络架构与海马形成的功能解剖学非常相似,因为海马表征是通过结合感官输入和抽象位置形成的。为了推断抽象位置的新表征,TEM根据当前动作/关系从先前的抽象位置执行路径整合。路径整合中的错误累积使用存储在海马记忆中的联合表征进行校正。在具有自重复结构的情况下,认知地图可以分层组织。该模型包括多个并行流,每个流接收感官输入并拥有自己的抽象位置表征。该研究强调了TEM学习方案与醒睡算法和Helmholtz机器(Dayan等人,1995年)之间的相似性。它表明,从清醒经历中提取规律性的海马重放可能涉及从环境的生成模型中抽样,就像TEM所做的那样。(O'Reilly等人,2014年)回顾了与补充学习系统(CLS)框架(McClelland, McNaughton & O'Reilly, 1995年)相关的观点,该框架解释了为什么大脑需要两个专门的学习和记忆系统,并指定了它们的中心属性:海马作为快速学习情景记忆的稀疏、模式分离系统,以及新皮层作为逐渐整合跨情景以提取潜在语义结构的分布式、重叠系统。作者认为,灾难性干扰是使用高度重叠分布式表征的系统的后果,但这些系统也可以提供如泛化和推断等理想属性。如前所述,灾难性干扰是一种现象,即随着网络学习新模式,它调整其参数以适应新数据,通常覆盖了它早期学习到的现有模式。因此,网络同时在两项任务上表现不佳。在终身学习场景中,模型必须不断适应新信息而不忘已经学到的内容,灾难性干扰构成了重大挑战。CLS提出,具有稀疏、不重叠表征的结构上不同的系统可以补充高度重叠的系统。海马整合来自不同皮层区域的信息,形成事件的联合表征。海马系统采用模式分离,具有非常稀疏的活动水平,以编码新信息,同时防止与现有记忆的干扰。CLS断言,海马以不同于新皮层的方式编码信息,以最小化干扰,通过稀疏激活水平维持高度分离的表征。为了实现分离,海马采用非常稀疏的激活,如0.05%,与皮层大约15%的激活形成对比。人们认为海马体在睡眠期间重放记忆,允许大脑皮层有时间整合新记忆而不会覆盖旧记忆。(Winocur, Moscovitch & Bontempi, 2010)提出了与(McClelland, McNaughton & O’Reilly, 1995)类似的巩固观点,强调在大脑皮层中巩固的记忆与海马体最初编码的记忆不同。皮层提取了一种泛化的“要点”表征。记忆不是从海马体转移到皮层,而是皮层基于海马体编码形成了自己的分布式表征,捕捉了最初不存在的相似性结构。海马体需要在编码(受益于模式分离)和回忆(受益于模式完成)之间找到平衡。“theta相模型”表明,海马体每秒在编码和检索模式之间切换多次,而不是不频繁和策略性地切换。海马体可能使用这些theta相动态进行错误驱动学习。它不断尝试回忆与当前情况相关的信息,并基于回忆与实际输入之间的差异进行学习。(Tomasello等人,2018年)描述了一个神经计算模型,该模型模拟了语义学习和行动与感知中符号的接地。该模型尝试复制大脑如何通过在不同脑区的神经元群体的共同激活来学习并与感觉感知和运动行动关联语义信息。该模型采用Hebbian学习,导致在各个皮层区域中形成了分布式细胞组装电路。通过这种学习过程形成的语义电路表现出类别特异性分布。例如,与动作词相关的电路延伸到运动区域,而与视觉描述词相关的电路则延伸到视觉区域。该模型确定了大脑内某些中心区域,这些区域拥有大量的神经元,在整合音韵和语义信息中发挥重要作用。该模型旨在解释语义中心和类别特异性脑区的存在是神经解剖学连接结构和语言学习期间相关的神经元激活这两个主要因素的结果。(Mack, Love & Preston, 2018)讨论了海马功能与概念学习之间的关系。它强调了海马体,传统上与记忆相关,也在形成和组织概念知识中发挥重要作用。它介绍了EpCon(从情节到概念)理论模型,该模型将情节记忆和概念学习联系起来。它表明,海马体将最初编码的情节记忆转化为有组织的概念知识。虽然海马体最初被认为主要参与个体情节编码和检索,但最近的研究显示了更广泛的作用。海马体参与构建跨越多种经验的灵活表征,对目标敏感,并指导决策制定。EpCon模型受到概念学习SUSTAIN模型(Love, Medin & Gureckis, 2004)的影响,如第15.7节所述,该模型认为概念表征是通过选择性注意和记忆过程的交互形成的。它包括几种映射到海马功能的机制,包括模式分离和完成、记忆整合和基于记忆的预测误差。它们由注意力偏置引导。EpCon的适应性允许形成突出概念特有共同特征并区分概念的表征。这个过程将情节记忆转化为有组织的概念知识。论文还提到了另一项研究(Davis, Love & Preston, 2012),为海马体参与概念形成提供了直接证据,表明海马体调整其表征以捕捉新概念的本质,整合重叠的经验用于基于规则的表征,并使用模式分离为例外情况创建不同的表征。11.大脑中的表征11.1.数字(Dehaene, 1993)引入了一种数学理论,将神经生物学观察与数值认知中的心理原则联系起来。被命名对象的数量,即数量(numerosity),由数量探测器的放电模式表示。每个神经元对应一个首选数字,并遵循基于数字对数的高斯调谐曲线。决策依赖于贝叶斯对数似然计算和由此编码产生的累积。这些方程准确模拟了涉及数字比较和相同/不同判断任务的反应时间和错误,与行为和神经数据非常吻合。其中N是正态分布。该方程断言,给定的数值输入在不同的时间由倾向于聚集在数字线上的log(n)位置的噪声值表示。每个数量大约由一组特定的数量检测器神经元表示,每个神经元都适应特定的数量(图11.1)。考虑到人们处理广泛数字的能力,神经阈值的对数排列是合理的。这种排列意味着分配给较大数量的神经元较少,并且它与观察结果一致,即辨别较小数字之间的差异比区分较大数量更容易。随着数字的增加,辨别的精度降低。直接的神经记录确定了与数字相关的两种类型的神经编码:数字选择性编码和总和编码。前者已在上面介绍。后者与数字表示的累加器模型有关,其中数量通过累积串行生成的脉冲数量来表示,即尖峰的数量随着数量增加(Meck & Church,1983)。心理学研究涉及将数字值映射到空间表示,如数字线,显示小孩子通常提供对数估计,而较大的孩子和成年人倾向于产生线性估计。这可能是由于神经元调谐函数的变窄,这对于准确编码数字至关重要。此外,韦伯分数,表示可以区分的最小比例差异,随着年龄的增长而变化,表明底层调谐函数的修改(Siegler & Booth,2004)。(Kutter等人,2022)证明了内侧颞叶神经元群体中存在抽象和符号无关的加法和减法代码,这表明大脑有能力执行算术运算,无论使用的具体符号或符号如何。这项研究涉及记录单神经元活动,而人类参与者执行加法和减法任务。该研究使用了各种符号和视觉显示来控制非数值因素,并发现参与者以高准确性执行这些任务(图11.2)。作者在MTL中识别出选择性响应加法或减法指令的规则选择性神经元。这些神经元被认为编码算术规则,并在响应应用于不同大小的特定定量规则时表现出一定程度的专业化。作者在不同的MTL区域识别出不同的编码模式,即它们在算术处理中可能有不同的认知功能。静态和动态代码表明在算术任务中进行的不同认知过程。在海马体中观察到的静态代码涉及持续规则选择性神经元,所以这个区域可能负责实际计算算术运算,如加减数字。这与工作记忆的概念有关,其中信息被操纵和计算。另一方面,在海马旁皮质中看到的动态代码涉及与短期记忆相关的快速变化的规则信息,可能暂时保存算术规则以供计算。在(Cope等人,2018)中,作者探讨了像蜜蜂这样的简单动物是否具有学习抽象概念(如同类和不同)的认知能力的问题。这些能力通常与高阶认知功能相关,并被认为依赖于哺乳动物新皮质的复杂神经过程。然而,这篇论文提出了一个新的神经网络模型,证明蜜蜂确实可以使用它们大脑中相对简单的神经结构来学习这些抽象概念。该模型基于已知的蜜蜂蘑菇体的神经连接和特性,蘑菇体是一种参与感官处理和学习的大脑结构。它成功地复制了蜜蜂在各种联想学习任务中的表现,包括那些涉及同类和不同的任务。这一发现挑战了抽象概念学习需要高级神经机制的假设,并表明蜜蜂的大脑,尽管与哺乳动物相比体积小且简单,但可以执行这样的操作。11.2. 决策渗漏竞争积累器(LCA)模型(Usher & McClelland,2001)是一个详细的计算模型,旨在解释选择随时间的进展。这个模型是经典积累器模型的扩展。它基于决策是一个渐进过程的想法。它假设信息随时间积累,并且选择是基于不同反应选择的证据的相对积累做出的。LCA包括随机性;在每个时间步长,证据积累过程受到随机波动的影响。这种随机元素允许决策结果和反应时间的可变性。该模型的一个重要特点是引入了泄漏,也称为衰减。这意味着随着时间的推移,每个反应选择的累积证据逐渐减少。泄漏在决策过程中引入了一定程度的不完美,因为它反映了证据可能不会被完美保留的想法。它还包含了反应选择之间的竞争原则。随着证据的积累,反应选择相互竞争,选择是基于哪个选择在一段时间内积累了最多的证据。这种竞争是通过横向抑制的过程实现的,这意味着一个反应选择的激活抑制了其他选择的激活。 该模型可以表示为一个两层网络。它由输入单元(表示网络的外部输入)和积累器单元(每个对应一个反应选择)组成。这些积累器单元类似于神经元群体,具有激活和输出变量。使用了一个简单的非线性函数(阈值线性函数),它将积累器单元的激活映射到它们的输出。这个函数用于确定何时触发反应以及选择哪个反应选择。表示选择的单元的激活的演变由以下方程给出:LCA模型还解释了从感官输入到明确反应的信息处理的延迟。这些延迟被视为固定参数,它们解释了实验中观察到的反应时间曲线的初始平坦部分。 该模型不限于特定类型的感知任务。它已被应用于广泛的选择任务,并已显示出其在解释与决策相关的各种实证现象方面的实用性。 (Fang,Cohen & Kincaid,2010)探讨了一类特定的动态神经网络,其特点是横向抑制和WTA行为。该研究揭示了在一大类竞争NN中存在WTA行为,并为实现WTA平衡建立了充分条件。此外,还进行了严格的收敛分析。确定的WTA行为条件为设计此类网络提供了实用指南。一旦网络进入WTA区域,它就会迅速收敛到WTA点。这一特性简化了决策过程,因为一旦网络进入WTA区域,就可以宣布胜者。此外,该论文介绍了自复位NN的概念,使网络在不使用时能够返回到其初始状态,并为新输入做好准备。11.3. 行动(Tan等人,2013)讨论了对猕猴颞叶部分的研究,这部分大脑区域涉及处理与行动和行动者相关的视觉信息。作者的目标是了解单个神经元如何表示行动和行动者。他们使用了一种简单的编码,称为片段匹配模型,该模型假设每个神经元将大约120毫秒的单一步骤内的传入视觉输入与其偏好的刺激(特定行动的短片段)进行比较。与寻找专门用于编码演员不变或行动不变信息的不同神经元簇的预期相反,该研究没有识别出这样的簇;结果表明,神经表示方案更加连续和分布。视觉系统似乎采用了一种更普遍和概括的方法来表示行动和行动者,而不是具有特定功能的离散神经元组。该模型使用线性权重来确定传入输入和偏好刺激之间的相似性,即作者测试了响应的线性加权和再现神经元中神经响应模式的能力,这个简单模型提供了令人惊讶的好结果。(Vaidya & Badre,2022)讨论了两个不同大脑网络中的抽象任务表示:额顶叶(FP)网络和一个涉及内侧颞叶(MTL)、内侧前额叶皮质和眶额皮质(OMPFC)的网络。MTL-OMPFC网络与编码对象之间的关系、上下文依赖性和抽象任务信息有关。FP网络与快速重新格式化任务信息以进行认知控制和行动选择有关。MTL-OMPFC网络以认知地图格式维护任务知识,使得能够评估个体在抽象任务空间中的位置。相比之下,FP皮质将抽象任务知识格式化为生产规则,促进行动选择。提到了知识-行动分离现象,其中前额叶损伤可能会损害基于抽象规则的行动实施,尽管对规则的理解完好无损。相比之下,MTL损伤不会显著影响认知控制任务的表现。关于技能学习任务的行为研究表明,抽象任务知识可以从通过陈述性记忆的比较搜索演变为更有效的抽象生产,从而加速任务实施。FP网络在新任务开始时、任务指令期间以及在现有任务中添加新规则时被激活,这表明任务信息的快速重新格式化。MTL-OMPFC网络与根据任务空间表示进行推断和计划行动有关。计算模型提出,内嗅皮质和海马体参与构建有助于学习和推断的可推广知识。这两个网络根据认知和行为需求发挥不同的作用。一方面,MTL-OMPFC网络专注于从经验中发现任务结构,推断潜在任务状态和抽象关系。另一方面,FP网络将抽象任务表示维护为认知控制和引导行动选择的状态-行动偶然性。12. 向量符号架构(超维计算)符号表示使用符号表示对象或概念。它们具有组合结构,允许创建几乎无限数量的表达式,其中复杂的表示由更简单的表示组成。然而,它们的生物学实现是不确定的。连接主义表示包括神经网络和类脑表示,包括两种主要类型。局部表示为每个对象使用一个元素,相当于“祖母细胞”的概念(Quiroga等人,2005),在大脑中确实发现了一些证据。然而,大多数大脑表示不依赖于这种形式,而是作为分布式表示,将信息建模为分布在许多神经元上。在其数学等价物中,它们使用向量表示,其中每个对象由向量分量的一个子集表示。它们提供高表示能力,直接访问对象表示,可以在噪声和不确定性存在的情况下有效工作,并且更具有神经生物学上的合理性。特别是对于经典连接主义表示来说,一个挑战是叠加灾难。例如,让我们考虑四个神经元,它们的激活方式如下:第一个在正方形存在时激活,第二个在圆形存在时激活,第三个在红色物体存在时激活,第四个在蓝色物体存在时激活。这些神经元将无法区分同时呈现的红色正方形和蓝色圆形与同时呈现的蓝色正方形和红色圆形,因为在两种情况下所有四个单元都会被激活。这个问题也阻止了层次化组合结构的表示。向量符号架构(VSA)领域,也称为超维计算(HDC),旨在结合分布式和符号表示的优点,同时避免它们的缺点。VSAs是可以直接实现特定于符号处理的功能的连接主义模型(Kleyko等人,2023a)。VSA/HDC的关键特征包括(Thomas,Dasgupta & Rosing,2021):从输入数据到高维神经表示的单一静态映射,所有计算都在高维空间中使用简单的操作(如元素加法和产品)执行,映射可能是随机的,因此表示的单个元素具有低精度,通常取二进制值。12.1. 基本操作VSAs通常实现两个主要操作,其数学细节区分了已经提出的各种表示。叠加(或捆绑)将多个超向量(HV)组合成一个HV。它模拟了神经模式的同时激活,通常作为二进制HV的析取或实值HV的加法。然而,仅靠叠加操作可能导致叠加灾难,其中关于初始对象组合的信息丢失。绑定是另一种基本操作,以可恢复的方式组合两个HV。 在接下来的部分中,我们将介绍几种由这些操作的具体实现定义的VSA。12.2. 表示方法12.2.1. 张量积表示张量积表示(TPR)是最早的VSA模型之一(Smolensky,1990)。它使用从欧几里得单位球(一般来说,HV可以是实值的)中随机选择的原子HV。叠加通过张量加法实现。绑定操作是一个张量积,随着更多HV的绑定,维度呈指数增长。让我们考虑一个使用TPR的例子。我们将使用四个概念:圆形(C)、正方形(S)、红色(R)和蓝色(B),每个概念由一个4D向量表示:这些基向量必须是正交的。在我们的例子中,只有一个1位用于区分概念,但在高维中,通常使用更多的1位;表示不假设独热编码。另一种表示可以使用1和-1的元素值,并依赖于哈达玛德矩阵,其中行是相互正交的,例如:TPR可用于表达角色填充表示。角色是定义表示方面的类别或槽位。我们可以扩展我们的例子,使其具有诸如颜色和形状的角色。填充物是占据这些角色的具体信息:红色可以是颜色角色的填充物,圆形可以是形状角色的填充物。在这种情况下,我们将红色表示为颜色红色。12.2.2. 全息简化表示全息简化表示(HRR)(Plate,1991)受到TPR的启发。HV的元素是实值的,从均值为0,方差为1/D的正态分布生成,其中D是维度数。对于大的D,欧几里得范数接近1。绑定通过圆周卷积实现,这保留了单位范数,但产生的HV与输入HV不相似。HRR中的解绑定涉及圆周相关,可能需要一个清理过程。 HRR用于语义指针架构(SPA)(Eliasmith,2015),将在第16.4节中介绍。 两个HV x和y的圆周卷积定义如下:与TPR不同,HRR中的绑定创建了一个与其输入向量长度相同的向量,这增加了表示的一致性。一种计算两个向量的圆周卷积的计算高效算法利用了离散傅里叶变换(DFT)和逆离散傅里叶变换(IDFT)。一般来说,傅里叶变换与卷积密切相关,因为卷积操作的傅里叶变换等同于频域中的乘法。因此,圆周卷积可以用DFT和IDFT表示如下:其中“·”表示元素间乘法。 在SPA中,这些操作通过矩阵乘法有效地实现,这些矩阵可以为某个D预先计算。解绑定一个HV可以通过类似于矩阵求逆的操作来完成,这可以进一步简化为使用置换,如下所示:然而,这个操作是近似的,因此得到的x向量需要与基向量进行比较,以识别最接近的匹配,这对应于实际结果。让我们考虑一个具有形状和颜色的相同示例,但这次是在HRR中:使用公共库(Tulkens,2019)中实现的通过加法进行叠加和通过圆周卷积进行绑定的操作,我们计算“一个红色的圆和一个蓝色的正方形”的表示:12.2.3. 其他表示傅里叶全息简化表示(FHRR)(Plate,1994),也称为频域全息简化表示,与HRR类似,但对HV的元素使用单位幅度的复数。FHRR中的叠加是通过可选幅度归一化的逐分量复数加法。绑定操作是逐分量复数乘法(哈达玛德积),解绑定是通过与HV共轭(逐分量角度减法模2π)的绑定实现的。乘、加、置换(MAP)(Gayler,1998)在HV中使用实数或整数元素。叠加通过逐元素加法执行,而绑定和解绑定通过逐元素乘法执行。二进制散射码(BSC)(Kanerva,1996)使用二进制元素,叠加通过具有限制阈值1的逐元素加法执行,而绑定和解绑定通过逻辑异或操作执行。已经提出了几种其他的表示,并且所提出的表示也有多种变体。12.3. 类比推理Pentti Kanerva(2009)提出了一个使用VSA中角色和填充物概念进行类比推理的例子,以回答诸如“墨西哥的美元是什么?”这样的问题,即其货币。这个问题可以通过以下方式解决。国家(C)和货币单位(M)的角色被编码为HV(例如,具有10,000个元素)。可能的填充值,美国(U)、墨西哥(E)、美元(D)、比索(P)以类似的方式编码。关于美国的“整体记录”是:我们可以通过解绑定找到美元扮演的角色:D A ≈ M。结果是近似的,因为只有A的M D部分产生有意义的结果,接近码本中的一个向量,而C U部分产生噪声。对B(D B)的类似操作也会产生噪声。然后,我们可以通过解绑定M E ≈ P找到墨西哥的货币。因此,找到“墨西哥的美元”的一般公式是:12.4. 表示组合结构组合结构由对象构成,这些对象可以是原子的或组合的。原子对象是组合结构的基本元素。更复杂的组合对象是由原子元素和更简单的组合对象构成的。这种构造类似于部分-整体层次结构,其中较低级别的部分组合起来创建更高级别的实体。在VSA中,组合结构通过使用其组成元素的HV转换为HV。在这个转换过程中应用叠加和绑定操作。目标是使用相似的HV表示相似的组合结构,并在需要时恢复原始表示。12.4.1. 表示符号为了将符号转换为HV,通常使用独立同分布(i.i.d.)的随机HV。生成的HV相当于符号表示,因为它们的行为类似于符号:它们与它们的副本具有最大的相似性,与其他i.i.d.随机HV具有最小的相似性。12.3.2. 表示数值在各种任务中经常遇到数值标量和向量,在VSA中,重要的是在保持接近值之间的相似性和远离值之间的不相似性的同时表示它们。有三种主要的将数值向量转换为HV的方法(Kleyko等人,2023a),如下所述。在组合方法中,标量的接近值由相似的HV表示,随着标量值的不同,相似性降低。通常,标量首先被归一化到指定的范围(例如,[0,1]),然后被量化成有限的等级或水平。生成相关的HV来表示有限数量的标量等级,通常多达几十个。各种方案用于生成这些HV,包括通过串联和减法-加法进行编码。分数幂编码等方案允许直接对复值HV进行指数运算以表示标量,无需归一化或量化。不同标量分量的HV使用叠加或乘法绑定组合,以形成表示数值向量的组合HV。感受野方法,称为粗编码,通过由向量激活的感受野表示数值向量。各种方案,如小脑模型关节控制器、Prager码和随机子空间码,使用随机放置和大小的高维矩形作为感受野。这些方法可以产生二进制HV或实值HV,例如使用径向基函数(RBF)。它们在数值输入向量和这些感受野之间形成一个相似性函数。随机投影方法(RP)通过将数值向量乘以RP矩阵来形成一个HV。当产生较小维度的向量时,它允许降维。RP矩阵可以由正态分布的分量或双极和三进制矩阵组成。根据应用程序,结果可以是二值化的,以产生稀疏HV。RP矩阵也可以用于扩展原始向量的维度。可以使用多个RP矩阵来贡献结果HV。12.3.3. 表示序列序列可以通过使用整个先前序列作为上下文来表示,这允许存储重复的元素(Plate,1995;Eisape等人,2020),例如:这个想法可以用于使用角色和填充物的语言表示,例如,“男孩看见一只狗跑”:另一种选择是使用一组固定的HV来表示序列中的每个位置:12.3.4.表示图形对于图,一种简单的方法是为每个节点分配随机HV,并将边表示为连接节点的HV的绑定。整个图然后表示为所有边的HV的叠加(Kleyko等人,2023a)。12.4. VSA综述(Kleyko等人,2023a)提供了对VSA模型的深入回顾,并关注计算模型和输入数据类型到高维分布式表示的转换。(Kleyko等人,2023b)将分析扩展到应用、认知计算、架构和未来方向,提供了VSAs范围的整体视图。它主要深入研究机器学习/人工智能领域的应用,同时也涵盖了不同的应用领域,以强调VSAs的潜力。(Schlegel,Neubert & Protzel,2022)概述了各种实现的运算符,并根据束容量、解绑定近似质量和结合绑定和捆绑操作对查询回答性能的影响比较了VSAs。它在视觉和语言识别任务中评估了VSAs,揭示了基于架构选择的性能变化。13. 神经绑定问题13.1. 神经绑定问题的变体在图的情况下,一种简单的方法是为每个节点分配随机HV,并将边表示为连接节点的HV的绑定。整个图然后表示为所有边的HV的叠加(Kleyko等人,2023a)。 12.4. VSA综述 (Kleyko等人,2023a)提供了对VSA模型的深入回顾,并关注计算模型和输入数据类型到高维分布式表示的转换。 (Kleyko等人,2023b)将分析扩展到应用、认知计算、架构和未来方向,提供了VSAs范围的整体视图。它主要深入研究机器学习/人工智能领域的应用,同时也涵盖了不同的应用领域,以强调VSAs的潜力。 (Schlegel,Neubert & Protzel,2022)概述了各种实现的运算符,并根据束容量、解绑定近似质量和结合绑定和捆绑操作对查询回答性能的影响比较了VSAs。它在视觉和语言识别任务中评估了VSAs,揭示了基于架构选择的性能变化。13. 神经绑定问题13.1. 神经绑定问题的变体(Feldman,2013)认为神经绑定问题(NBP)包括几个不同的问题,如下所述。一般协调是指理解大脑如何处理信息和感知同时发生的物体和活动中的统一性的挑战。这种感知元素的绑定依赖于注意力,无论是通过显式固定还是隐式激活,这在确定什么被绑定在一起、被注意和被记住方面起着重要作用。时间同步是NBP中的一个核心主题,包括神经放电、适应和不同神经回路的协调。它涉及到定时考虑(通过同步绑定)和神经信号的振荡,尤其是相位耦合,是这种同步的关键组成部分。视觉特征绑定关注大脑如何将不同的视觉特征(如颜色、形状、大小、纹理和运动)组合起来,将物体感知为连贯的整体。核心问题是为什么人们不会将具有相似特征的物体(如红色的圆和蓝色的正方形)与其他物体(如蓝色的圆和红色的正方形)混淆(第12节中提到的例子)。视觉系统在空间和时间上的组织在特征绑定中起着重要作用。最详细的特征绑定发生在中央凹视觉中,其中注视在空间和时间上本质上是协调的。注意力也是一个关键因素,因为它有助于视觉特征的绑定。各种实验,如短暂呈现、掩蔽和双眼竞争,通常揭示了在压力条件下特征绑定的局限性,揭示了涉及的机制。此外,大脑可能使用多个较小的特征组合,而不是单一的统一表示来进行特征绑定。知觉的主观统一性提出了关于大脑如何整合不同的视觉特征的问题,尽管它们由不同的神经回路处理。人们对于一个稳定、详细的视觉世界的主观体验与缺乏这种体验的相应神经表示之间存在明显的对比。这种差异被称为神经科学中的“解释鸿沟”或“硬问题”。13.2. 变量绑定我们在本综述中的重点是变量绑定的神经实现。这是一个过程,其中语言或抽象推理中的变量与特定的值或实体链接以进行理解。例如,在句子“他在之前把它给了她”中,六个单词中有四个是需要绑定到值以理解句子的变量。变量绑定的挑战在于,可能有几乎无限数量的项目可以绑定到变量,这使得传统方法不足。一种提出的变量绑定机制是时间相位同步,它依赖于同步神经放电的时间来创建绑定。这种方法将神经放电划分为离散的时间片,其中放电的巧合表示变量之间的绑定。这种机制被使用,例如,由SHRUTI模型(Ajjanagadde & Shastri,1991;Shastri,1999),在第7节中介绍。另一种方法涉及使用签名传播(Browne & Sun,1999)。在这个模型中,表达式中的每个变量都有自己的节点或神经元组,代表并传输与概念相对应的特定签名。这些签名本质上充当概念的名称。然而,这种方法的一个主要挑战是,它可能需要大量的签名来表示所有可能的概念,而且目前尚不清楚大脑如何生成和管理如此大量的签名。另一个模型引入了一个中央绑定结构,用于控制绑定(Barrett,Feldman & MacDermed,2008)。这个结构允许临时链接不同概念之间的节点或神经元,使系统能够跟踪特定的绑定,即使时间片或签名在网络中传播。中央绑定还允许更复杂的操作,例如统一表示相同变量的签名。一些研究人员探索了用于动态变量绑定的乘法技术(Hummel,2011)。这些方法涉及使用分布式表示,其中概念的各种属性以乘法方式组合,这允许灵活的动态变量绑定。另一种方法涉及使用交叉杆网络进行变量绑定(van der Velde & de Kamps,2006),其中计算节点之间的连接可以临时启用或禁用,以允许信号在特定时间段内在节点之间传播。这种方法试图通过在节点之间创建临时链接来解决绑定问题,实现动态变量绑定。(Greff,van Steenkiste & Schmidhuber,2020)是与变量绑定问题相关的问题的综述。它提出了一个解决绑定问题的框架,并强调了从非结构化的感官输入创建有意义的实体、维护独立的表示以及使用这些实体构建推理、预测和行为的必要性。这个框架从神经科学和认知心理学中汲取灵感,使神经网络研究与人类认知的见解保持一致。该论文讨论了神经网络无法动态和灵活地组合分布式信息——这是有效形成、表示和理解关系的类似符号实体所必需的能力。作者建议通过三个关键方面来解决绑定问题:表示、分离和组合。表示涉及在表示层面上绑定来自不同类似符号实体的信息。对象表示作为神经处理中符号行为的基本构建块。它们应该将神经效率与符号组合性结合起来,以一种既保留分布式、基于特征的内部结构的表达能力,又保留自包含对象的完整性的方式编码信息。对象表示包括各种形式的实体,包括视觉、听觉、抽象和概念元素。 分离问题涉及将感官信息结构化为有意义的实体,包括动态创建对象表示。这应该使神经网络能够获得上下文相关的对象概念,通常是以大部分无监督的方式。对象的高度可变性使分离问题成为一个复杂的任务,但对于成功的符号信息处理至关重要。组合问题围绕着使用对象表示来构建支持推理、预测和计划的结构化模型。这些模型应该使用对象的模块性来实现系统化的、类似人类的泛化。这需要一种灵活的机制,允许神经网络快速重组其信息流以适应特定的上下文或任务。(Do & Hasselmo,2021)讨论了各种方法来理解大脑如何表示和绑定不同组件以形成复杂结构。在这个框架中探索的核心概念是联合编码,其中角色和填充物由单独的活动向量表示,它们的绑定通过一个将它们组合起来的权重矩阵实现。然而,联合编码的一些挑战也被讨论了。一个问题在于它有可能无法保持角色和填充物的独立性。例如,在像“Alice loves Bob”和“Bob loves Alice”这样的句子中,联合编码将为作为爱人的Alice和作为被爱者的Alice创建单独且不同的表示,尽管它们本质上是同一个实体。这种缺乏角色-填充物独立性可能会阻碍在不同上下文中泛化的能力。为了解决这个挑战,论文引入了动态绑定的概念。这种方法涉及从代表Alice的单个节点创建不同的链接到她的不同角色,随着上下文的变化能够快速创建或销毁这些链接。动态绑定依赖于神经元中尖峰活动的时间同步来表示角色和填充物之间的关系。它允许角色-填充物独立性,并且可以适应随时间的各种绑定。时间同步在单元必须同时充当角色和填充物的情况下存在局限性。为了克服这一点,引入了时间异步的概念,其中发射的顺序保持了因果关系。这个概念对于表示复杂结构和层次特别有价值,例如在人类语言中发现的那些,其中元素可能需要以各种方式组合和重组,以传达不同的含义或细微差别。时间异步还在单元需要同时充当角色和填充物时提供了一个解决方案,保持了绑定的方向性。(Hayworth,2012)关注神经科学背景下视觉感知的绑定问题。它引入了一个新的神经网络模型,称为动态可分区自动关联网络(DPAAN),它提供了一个不依赖于神经元之间精确时间同步的解决方案,使其更符合学习、记忆和模式识别的既定神经模型。它建立在解剖学绑定假设的基础上,将符号与特定的神经放电模式关联起来。然而,这涉及到在一个生物系统中跨不同神经模块保持一致代码的挑战,这是难以置信的。论文还讨论了同时表示多个视觉对象的挑战,这是一个健康人容易完成的任务。它提出了多个注意力聚光灯的想法,以允许对不同对象进行独立训练,借鉴了大脑能够关注多个实体的证据。该论文证明了所提出的架构可以自我组织并学会实现间接。学习通过暴露于各种角色-填充物组合发生,使系统能够处理广泛的组合,甚至是它从未遇到过的组合。 该模型的架构还允许分层嵌套控制,其中PFC中的一组神经元的输出控制另一组神经元的BG门控信号。这种变量和值的分离支持了间接机制。14. 认知模型(Dehaene,Kerszberg & Changeux,1998)解决了在假设意识努力的任务中大脑处理的建模问题。作者建议存在一个由一组分布式皮层神经元组成的全局工作空间。这些神经元通过长距离兴奋性轴突接收来自各个皮层区域的神经元的输入,并向它们发送输出。这群神经元不限于特定的脑区,而是以可变的比例分布在它们之间。一个特定的大脑区域对全局工作空间的贡献程度取决于其金字塔神经元对第2层和第3层的贡献比例,这在某些皮层结构中特别突出。另一个计算空间由功能专门化的处理器或模块化子系统的网络组成。这种架构如图14.1a所示。全局工作空间选择性地允许在任何给定时间访问它的输入子集。这种门控过程由工作空间神经元到外围处理器神经元的下行投射介导。这些投射可以放大或抑制来自处理神经元的上行输入,激活工作空间中的特定处理器,同时抑制其他处理器。 工作空间活动表现出特定的时空动力学。它的特点是工作空间神经元子集以一致和排他的方式自发激活;一次只能有一个“工作空间表示”处于活动状态。这一特性将全局工作空间与外围处理器区分开来,后者可以同时存在多个表示。工作空间中的活动表示可以自主保持活动,但如果被负面评估或注意力转移,可以被另一个表示取代。工作空间神经元的这种动态特性有助于产生思想和认知处理的多样性,因为它不断投射和测试关于外部世界的假设。提出的神经元架构(图14.1b)展示了无需专门为任务设计的预连线规则编码单元就能学习Stroop测试的能力。学习是通过现实的神经元过程实现的。Peter Gärdenfors(2004)引入了概念空间作为一个框架,融合了符号和连接主义方法的元素。它为表示概念和知识提供了一个替代方案。概念被表示为多维空间内的区域,即坐标系,每个维度对应于与概念相关的特定属性或质量。例如,“颜色”概念可以在一个具有色调(例如,红色、绿色、蓝色)、饱和度(颜色强度)和亮度(明暗度)维度的空间中表示。概念与表征它们的质量维度相关联。这些维度包括从感官质量(如味道和气味)到更抽象的质量(如美德或危险)的各种属性。味觉的概念空间可能有甜度、苦度和咸度等维度。通过在这些维度中定位概念,该理论捕捉到了不同质量之间的关系。 这个理论的一个显著特点是它关注概念空间的几何结构。这些空间中概念之间的距离具有语义意义,并衡量相似性:接近的概念是相似的,而遥远的概念是不相似的。凸区域在表示自然类别中起着重要作用,原型位于区域的几何中心。典型性通过概念区域内中心性的程度来衡量。在这些空间中执行的操作,如交集(共同属性)和混合(组合属性),反映了人们如何在思考中组合概念。交集涉及找到两个概念之间的共同点,例如,“鸟”和“哺乳动物”的交集可能产生“蝙蝠”。概念混合或组合通过相交或合并不同的空间区域发生,例如,混合“石头”和“狮子”的概念产生了一个新的“石狮子”概念。这种混合概念的能力可以捕捉复合或隐喻意义。概念的意义通常由其出现的上下文决定,因为有些属性不能独立于其他属性定义。例如,“高”属性与高度维度相关,但不能与该维度中的特定区域等同。吉娃娃是狗,但高大的吉娃娃不是高大的狗。因此,“高”不能与一组高大的物体或高度维度的高大区域等同。这个问题的解决方案是,这个属性假设由其他属性给出的对比类,因为事物本身并不高大,而只是相对于特定类别的事物而言。(Lieto,Chella & Frixione,2017)认为概念空间可以作为符号和亚符号表示之间的通用语言。它提醒了在概念表示中调和组合性和典型性的挑战。基于逻辑的表示是组合的,但通常与典型性效应不兼容,因为原型不能总是由子概念的单个原型组成。基于几何表示的概念空间为处理典型性提供了更有希望的方法。通过将概念表示为适当概念空间中的凸区域,典型性可以测量为个体点与区域中心的距离。区域的交集表示概念的合取,允许更直观地表示典型性和组合性。因此,概念空间可以统一和概括符号和亚符号方法的方面。15. 分类模型在本节中,我们将介绍认知心理学(CP)领域内提出的几种分类模型。与机器学习(ML)中的分类算法不同,它们的主要目标不仅是模拟一些数据,还要在这些数据上匹配人类的表现。尽管如此,人们仍然可以清楚地认识到ML算法与以下章节中介绍的算法之间的相似之处。总的来说,这些算法基于示例、原型或规则的概念,我们简要定义如下。 示例是类别中项目或事件的具体实例或表示。示例作为类别的具体表现,可以有广泛的变化。它们是个人遇到的并与特定类别关联的个别案例或刺激。例如,不同品种的狗(如拉布拉多或贵宾犬)在更广泛的“狗”类别中作为示例。原型表示类别的中心表示。它们封装了类别最典型或最具说明性的特征,并作为一个心理平均值。原型是基于类别中不同示例之间共同拥有的特征或属性形成的。例如,典型的鸟可能具有翅膀、喙、羽毛和飞行能力等特征,作为“鸟”类别的原型。规则涉及确定类别成员资格的明确标准。它们基于对象或事件必须拥有的特定定义特征或特性,才能被包括在特定类别中。这些标准可以指类别的包含或排除。例如,将汽车归类为“跑车”的规则可能涉及高马力、空气动力学设计和高速能力。 由于这篇综述是为AI读者准备的,我们将在这里使用ML术语,尽管在认知心理学中使用的是略有不同的术语,例如:分类(CP)=分类(ML),刺激(CP)=训练实例(ML),转移刺激(CP)=测试实例(ML),范例(CP)=存储在内存中的实例。15.1. 自适应共振理论7自适应共振理论(ART)(Grossberg,1976a;Grossberg,1976b;Grossberg,2013)试图解释大脑如何在动态环境中学习、分类和预测,同时保持稳定的记忆。它解决了稳定性-可塑性困境,这似乎通过大脑的自我组织性质得到了解决;它指的是在不抹去过去知识的情况下快速和适应性地学习的需求。ART试图阐明解决这一困境的神经机制。ART还关注意图和注意力过程,并强调在关注相关信息时自上而下预期的重要性。它试图模拟当自下而上和自上而下的信号对齐时,共振的大脑状态是如何出现的。这种共振状态通过将注意力引导到正确分类所需的关键特征模式上来促进快速学习。通用ART算法有以下步骤——改编自(da Silva, Elnabarawy & Wunsch, 2019): - 呈现一个输入实例; - 计算每个原型的激活值; - 通过WTA选择激活值最高的原型; - 评估输入与选定原型之间的匹配; - 如果匹配足够,根据输入更新原型; - 如果匹配不足,停用原型; - 重复与其他原型的WTA过程,直到找到匹配的原型; - 如果没有找到合适的原型,根据输入创建一个新原型; - 根据选定或创建的原型生成输出; - 处理下一个输入。15.1.1. ART 1ART 1模型(Carpenter & Grossberg, 1987)考虑二进制输入,并使用汉明距离作为相似性度量。对于输入x,F2中神经元的激活值为:15.1.2. 模糊ART模糊ART(Carpenter, Grossberg & Rosen, 1991)是最受欢迎的ART模型之一。它可以处理实值数据,并使用模糊逻辑操作。通常,输入使用补码编码进行转换,其中x变为[x, 1 – x]。通过这种方式,显式地处理了数据属性的存在和缺失。F2单元的激活定义为:其中β ∈ (0, 1]是学习参数。当β = 1时,ART模型被认为处于快速学习模式。当创建一个新的原型来学习输入x时,它被初始化为w = 1。一般来说,一个神经元不能解释一个概念,正如神经群体中许多概念的群体编码的证据所证明的那样。在ART中代表原型或类的单个神经元可以被认为是代表细胞组装并近似其行为,与神经合理性的目标一致。15.2. 广义上下文模型8广义上下文模型(GCM)(Nosofsky,1984;1986;2011)基于这样一个观点,即分类依赖于将新实例与存储在记忆中的先前遇到的实例(范例)进行比较。它是先前上下文模型(Medin & Schaffer,1978)的扩展。主要思想类似于ML中的k-最近邻算法。然而,GCM使用多维缩放(MDS)来创建问题心理空间的估计,其中实例可以表示为点。MDS依赖于人类受试者来估计实例对之间的相似性,并创建一个表示(通常是2D或3D),其中点之间的距离反映了它们原始的相似性,即相似的项更接近,而不相似的项更远。GCM还强调,相似性是上下文相关的,受到选择性注意力权重的影全局匹配模型(GCM)还强调,相似性是上下文依赖的,受选择性注意权重的影响,这些权重会改变示例嵌入的空间。这些权重会在相关维度上拉伸,在无关维度上收缩。例如,在由一组固定属性定义的花卉空间中,当目标是寻找美丽的花卉时,这些属性可能具有一组权重;而当目标是寻找药用花卉时,则可能具有另一组权重。此外,示例通常具有受呈现频率、最近性或学习期间反馈等因素影响的不同强度。在对测试项进行分类时,相似度高且记忆强度高的示例可能会更多地影响决策。然而,由于检索是概率性的,所有示例都在一定程度上影响分类决策。根据该模型,在测试阶段,实例i被归类到类别c是基于以下方程,这意味着选择的概率来自于对应于备选项的值的归一化,这也被称为Luce的选择规则(Luce,1963):其中m是训练实例的数量,C是类别的数量,vjc是与类别c相关的范例j的记忆强度,sij是实例i和范例j之间的相似度。γ是一个用户定义的正响应缩放参数,影响分类响应的确定性水平。当γ=1时,响应是概率性的,匹配每个类别的相对总和相似度。当γ>1时,响应变得更具确定性,倾向于具有最高总和相似度的类别。记忆强度值v通常由实验设计预先确定,通常根据训练期间每个范例的相对频率设置。例如,在典型的实验中,实例被平等呈现并分配给单个类别,它们的记忆强度设置为1,而未分配的实例对于这些类别的强度为0。 相似度sij的计算公式为:15.3. ALCOVE注意学习覆盖图(ALCOVE)(Kruschke, 1992) 是一种算法,它结合了基于示例的全局匹配模型(GCM)的思想和错误驱动学习,这种学习特征,例如,在神经网络中很常见。ALCOVE通过添加学习机制、允许连续维度,并结合维度注意力学习,对两者都进行了扩展。它的设计受到心理理论的启发,与使用反向传播的标准神经网络不同,因为它的目标是模拟人类学习过程,而不是在广泛训练后将输入映射到期望的输出。ALCOVE作为一个前馈连接主义网络运作。它还假设实例可以使用多维尺度分析(MDS)在心理空间中表示。其一般架构在图15.2中展示。网络的每个输入节点代表一个特定的维度,根据实例在该维度上的值被激活,就像MLP的输入一样。输入节点对后续隐藏层的影响也取决于每个维度的注意力强度,这些强度标志着每个维度对分类任务的相关性。最初,所有维度上的注意力强度都是相等的,但在训练期间会适应,相关维度上的强度会增加,不太相关维度上的强度会减少。这种注意力学习过程赋予了ALCOVE名称的第一部分。 隐藏节点对应于实例空间中的位置,类似于径向基函数网络。在其基本形式中,每个示例对应于一个隐藏节点的位置。更复杂的形式涉及隐藏节点的随机分布,创建了输入空间的覆盖图,这赋予了ALCOVE名称的最后一部分。 隐藏节点的激活由输入(测试)实例与对应隐藏节点的示例之间的相似性决定。这种相似性计算类似于GCM中使用的计算方式:在方程(15.17)中,这里只假设了可分离的维度,因此使用了曼哈顿距离。这个方程还展示了维度注意力强度的作用,在计算输入实例与隐藏节点之间的距离时,它们作为维度的乘数。每个隐藏节点都连接到代表类别成员资格的输出节点。隐藏节点和类别节点之间的连接权重称为关联权重。与全局匹配模型(GCM)不同,在ALCOVE中,关联权重w通过错误驱动的学习规则迭代调整,并且可以假设为实数值,包括负值:为了评估模型性能,使用与GCM中相同的选择规则(Luce,1963)将类别激活转换为响应概率:与使用期望输出值作为目标的MLP的反向传播不同,ALCOVE使用所谓的谦逊教师值tk。例如,如果一个实例属于一个类别,相应的输出节点应该至少有1的激活。如果激活大于1,则差异不被视为错误。这个比喻与一个不介意被他的学生超越的教师有关。对α和w的调整基于梯度下降:15.4. RULEX基于范例的模型允许灵活的数据分类,特别是在规则难以定义的情况下。它们还可以解释类别的分级成员关系,其中一些实例比其他实例更典型。这可能是由许多属性定义的自然对象的分类情况。在抽象谱的另一端,基于规则的模型,如规则加例外(RULEX)(Nosofsky,Palmeri & McKinley,1994;Nosofsky & Palmeri,1998),试图找到简洁的类表示。人们经常根据基于少量重要特征的明确规则或标准对对象和情况进行分类。规则的另一个优点是它们通常可以用语言表达(用词语描述)并且易于理解。基于规则的模型还需要较少的内存和计算资源。一个实验(Rips,1989)在一个明显不等于基于相似性的分类的情况下,为基于规则的分类提供了确凿的证据。人类受试者被要求仅根据直径将一个物体分类为披萨或硬币。他们被呈现的测试实例超出了定义这两个类的正常边界——他们被要求对一个直径为7厘米的物体进行分类,这个物体比正常的硬币大,比正常的披萨小。受试者将这样的物体分类为披萨,因为硬币的大小是有限的,但披萨不是。即使他们认为7厘米的物体更像硬币,他们也会将其分类为披萨,因为他们隐含地应用了一个规则,比如“如果一个物体的直径超过3厘米,它就不能是硬币”(Smith & Sloman,1994)。RULEX模型最初是为了处理二进制数据(Nosofsky,Palmeri & McKinley,1994)而创建的,后来扩展到处理连续(实值)数据(Nosofsky & Palmeri,1998)。基于决策边界理论,它在心理问题的空间内建立了分区,其中边界分隔了不同的类。在最简单的情况下,算法识别单维规则。对于二进制数据,规则可以表示一组对大多数实例相似的值;对于连续数据,规则由一个阈值给出,使得实例在该维度上可以具有更高或更低的值。RULEX还处理区间,即在单个维度上的两个阈值。更复杂的逻辑规则可以通过沿多个维度使用合取和析取的组合这些边界而产生。一旦建立了规则,就会存储例外。对于二进制数据,例外表示与例外实例的确切匹配;对于连续情况,它们基于相似性比较。在涉及多个维度的规则的情况下,例外也可以被定义为这些维度的子集。相似性以与GCM和ALCOVE类似的方式计算。 给定一个规则R和一组对该规则的例外E(R),使用基于例外的分类过程对实例i进行分类的概率为:15.5. ATRIUM统一模型中对规则和项目的关注(ATRIUM)(Erickson & Kruschke,1998)结合了范例和规则方法,在单独的模块中实现,并带有一个竞争性门控机制,该机制决定对于给定的测试实例,应该返回两个单独结果中的哪一个作为模型的输出。其总体架构如图15.3所示。在规则模块中,实例根据它们相对于1D规则边界的放置激活规则节点。规则节点实现了一个sigmoid函数,其中sigmoid的中点代表规则阈值。规则节点通过具有学习权重的连接与类节点相连。范例模块接收与规则模块相同的输入;它将实例解释为心理空间中的点,并更强地激活附近的范例节点,更弱地激活远离的节点。范例节点也通过具有学习权重的连接连接到类节点。这个模块是第15.3节中介绍的ALCOVE的实现。每个实例都由这两个模块并行处理。因此,ATRIUM实现了一种所谓的专家混合方法,其中每个专家(即模块)使用自己的表示形式学习从输入到输出的映射。门控机制学会响应特定输入激活某个模块。选择类别c作为输出的概率由下式给出:范例模块和规则模块的平均准确率分别定义为(其中tk代表方程(15.21)中定义的谦逊教师值,ce和cr是其他参数):根据E,通过梯度下降推导出连接权重和注意力权重的学习方程。它们是复杂的公式,我们将在这里省略,但可以在原始论文(Erickson & Kruschke,1998)中找到。15.6. COVIS9与前述模型不同,言语和内隐系统之间的竞争(COVIS)(Ashby等人,1998)更为复杂,因此在本节中我们仅提供一般描述,不涉及任何方程式。它结合了一个基于陈述性记忆的显式(可言语化)模块,该模块包含规则和假设测试,以及一个称为“程序系统”的内隐(不可言语化)模块,该模块通过神经网络表示和一种强化学习来学习亚符号分类决策。第一个系统可以在可能简单分离类别的情况下快速学习一小套规则。它试图模拟前额叶皮层的功能。第二个系统可以学习更一般的模式,但学习速度慢且是递增的,并且依赖于即时反馈。它试图模拟纹状体的功能,纹状体是基底神经节的主要输入区域。程序学习系统反映了由多巴胺介导的赫布学习创造的增量刺激-反应关联。陈述性记忆依赖于有意识的推理,而非陈述性记忆系统不需要任何有意识的过程。这两个系统竞争提出一个响应,因此COVIS还包含一个决策模块,该模块为每个测试实例选择胜者。由于COVIS基于神经生物学约束的架构,它成功地预测了许多认知心理学实验中的行为和神经科学数据。16.6.1. 显式系统这个系统试图识别相当简单的分类规则。在最简单的情况下,规则是一维的,但在更多维度上可以使用逻辑合取或析取来设想更复杂的规则。这个模块使用具有符号和连接主义组件的混合神经网络实现。规则的选择是明确的,但关于规则显著性的决策标准是通过梯度下降学习的。与问题空间相对应的所有可能规则的集合被认为是可用的。在每个试验中,模型选择其中一个规则进行应用。一维规则由一个特定的阈值(决策标准)定义。如果在试验中使用规则得到正确的响应,那么在下一个试验中该规则将被确定性地再次选中。如果响应不正确,那么规则集中的每个规则都可以根据其权重被选中,权重取决于其奖励历史、坚持的倾向和选择不寻常规则的倾向。这些最后的标准明确地解决了对人类受试者在分类任务上的表现的建模。在COVIS的一些高级版本中,工作记忆由单独的网络实现。一个网络负责维护候选规则,测试它们,并在规则之间切换。另一个网络负责生成或选择新的候选规则。 COVIS预测,当发现当前规则不正确时,最耗时的处理会发生。当一个正确的规则最终被选中时,会有一个从次优到最优性能的突然转变,这模仿了人类的结果。16.6.3. 决定最终响应在两个竞争系统中,整体性能更好的系统决定最终响应。这个决定涉及两个因素:每个系统对其响应准确性的信心以及每个系统的可信度。对于显式系统,信心是判别函数的绝对值,当输入实例在决策界限时为0(低信心),当实例远离界限时为较大值(高信心)。在程序学习系统中,信心被定义为两个隐藏单元中激活值之差的绝对值。对每个系统的信任程度是一个初始偏向显式系统和每个系统之前成功历史的函数。15.7. SUSTAIN10监督和非监督分层自适应增量网络(SUSTAIN)模型(Love,Medin & Gureckis,2004)依赖于原型进行分类。其内部表示由与类别相关联的原型组成,新的(训练)实例被分配给现有原型或通过非监督学习形成新原型。分类决策基于这些原型中包含的信息。该模型还使用针对每个输入维度(问题属性)学习的注意力调谐。其架构如图15.4所示。1. 对简单解决方案的初始偏好。它从单个原型开始,并根据需要在选择性注意的指导下逐步过渡到更复杂的表示,这种选择性注意指向那些看起来在原型级别上更有预测潜力的数据维度;2. 将相似的输入聚集在一起。它通过一个依赖相似性的无监督过程对输入进行分组。随着原型的形成,注意力转移到提供一致匹配的维度;3. 无监督和监督学习的结合。它依赖于这两种类型的学习:当分类正确时,它会根据相似性扩展原型,但当基于相似性将实例分配给现有原型未能提供正确分类时,它会创建新的原型;4. 反馈影响学习的类...
|
|
|
|