摘要
尽管最先进的语言模型在某些领域超越了绝大多数人类,但其推理过程仍然 largely 不透明,这削弱了对其输出的信任。此外,虽然自回归语言模型可以输出显式的推理,但其真实的推理过程是不透明的,这可能带来欺骗和幻觉等风险。本文提出了一种基于原型(参数向量)的自回归语言模型架构——原型Transformer(ProtoT),作为对标准自注意力机制Transformer的替代方案。ProtoT通过输入序列与原型之间的双向通信工作,并展示了原型在训练过程中自动捕捉可命名概念(如“女人”)的能力。这些原型为解释模型的推理过程提供了可能性,并允许有针对性地修改其行为。此外,原型的设计创建了聚合不同时间尺度上下文信息的通信通道,有助于提高可解释性。在计算可扩展性方面,ProtoT的规模随序列长度线性增长,而当前最先进的自注意力Transformer则呈二次增长。与基线相比,ProtoT在模型和数据规模上表现良好,在文本生成和下游任务(GLUE)中也表现出色。ProtoT在输入扰动下的鲁棒性与部分基线相当或更好,但其独特之处在于提供了展示鲁棒性和敏感性如何产生的可解释路径。ProtoT的表现接近最先进的架构,为创建性能优异且可解释的自回归语言模型铺平了道路。
AI 推荐理由
论文聚焦于提升语言模型的推理可解释性,直接关联到推理能力的研究。
论文信息