Anthropic利用特徵解构神经网路提升模型的可解释性

2023 年 10 月 12 日

OpenAI的竞争者Anthropic发表的最新人工智慧研究论文〈Decomposing Language Models With Dictionary Learning〉，提出一种称为字典学习的方法，增加对神经网路的解释性。这项研究让Anthropic更能够监控模型，进而引导模型的行为，提高企业和社会在采用人工智慧的安全性和可靠性。

由於神经网路是以资料进行训练，而非根据规则的程式设计，每一步训练，都会更新数百万甚至数十亿个参数，最终使模型得以更好地完成任务，但Anthropic提到，虽然研究人员可以理解训练网路的数学运算，但是却不真正明白模型是如何从一堆数学运算中，导出最後的行为。而这样的状况，使得研究人员很难判断模型出现的问题，而且也难以进行修复。

虽然现今人类已经进行了数十年的神经科学研究，对於大脑的运作有了深入的了解，但是仍然有很多大脑中的谜团尚待解密。类似的情况，人工神经网路也存在难以完全理解的部分，只不过与真实大脑不同，研究人员可以透过实验来探索其中的运作机制。

尽管如此，过去对神经元的实验并没有太多帮助，研究人员透过干预单一神经元，观察该神经元对特定输入的反应，他们发现，单一神经元的活化，与神经网路的整体行为并不一致。在小语言模型中，单一神经元会在英语对话、HTTP请求或是韩语文本等不相关的上下文都很活跃，电脑视觉模型中的同一神经元，可能会对猫脸和汽车都有反应。也就是说，在不同的情况下，神经元的活化可以代表着不同意义。

在Anthropic最新的研究中，研究人员扩大分析单位，不在单一的神经元中寻找规律，而是运用一种称为特徵（Feature）的概念。每个特徵都会对应一群神经元活动模式，这为研究人员提供了新的分析途径，能够将复杂的神经网路解构成更容易理解的单位。

在Transformer语言模型中，研究人员成功将一个包含512个神经元的层，分解成超过4,000个特徵。这些特徵涵盖了DNA序列、法律用语、HTTP请求、希伯来文和营养标示等范畴。此外，研究人员也确认了特徵的解释性远比单一神经元更高。

论文中也提到，研究人员发展了自动解释方法，来验证特徵的可解释性。藉由大型语言模型来生成小模型特徵的描述，并以另一个模型的预测能力对描述进行评分，而实验结果证实，特徵的得分仍高於神经元，如此便证实了特徵的活跃和模型下游行为具一致性。研究人员还发现，在不同模型间所学到的特徵大致通用，因此一个模型从特徵得到的经验，可能适用於其他模型。

这项研究的贡献，在於克服单一神经元的不可解释性，透过将神经元分群成特徵，研究人员将能够更好地理解模型，并且发展更具安全性和可靠性的人工智慧服务。未来Anthropic研究人员会扩大研究范畴，理解大型语言模型的行为。