surfshark免费

Anthropic利用特徵解构神经网路提升模型的可解释性

OpenAI的竞争者Anthropic发表的最新人工智慧研究论文〈Decomposing Language Models With Dictionary Learning〉,提出一种称为字典学习的方法,增加对神经网路的解释性。这项研究让Anthropic更能够监控模型,进而引导模型的行为,提高企业和社会在采用人工智慧的安全性和可靠性。

由於神经网路是以资料进行训练,而非根据规则的程式设计,每一步训练,都会更新数百万甚至数十亿个参数,最终使模型得以更好地完成任务,但Anthropic提到,虽然研究人员可以理解训练网路的数学运算,但是却不真正明白模型是如何从一堆数学运算中,导出最後的行为。而这样的状况,使得研究人员很难判断模型出现的问题,而且也难以进行修复。

虽然现今人类已经进行了数十年的神经科学研究,对於大脑的运作有了深入的了解,但是仍然有很多大脑中的谜团尚待解密。类似的情况,人工神经网路也存在难以完全理解的部分,只不过与真实大脑不同,研究人员可以透过实验来探索其中的运作机制。

尽管如此,过去对神经元的实验并没有太多帮助,研究人员透过干预单一神经元,观察该神经元对特定输入的反应,他们发现,单一神经元的活化,与神经网路的整体行为并不一致。在小语言模型中,单一神经元会在英语对话、HTTP请求或是韩语文本等不相关的上下文都很活跃,电脑视觉模型中的同一神经元,可能会对猫脸和汽车都有反应。也就是说,在不同的情况下,神经元的活化可以代表着不同意义。

在Anthropic最新的研究中,研究人员扩大分析单位,不在单一的神经元中寻找规律,而是运用一种称为特徵(Feature)的概念。每个特徵都会对应一群神经元活动模式,这为研究人员提供了新的分析途径,能够将复杂的神经网路解构成更容易理解的单位。

在Transformer语言模型中,研究人员成功将一个包含512个神经元的层,分解成超过4,000个特徵。这些特徵涵盖了DNA序列、法律用语、HTTP请求、希伯来文和营养标示等范畴。此外,研究人员也确认了特徵的解释性远比单一神经元更高。

论文中也提到,研究人员发展了自动解释方法,来验证特徵的可解释性。藉由大型语言模型来生成小模型特徵的描述,并以另一个模型的预测能力对描述进行评分,而实验结果证实,特徵的得分仍高於神经元,如此便证实了特徵的活跃和模型下游行为具一致性。研究人员还发现,在不同模型间所学到的特徵大致通用,因此一个模型从特徵得到的经验,可能适用於其他模型。

这项研究的贡献,在於克服单一神经元的不可解释性,透过将神经元分群成特徵,研究人员将能够更好地理解模型,并且发展更具安全性和可靠性的人工智慧服务。未来Anthropic研究人员会扩大研究范畴,理解大型语言模型的行为。

清风笑客