一、文章主要内容总结
该研究聚焦视觉Transformer(ViT)的机制可解释性,提出了一种通过将ViT中间表示和参数矩阵投影到类嵌入空间的框架,以揭示其图像分类任务中类别表征的构建过程。核心内容包括:
- 核心方法:借鉴NLP中Transformer的解释思路,将ViT各层隐藏状态(图像token和[CLS]token)及参数矩阵投影到训练过程中学习的类嵌入空间,通过“类可识别性分数”量化中间表示与类原型的对齐程度。
- 关键发现:
- 图像token从模型早期阶段就开始逐步对齐类原型,且其类别表征的发展依赖注意力机制和上下文信息,与[CLS]token无关;
- 自注意力层和MLP层通过“键-值记忆对”机制差异化贡献于类别表征:自注意力层更早产生分散且组合式的更新,MLP层在后期产生更强、更具预测性的类别更新;
- 类标记区域的图像token更早形成明确类别表征,但上下文区域的token可通过注意力机制从类标记区域获取信息,甚至仅依赖上下文就能构建类别表征;
- 应用价值:
- 可解释性:通过梯度方法定位图像中对类别检测关键的区域,支持按层和注意力头可视化;
- 优势验证:相比传统线性探测方法,该框架更高效(仅需一次前向传播)、更精准(直接对齐模型自身的类原型,而非无关特征)。