核心概念
在理解注意力机制的应用之前,首先要明白数据是如何被处理的: CIF文件作为输入: CIF文件包含了晶体的原子种类、晶胞参数和原子坐标等详细的结构信息。 构建晶体图: CGNNs的第一步就是将CIF文件描述的晶体结构转化为一个图(Graph): 节点(Nodes): 图中的节点代表晶体中的原子(不同的原子种类)。 边(Edges): 图中的边代表原子之间的键/连接(通常基于原子间的距离和晶体的周期性)。 特征向量: 每个节点和边都被赋予一个特征向量,编码了原子属性(如元素类型、价态)和键属性(如键长、周期性边界条件下的相对位置)。注意力机制在CGNN/CIF结构中的应用
注意力机制的核心在于加权聚合,允许模型在聚合邻居信息时,动态地为不同的邻居或特征分配不同的重要性(权重)。
1. 节点级别的注意力(局部关系建模)
这是最常见也最关键的应用,通常发生在图卷积层中(如在晶体图注意力网络 GAT-GNN 或 注意力机制嵌入的 CGCNN 中): 目的: 确定一个中心原子(节点)在聚合其所有邻居原子(和它们之间的键)的信息时,哪个邻居更重要。 作用方式: 对于中心原子 i,模型会计算它与每个邻居原子j之间的注意力系数αij。 这个系数 αij 反映了邻居 j 对中心原子 i 新特征表示的贡献程度。 系数通常是通过一个相似度函数(如前馈神经网络)计算,然后通过 Softmax 进行归一化,确保所有邻居的注意力权重之和为 1。 数学表示(简化): 聚合后的中心节点 i 的新特征 h'i 是邻居特征的加权和:2.特征通道注意力(Dual Attention Mechanism)
有些模型(如 DA-CGCNN)会引入双重注意力机制,其中可能包含通道注意力(Channel Attention):
目的: 确定在原子(节点)或键(边)的特征向量内部,哪一维特征(或哪个“通道”)更重要。 作用方式: 模型为特征向量的每个维度(例如,原子特征向量中表示价电子数的那一维)计算一个权重,以突出或抑制某些特征的贡献。 意义: 例如,模型可能会发现元素周期表的族数这个特征比原子半径对预测某种特定材料性质(如带隙)更重要,并给前者赋予更高的权重。3.全局注意力(图级别)
目的: 在最终从所有原子特征聚合得到整个晶体的表示(Graph-level Representation)时,确定哪个原子(或局部环境)对预测最终的宏观性质最重要。 作用方式: 模型计算图中所有原子对最终性质预测的全局注意力权重。 意义: 例如,在预测材料的形成能时,模型可能会发现晶体中具有缺陷或高配位数的原子(通常是局部不稳定的区域)贡献更大,并给予它们更高的全局权重。