DPA-1型号是在DP系列型号基础上的全面升级,具有以下优点。
首先,该模型使用类似于自然语言处理领域中的注意力机制的门控注意力机制来完全建模原子之间的相互作用,这使得模型可以在现有数据条件下学习更多。 隐含的原子交互信息可以有效提高模型在不同数据集之间的迁移能力以及数据生成过程中的采样效率。
其次,模型包含编码元素分子势能,不同元素使用相同的网络参数,有利于扩展模型的元素容量。
同时,由于该模型是在56个元素的大数据集上进行预训练,并完成多个下游任务的迁移学习,因此在保证预测精度的同时,可以大大降低训练成本和训练数据量。
此外,该模型具有超高的推理效率,可以进行大规模的分子动力学模拟。
▲图| DPA-1模型示意图(来源:arXiv)
为了有效避免传统模型的局限性,开发人员进行了多次有针对性的实验。
开发人员首先将不同的训练集划分为多个子集,然后训练一些子集,同时测试其他子集。 需要注意的是,这里每个子集的构象和组成都是不同的。 例如,数据集中,子集中只有单元素数据,子集中只有二进制数据,子集中只有三元数据。
最后,开发人员在三种类型的数据集上测试了 DPA-1 和 -SE 这两个模型的性能:合金、固态电解质(SSE,固态)和高熵合金(HEA,High-)。 结果表明,与-SE相比,DPA-1的测试精度可提高一到两个数量级,充分说明了后者强大的迁移能力。
▲图| 在不同训练集上测试时获得的结果(来源:arXiv)
在“预训练+少量数据微调”的模型制作范式下,开发人员为DPA-1规划了迁移学习解决方案。 首先对大规模数据进行模型预训练,然后利用新数据集的统计结果修正最后一层的能量偏差,并将其作为训练新任务的起点。
例如,对数据集中的一元和二元数据进行预训练,对三元数据完成测试。 接下来,在OC2M数据集上进行预训练工作,然后分别迁移到HEA和AlCu数据集。 结果表明分子势能,DPA-1不仅可以在只有三元数据的场景下获得更高的准确率,而且可以有效减少对下游训练数据的依赖。
▲图| DPA-1和-SE在不同数据集上的学习曲线(来源:arXiv)
开发人员还对 DPA-1 中编码的元素参数进行了 PCA 降维和可视化。 结果表明,隐藏空间中的所有元素均呈螺旋状分布,同一时期的元素沿螺旋下降趋势分布,同一族元素垂直于螺旋分布。 这种分布模式因其在元素周期表中的位置而巧妙。 对应关系可以很好地证明模型的可解释性。
▲图| PCA降维及可视化性能图表(来源:arXiv)
目前,团队已在其科学计算云平台上完成了DPA-1的开源工作。 DPA-1的训练和分子动力学模拟功能的开源也在开源社区的-kit项目下实现。
该团队表示:“未来,我们将继续致力于势能函数的自动化生产和自动化测试,并继续专注于多任务训练、无监督学习、模型压缩和蒸馏等操作。此外,更大更全的数据库、下游任务和dflow工作流框架的结合也是发展的方向。”
参考:
1.Duo,Z.,Hang,B.等人。 DPA-1:基于 of 的深度模型。 arXiv (2022)。