
機器學習力場 (MLFF) 技術正蓬勃發展。然而,要實現現實分子的預測性 MLFF 模擬,仍有幾個挑戰有待解決,包括:(1) 為非局部原子間相互作用開發有效的描述符,以及 (2) 降低描述符的維度增強 MLFF 的適用性和可解釋性。
盧森堡大學的研究團隊提出了一種自動化方法來大幅減少原子間描述符特征的數量,同時保持準確性并提高 MLFF 的效率。研究人員發現非局部特征(在所研究的系統中原子相隔 15 ?)對于保持 MLFF 對肽、DNA 堿基對、脂肪酸和超分子復合物的整體準確性至關重要。
有趣的是,減少的描述符中所需的非局部特征的數量變得與局部原子間特征(小于 5 ?)的數量相當。這些結果為構建全局分子 MLFF 鋪平了道路,其成本隨系統大小呈線性增長,而不是呈二次方增長。
該研究以「Efficient interatomic descriptors for accurate machine learning force fields of extended molecules」為題,于 2023 年 6 月 15 日發布在《Nature Communications》。
可靠的原子力場對于研究(生物)化學系統的動力學、熱力學和動力學至關重要。機器學習力場 (MLFF) 最近成為構建能量和力的原子表示的一種選擇方法。
與傳統的計算化學方法相反,MLFF 使用參考計算的數據集來估計函數形式,這些函數形式可以恢復分子構型與其相應的能量或力之間的復雜映射。該策略允許為從小有機分子到散裝凝聚材料和界面的各種系統構建 MLFF,相對于參考從頭算計算,能量預測誤差低于 1 kcal mol^-1。
MLFF 的應用已經包括了解材料中電子和結構轉變的起源、計算分子光譜、模擬化學反應以及模擬分子的電子激發態。盡管 MLFF 取得了這些巨大的成功,但仍然存在許多開放的挑戰。例如,MLFF 模型對較大分子的適用性有限,部分原因是描述符維度的快速增長。
用于編碼分子配置的描述符決定了 MLFF 捕獲分子中不同類型相互作用的能力。因此,描述符旨在包含強調系統特定方面的特征,或強調不同材料之間的相似化學/物理模式。學界已經提出了許多不同的描述符來為廣闊的化學空間的特定子集構建成功的 MLFF。但是,不能保證給定的描述符能夠準確描述表征柔性分子系統的高維勢能面(PES)中的所有相關特征。這里的主要挑戰是平衡給定 ML 模型所需的特征數量,從而描述短期和長期交互之間的相互作用。
理論上,ML 模型應該能夠正確描述 (i) 遠程交互的非可加性,(ii) 這種交互對交互對象環境的強烈依賴性,(iii) 導致遠程相互作用的多尺度性質的非局部反饋效應。解決這些特征需要開發靈活且同時準確高效的 MLFF,而無需使用嚴格預定義的交互功能形式或強加特征長度尺度。
或者,可以切換到所謂的全局描述符,例如庫侖矩陣,其中考慮了所有原子間距離。不幸的是,這樣的全局描述符與系統大小呈二次方關系。此外,減少全局模型中的描述符維數是一個未解決的挑戰。
為了應對這些挑戰,盧森堡大學的研究團隊提出了一種自動程序,用于識別與大型和柔性分子的描述最相關的全局描述符中的基本特征。
圖示:描述符縮減方案概述。(來源:論文)
研究人員應用開發的方法來識別各種目標系統的有效表示,包括小分子、超分子復合物和所有四大類生物分子(即蛋白質、碳水化合物、核酸和脂質)的單位:阿司匹林(21 個原子)、「巴基捕手」(148 個原子)、丙氨酸四肽(Ac-Ala3-NHMe,42 個原子)、乳糖二糖(45 個原子)、腺嘌呤-胸腺嘧啶 DNA 堿基對(AT-AT,60 個原子)、棕櫚酸脂肪酸(50 個原子)。使用減少的描述符可以提高預測準確性,并將計算效率提高兩到四倍。
圖示:減少描述符的模型的準確性。(來源:論文)
大分子的高效建模需要低維度的描述符,其中包括特定預測任務的相關特征。新方法除了提高效率之外,與使用默認全局或局部描述符構建的模型相比,此類描述符還提高了 ML 模型的準確性。這是簡化了應該由 ML 模型在縮小的描述符空間中學習的交互模式的結果。由此產生的 MLFF 允許進行長時間的分子動力學模擬,從而證明在訓練集中表示的 PES 區域中的穩定行為。
對與準確能量/力預測相關的非局部描述符特征的詳細分析顯示了非平凡的模式。這些模式與分子結構和組成有關,平衡了與描述符特征相關的相互作用強度和這些特征提供的有關原子漲落的統計信息。研究表明,與大至 15? 的原子間距離相關的描述符特征,可以在描述非局部相互作用中發揮重要作用。該團隊列舉的實例涵蓋了所有四大類生物分子和超分子的單元,因此得出的結論適用于范圍廣泛的(生物)化學系統。
這里提出的描述符縮減方案的主要應用是生成的全局描述符與原子數的線性比例。研究人員發現大分子的全局描述符被過度定義,并且可以僅使用少數描述集體遠程相互作用的遠程特征來構建同樣準確的模型。如果有可靠的參考數據可用,這種行為似乎是大分子系統的普遍現象。
總體而言,該工作在機器學習力場的廣泛領域取得了實質性突破。這些突破包括(i)展示了大型系統的全局 MLFF 線性縮放的潛力,(ii)分析有助于準確預測的非局部原子間特征,(iii)在長時間尺度分子動力學模擬中證明簡化模型的準確性、效率和穩定性。因此,這是在不犧牲集體非局部相互作用的情況下為具有數百個原子的系統構建準確、快速且易于訓練的 MLFF 的關鍵步驟。
論文鏈接:https://www.nature.com/articles/s41467-023-39214-w
原創文章,作者:計算搬磚工程師,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2024/01/22/55dec2b740/