成果簡介
在此,來自美國斯坦福大學的RHIJU DAS & RON O. DROR等研究者引入了一種機器學習方法,盡管只接受了18種已知RNA結構的訓練,但它可以在不假設其定義特征的情況下識別出準確的結構模型。該論文以題為“Geometric deep learning of RNA structure”發表在國際頂級期刊Science上。
RNA分子,像蛋白質一樣,可折疊成定義良好的三維(3D)結構,以執行廣泛的細胞功能,如催化反應、調節基因表達、調節先天免疫和感知小分子等。了解這些結構,對于理解RNA功能機制、設計合成RNA和發現RNA靶向藥物至關重要。人類目前對RNA結構的了解,遠遠落后于對蛋白質結構的了解:人類基因組轉錄成RNA的部分大約是蛋白質編碼的30倍,但可用的RNA結構的數量是蛋白質的1%。因此,對RNA三維結構的計算預測具有重大意義。
盡管經過幾十年的努力,但預測RNA的3D結構,仍然是一個巨大的挑戰,已經被證明比預測蛋白質結構更困難。對于蛋白質,最先進的預測方法充分利用了相關蛋白質的序列或結構。這種方法在RNA上成功的幾率要小得多,一方面是因為緊密相關RNA的模板結構可用的頻率要低得多,另一方面是因為序列協同進化信息提供的關于RNA中三級接觸的信息較少。此外,設計一個可靠地區分準確的RNA結構模型和不太準確的RNA結構模型的評分函數,已經被證明是困難的,因為能量有利的RNA結構的特征還沒有被充分理解。
這個難題引出了另一個問題,即算法是否可以從已知的RNA結構中學習,以評估不相關RNA結構模型的準確性。這樣的機器學習任務帶來了兩大挑戰:(i)避免假設哪些結構特征,可能區分精確的模型和不精確的模型;以及(ii)從有限數量的RNA結構中學習,已經通過實驗確定。不需要預定義功能的深度學習方法,在許多領域取得了顯著的進展,但它們的成功在很大程度上僅限于數據豐富的領域。
圖文解析
圖1 ARES網絡
ARES不包括:任何關于結構模型的哪些特征與評估其準確性有關的假設。例如,ARES對雙螺旋、堿基對、核苷酸或氫鍵沒有預先的概念。ARES背后的方法根本不是針對RNA的,因此適用于任何類型的分子系統。
ARES網絡的初始層設計用于識別結構主題,這些主題的身份是在訓練過程中學習的,而不是預先指定的。每一層根據周圍原子的幾何排列和前一層計算的特征為每個原子計算若干特征。第一層的唯一輸入是每個原子的三維坐標和化學元素類型。
這些初始網絡層的結構認識到,給定結構基序的實例通常是不同的方向和位置,較粗的基序(如螺旋)通常包含較細的基序(如堿基對)的特定安排。每一層在旋轉和平動上都是等價的——也就是說,其輸入的旋轉或平動導致其輸出的相應變換。這個屬性捕獲了物理對于參考系旋轉或平移的不變性,但確保了已識別主題的方向和位置被傳遞到網絡的下一層,該層可以使用這個信息來識別更粗尺度的主題。
ARES的初始層在局部收集信息,其余層在所有原子間收集信息。這種組合允許ARES預測一個全局屬性(在這種情況下,是結構模型的準確性),同時詳細捕捉局部結構主題和原子間的相互作用。
為了訓練ARES,研究者使用了18個RNA分子,這些RNA分子的實驗確定結構包括從1994年至2006年之間發表的。研究者使用Rosetta FARFAR2采樣方法,生成了每個RNA的1000個結構模型,而沒有使用任何已知的結構。然后,研究者優化了ARES神經網絡的參數,使其輸出與每個模型對應結構的RMSD盡可能接近。
在第一個基準測試中,ARES大大優于其他三個評分函數(圖2A-C)。當使用ARES時,62%的基準RNAs的單一最佳得分結構模型接近原生(<2 ? RMSD),而Rosetta、RASP和3dRNAscore分別為43、33和5%。在使用ARES時,10個評分最高的模型包括81%的基準RNA的至少一個近原生模型,而Rosetta、RASP和3dRNAscore分別為48、48和33%。每個得分最高的近似原生模型,都是在原生結構的能量約束下生成的。
圖2 在識別準確的結構模型方面,ARES大大優于以往的評分函數
在每一種情況下,通過RMSD和變形指數測量,該過程產生了任何參與者提交的最精確的模型(圖3)。對于每個RNA,參賽作品至少由9種其他方法產生,包括使用相同的FARFAR2候選結構模型,但使用Das實驗室人類專家的判斷或Rosetta(2020)評分功能從中選擇的方法。研究者還發現,ARES評分函數的表現優于應用于同一組候選模型的各種其他評分函數,包括最近基于卷積神經網絡的機器學習方法。
圖3 ARES在RNA結構盲預測方面取得了最先進的結果
對訓練后的ARES網絡的分析表明,它自發地發現了RNA結構的某些基本特征。例如,ARES可以正確預測雙螺旋中兩股之間的最佳距離。,允許理想堿基配對的距離(圖4A)。此外,ARES從一組RNA結構中提取的高級特征,反映了每個結構中的氫鍵和Watson-Crick堿基配對的程度(圖4B),盡管研究者從未告知ARES氫鍵和堿基配對是RNA結構形成的關鍵驅動因素。
圖4 ARES學習識別沒有預先指定的RNA結構的關鍵特征
盡管只使用少量結構進行訓練,但ARES仍能超越之前的技術水平,這表明類似的神經網絡可能會在其他領域取得重大進展,包括3D分子結構,而在3D分子結構領域,數據常常是有限的,收集起來也很昂貴。除了結構預測,例子可能包括分子設計(包括蛋白質或核酸等大分子和小分子藥物),估計納米粒子半導體的電磁特性,以及預測合金和其他材料的力學性能。
原文鏈接
Townshend, Raphael JL, et al. “Geometric deep learning of RNA structure.”?Science 373.6558 (2021): 1047-1051.
原創文章,作者:v-suan,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2023/10/15/4e4f296e8d/