機器學習(ML)正在對許多研究領域產生影響,在學習基于明確定義的規則或大型高質量數據集的領域中取得了顯著的成功。相比之下,當數據集質量較低且包含模型未正確捕獲的特征時,預測效果可能會比較一般。一些報道嘗試使用ML來預測特定反應的反應條件,似乎只要提供足夠數量的文獻來構建模型就可以獲得準確預測。然而,事實真是如此嗎?
在此,美國伊利諾伊大學厄巴納-香檳分校Martin D. Burke及韓國基礎科學研究所(IBS)Bartosz A. Grzybowski教授等人通過案例研究證明,這可能是一種過于樂觀的解釋,即使有大量精心整理的文獻數據,ML方法可能也不會比文獻中報道的普遍反應條件的估計效果好很多。
換句話說,這些ML模型并沒有提供更多的見解,只是提出了最普遍的反應條件。而這些反應條件本可以通過對文獻案例的簡單統計獲得,這意味著ML沒有實現“機器智能”。具體而言,作者基于精心挑選的>10000篇文獻數據庫并以雜環Suzuki偶聯反應作為案例研究,考慮預測最適合于雜芳基-雜芳基或芳香基-雜芳基Suzuki偶聯反應給定底物的反應條件。
圖1. 預測問題的公式化和基于文獻的反應條件統計
對于具有完整條件信息的>10000個反應示例,該反應似乎提供了足以成功實現 ML預測的反應統計數據。在對鈀的溶劑、堿、溫度和來源進行分類后,作者應用各種神經網絡方法(前饋和圖卷積)、詞嵌入和正樣本-無標簽(PU)學習方法來開發預測模型。
結果表明,即使搜索空間僅限于溶劑和堿,ML模型也不能提供對最佳反應條件的任何有意義的預測。在所有情況下,ML的表現并不比文獻提出的普遍性反應條件好多少。這些結果表明,合成化學中的數據受到了非科學因素的嚴重影響,例如某些化學家對某些協議的主觀偏好,甚至是實驗室中當前化學品的可用性。
因此,作者認為,化學中應用ML研究的前進道路是使用自動化協議生成標準化的數據集,特別是在不同條件下進行的多次重復反應,從而客觀比較和學習好與壞的條件。
圖2. 回歸模型的學習結果
Machine Learning May Sometimes Simply Capture Literature Popularity Trends: A Case Study of Heterocyclic Suzuki–Miyaura Coupling, Journal of the American Chemical Society 2022. DOI: 10.1021/jacs.1c12005
原創文章,作者:v-suan,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2023/10/14/de939c3dd9/