目前,包括分子電子學在內的許多領域對使用機器學習(ML)分析數據的研究興趣越來越大。分子電子學,特別是單分子傳輸領域,源于學術界對利用有機分子的獨特材料特性解決傳統固態電子學挑戰的興趣。ML能夠對來自單分子運輸實驗的數據進行更細粒度的分析,但也存在一些阻礙其發展的基本問題。在此,丹麥哥本哈根大學Gemma C. Solomon等人提供了基于來自分子電子學領域,特別是單分子電子傳輸實驗數據的示例,描述了與ML應用相關的關鍵方面以幫助研究人員避免最常見的陷阱。首先,作者概述了單分子傳輸實驗的研究歷史,以便為ML在分子電子學中的使用提供一些直覺。然后,簡要介紹了常見的ML方法,如特征提取、監督學習和聚類等。接下來,作者深入探討了與使用ML相關的主要問題,包括:1)偏差及其在數據分析中的不同表現方式;2)可能由對保留集原理的誤解、交叉驗證陷阱及過于簡單的訓練數據等造成的過度擬合;3)建立對模型的信任及不同的指標選擇如何影響后續分析;4)無監督學習的使用及其獨特的問題集;5)如何使用特征過濾來優化模型并更好地理解模型;6)共享源代碼和數據的必要性等。圖1. 使用ML分析單分子轉運數據的三種不同方法最后,作者展望了未來單分子運輸領域中ML研究的未來發展:(1)數據的新表示將使ML算法和研究人員受益,應做更多的研究來探索可提取多少及什么樣的信息;(2)更豐富的數據表示也將有助于更廣泛地使用傳統統計數據;(3)在跟蹤不一定屬于單個類但可能表現出多個類的特征的情況下,也許更柔和的分類會更有益;(4)降維工具可促進更好地理解高維數據集,如PCA、t-SNE或UMAP等方法。此外,作者還提供了許多用于分析的腳本和數據,可在https://github.com/chem-william/TOM_paper進行訪問,本文使用的數據集也可在https://erda.ku.dk/archives/23e862ff4a66f896a7ef635cbec16e0b/published-archive.html訪問。作者相信,ML領域與單分子運輸領域的潛在結合研究具有很高的潛力。圖2. 過濾特征的信息泄漏導致結果偏差Trusting our machines: validating machine learning models for single-molecule transport experiments, Chemical Society Reviews 2022. DOI: 10.1039/D1CS00884F