CatBERTa:一種基于 Transformer 的AI模型 能夠處理人類可理解的文本數據
微新創想(idea2003.com)9月8日 消息:CatBERTa 是一種基于 Transformer 的人工智能模型,旨在通過文本輸入進行能量預測。該模型建立在預訓練的 Transformer 編碼器之上,這是一種在自然語言處理任務中表現出色的深度學習模型。
CatBERTa 的獨特之處在于它能夠處理人類可理解的文本數據,并添加用于吸附能量預測的目標特征。這使得研究人員可以以簡單易懂的格式提供數據,提高了模型預測的可用性和可解釋性。
論文地址:https://arxiv.org/abs/2309.00563
研究發現,CatBERTa 傾向于集中關注輸入文本中的特定標記。這些指標與吸附物(附著在表面上的物質)、催化劑的整體組成以及這些元素之間的相互作用有關。CatBERTa 似乎能夠識別和重視影響吸附能量的催化系統的關鍵因素。
研究還強調了相互作用原子作為描述吸附排列的有用術語的重要性。吸附劑中的原子與塊體材料中的原子相互作用對于催化至關重要。有趣的是,與吸附能量的準確預測幾乎沒有影響的是鏈接長度和這些相互作用原子的原子組成。這個結果表明,CatBERTa 可能會優先考慮任務的重要內容,并從文本輸入中提取最相關的信息。
在準確性方面,CatBERTa 在吸附能量預測中顯示出0.75電子伏特的平均絕對誤差(MAE)。這個精度水平與廣泛使用的圖神經網絡(GNNs)相當,用于進行此類預測。CatBERTa 還具有額外的好處,即對于化學上相同的系統,從 CatBERTa 估計的能量可以通過彼此相減有效地消除系統誤差,達到19.3%。這表明,CatBERTa 有潛力大大減少催化劑篩選和反應性評估中預測能量差異的錯誤,這是催化劑研究中至關重要的一部分。
總之,CatBERTa 提供了一種可能的替代傳統的 GNNs 的方法。它展示了提高能量差異預測精度的可能性,為更有效和精確的催化劑篩選程序打開了大門。