JCIM | 生成模型至少應(yīng)該能夠設(shè)計(jì)出與靶標(biāo)結(jié)合良好的分子:一個(gè)新的基準(zhǔn)測試
近日,一篇關(guān)于評估分子生成模型的論文:《Generative Models Should at Least Be Able to Design Molecules That Dock Well: A New Benchmark》于2023年5月發(fā)表在JCIM雜志。作者提出了一個(gè)新的基準(zhǔn)測試,目的是評估生成模型在設(shè)計(jì)與蛋白質(zhì)結(jié)合的分子方面的能力。

研究意義
藥物發(fā)現(xiàn)的核心挑戰(zhàn)之一是設(shè)計(jì)具有所需化學(xué)特性的化合物。從頭設(shè)計(jì)藥物是一種成功的計(jì)算方法,它涉及生成新的潛在配體,如活性分子或者類藥性分子。然而,目前的一個(gè)主要限制是缺乏挑戰(zhàn)性的基準(zhǔn)測試來評估生成的化合物的實(shí)際性能。為了解決這個(gè)問題,作者提出了一個(gè)基于對接的基準(zhǔn)測試,旨在生成得分高的藥物分子。作者的方法可以擴(kuò)展到評估其他分子設(shè)計(jì)方法,并已被其他研究人員采用。這個(gè)基準(zhǔn)測試是化學(xué)研究中的一個(gè)重要進(jìn)展,有助于研究人員更好地評估分子設(shè)計(jì)方法的性能。
主要貢獻(xiàn)
本文的第一個(gè)貢獻(xiàn)是提出了一個(gè)更現(xiàn)實(shí)的基準(zhǔn)測試,以評估從頭設(shè)計(jì)藥物的方法。如圖1所示,該基準(zhǔn)測試基于分子對接,可以更好地模擬真實(shí)藥物發(fā)現(xiàn)的情景。作者還提供了相應(yīng)的代碼和工具,以便評估新模型和重現(xiàn)結(jié)果。該基準(zhǔn)測試已經(jīng)被其他研究人員采用,并證明了其在評估分子設(shè)計(jì)算法方面的有效性。
本文的第二個(gè)貢獻(xiàn)是揭示了當(dāng)前流行的從頭設(shè)計(jì)藥物方法在生成具有生物活性的分子方面的局限性,并且警示在藥物發(fā)現(xiàn)流程中應(yīng)謹(jǐn)慎應(yīng)用這些方法。

基準(zhǔn)測試
本文提出的分子對接的基準(zhǔn)測試是由三個(gè)要素構(gòu)成的:
使用對接軟件計(jì)算生成分子與蛋白的結(jié)合模式
對結(jié)合模式進(jìn)行評分
已計(jì)算對接打分的訓(xùn)練集化合物
基準(zhǔn)測試的目標(biāo)是生成250個(gè)分子,然后取最高的對接分?jǐn)?shù)。
模型評估工作流程
使用代碼庫中提供的鏈接下載與所選藥物靶點(diǎn)相關(guān)的活性數(shù)據(jù)。這些數(shù)據(jù)包含基于實(shí)驗(yàn)Ki的活性類別(活性或非活性)和對接得分。
使用提供的數(shù)據(jù)訓(xùn)練一個(gè)生成模型,優(yōu)化對接得分(或其他優(yōu)化目標(biāo))并生成250個(gè)非重復(fù)分子。
使用Lipinski規(guī)則過濾生成的化合物,并確保每個(gè)分子的分子量大于100。
對過濾后的化合物進(jìn)行對接,并計(jì)算其多樣性和優(yōu)化目標(biāo)的平均值。
對基準(zhǔn)測試中的所有靶標(biāo)和所有優(yōu)化目標(biāo)進(jìn)行重復(fù)測試。
實(shí)驗(yàn)結(jié)果
作者選擇了8個(gè)靶標(biāo),并在ChEMBL數(shù)據(jù)庫獲取標(biāo)有Ki的抑制劑,以100 nM和1000nM分為活性和非活性類別作為模型訓(xùn)練數(shù)據(jù)(表1)。使用SMINA作為對接軟件。在ZINC數(shù)據(jù)庫抽取9,204,719個(gè)分子作為基線對比。選取目前流行的三種生成模型進(jìn)行測試:CVAE、GVAE、REINVENT。

評估發(fā)現(xiàn),應(yīng)用于從頭設(shè)計(jì)藥物的生成模型可能需要更多數(shù)據(jù)才能生成良好的結(jié)合化合物。在關(guān)鍵的對接得分函數(shù)任務(wù)中,模型通常無法超過ZINC數(shù)據(jù)庫中排名前10%的分子。這意味著,在使用生成模型進(jìn)行分子設(shè)計(jì)時(shí),我們需要更多的數(shù)據(jù)和更強(qiáng)大的算法來生成具有更高結(jié)合親和力的化合物。REINVENT在“排斥”(化合物與蛋白質(zhì)之間的排斥作用)任務(wù)上的表現(xiàn)明顯不如GVAE和CVAE。所有模型都無法超過在ZINC數(shù)據(jù)集中找到的排名前10%的分子。相比訓(xùn)練集,REINVENT生成的分子多樣性更低。在氫鍵任務(wù)上,GVAE和REINVENT都生成的分子幾乎與在ZINC數(shù)據(jù)庫排名前1%和訓(xùn)練集中的分子相匹配。圖2和圖3顯示,對接得分與可旋轉(zhuǎn)鍵數(shù)或分子量之間存在一定的強(qiáng)相關(guān)性。隨著可旋轉(zhuǎn)鍵數(shù)或分子量的增加,對接得分會(huì)提高。對于可旋轉(zhuǎn)鍵數(shù),生成的化合物與訓(xùn)練數(shù)據(jù)的邊緣分布混合得很好。另一方面,對于分子量與對接得分的關(guān)系,生成化合物的分布向更好的對接得分和較小的分子量方向移動(dòng)。


從化學(xué)的角度來看,REINVENT 產(chǎn)生了最一致的分子,具有最高的所需生物活性可能性。當(dāng)考慮不同的優(yōu)化方法時(shí),在對接分?jǐn)?shù)優(yōu)化過程中產(chǎn)生了最好的結(jié)果。CVAE和GVAE生成的化合物類藥性較差,但它們?nèi)匀豢梢杂糜趯踊鶞?zhǔn)任務(wù)。
結(jié)論
這篇文章探討了使用生成模型進(jìn)行全新藥物設(shè)計(jì)所面臨的問題。作者提出了一個(gè)新的基準(zhǔn)測試,使用對接得分作為優(yōu)化目標(biāo),以更真實(shí)的方式評估全新生成模型。結(jié)果表明,應(yīng)用于全新藥物發(fā)現(xiàn)流程的生成模型可能需要比通常用于訓(xùn)練的數(shù)據(jù)更多,才能生成更真實(shí)的化合物。盡管優(yōu)化對接得分已經(jīng)是一個(gè)具有挑戰(zhàn)性的任務(wù),但作者認(rèn)為生成優(yōu)化對接得分的化合物是一個(gè)可實(shí)現(xiàn)的任務(wù)。作者希望這個(gè)新的基準(zhǔn)測試能更好地反映真實(shí)發(fā)現(xiàn)問題的復(fù)雜性,并成為開發(fā)更好的全新藥物模型的起點(diǎn)。
參考文獻(xiàn)Ciepliński, Tobiasz et al. “Generative Models Should at Least Be Able to Design Molecules That Dock Well: A New Benchmark.” Journal of chemical information and modeling, 10.1021/acs.jcim.2c01355. 24 May. 2023, doi:10.1021/acs.jcim.2c01355代碼
https://github.com/cieplinski-tobiasz/smina-docking-benchmark.
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請及時(shí)聯(lián)系A(chǔ)IDD Pro (請?zhí)砑游⑿盘杝ixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問題可發(fā)郵件至sixiali@stonewise.cn