日本免费成人网站,久久香蕉成人av,一级高清性爱视屏,男女一级a级网络视频,午夜黄色福利自拍三区,日本三级在线观看网址,免费一级无码爽爽爽,一级黄片高清无码免费在线观看,挺清一级特黄色毛片

新聞動(dòng)態(tài)

Nature系列綜述:?jiǎn)讨巍で鹌胬L制 AI 蛋白質(zhì)設(shè)計(jì)路線圖,逐步指導(dǎo)利用AI工具設(shè)計(jì)蛋白質(zhì)

來源:生物世界

蛋白質(zhì)設(shè)計(jì)(protein design)正在經(jīng)歷一場(chǎng)由人工智能(AI)驅(qū)動(dòng)的革命,徹底改變了我們?yōu)樗幬锇l(fā)現(xiàn)、生物技術(shù)和合成生物學(xué)應(yīng)用而設(shè)計(jì)蛋白質(zhì)的方式。通過駕馭蛋白質(zhì)序列空間的巨大復(fù)雜性,并克服結(jié)構(gòu)和功能數(shù)據(jù)的局限性,AI 能夠以前所未有的精準(zhǔn)度和速度設(shè)計(jì)具有定制功能的新型蛋白質(zhì)。

2025 年 9 月 8 日,哈佛大學(xué)醫(yī)學(xué)院?jiǎn)讨巍で鹌妫℅eorge Church)、Li Li,格里菲斯大學(xué)潘世瑞等人在 Nature 旗下綜述期刊 Nature Reviews Bioengineering 上發(fā)表了題為:AI-driven protein design 的綜述論文。

該綜述的核心是提供一個(gè)全面且可操作的蛋白質(zhì)設(shè)計(jì)路線圖,逐步指導(dǎo)如何將最先進(jìn)的 AI 工具整合到蛋白質(zhì)設(shè)計(jì)工作流程中,包括結(jié)構(gòu)與功能預(yù)測(cè)工具以及用于從頭設(shè)計(jì)的生成式模型。為了在實(shí)踐中說明這一路線圖,作者展示了 AI 驅(qū)動(dòng)蛋白質(zhì)設(shè)計(jì)的案例研究,涵蓋從工程化治療性蛋白質(zhì)到設(shè)計(jì)解鎖酶功能及重編程生物分子系統(tǒng)的新型蛋白質(zhì)。展望未來,該綜述勾勒出未來的發(fā)展方向,強(qiáng)調(diào)了 AI 在革新合成生物學(xué)、加速藥物研發(fā)和推動(dòng)可持續(xù)生物技術(shù)方面的巨大潛力,將其定位為蛋白質(zhì)設(shè)計(jì)前沿的一股變革性力量。

該綜述的要點(diǎn):

AI 從根本上重塑了蛋白質(zhì)設(shè)計(jì),將曾經(jīng)的反復(fù)試驗(yàn)過程轉(zhuǎn)變?yōu)榫哂蓄A(yù)測(cè)性的學(xué)科。如今,由 AI 驅(qū)動(dòng)的工具能夠以前所未有的速度和精度生成、評(píng)估和優(yōu)化蛋白質(zhì)。

該綜述為將 AI 工具融入蛋白質(zhì)設(shè)計(jì)提供了一條切實(shí)可行的路線圖:首先概述了定向進(jìn)化和理性設(shè)計(jì)的工作流程,然后將不斷擴(kuò)大的 AI 工具套件分類為七個(gè)工具包,這些工具包支持工作流程中不同的任務(wù)。

該路線圖將從初始設(shè)計(jì)到蛋白質(zhì)合成以進(jìn)行實(shí)驗(yàn)驗(yàn)證的每個(gè)工作流程步驟與最合適的 AI 工具包相匹配,并指導(dǎo)設(shè)計(jì)人員組裝端到端的 AI 驅(qū)動(dòng)工作流程。

案例研究展示了該路線圖的實(shí)際應(yīng)用,表明工具包如何協(xié)同作用創(chuàng)建由 AI 驅(qū)動(dòng)的工作流程,從而縮短實(shí)驗(yàn)周期,并實(shí)現(xiàn)傳統(tǒng)方法無法企及的功能。

蛋白質(zhì)設(shè)計(jì)長(zhǎng)期以來一直是科學(xué)創(chuàng)新的基石,在藥物研發(fā)、生物技術(shù)和合成生物學(xué)等領(lǐng)域推動(dòng)著突破性進(jìn)展。然而,盡管已取得了許多顯著進(jìn)展,但傳統(tǒng)方法在應(yīng)對(duì)蛋白質(zhì)序列的龐大復(fù)雜性和功能多樣性方面已接近極限。

隨著對(duì)精準(zhǔn)、可擴(kuò)展的設(shè)計(jì)解決方案的需求不斷增長(zhǎng),人工智能(AI)正成為一股變革力量,以應(yīng)對(duì)那些曾經(jīng)被認(rèn)為難以解決的挑戰(zhàn)。

蛋白質(zhì)設(shè)計(jì)主要依賴兩種策略——定向進(jìn)化(directed evolution)和理性設(shè)計(jì)(rational design)。定向進(jìn)化通過引入隨機(jī)突變、篩選大量突變文庫(kù)并選擇具有所需特性的蛋白質(zhì)來模擬自然選擇。相比之下,理性設(shè)計(jì)則依據(jù)結(jié)構(gòu)和功能數(shù)據(jù)進(jìn)行有針對(duì)性的、基于假設(shè)的修改。定向進(jìn)化費(fèi)時(shí)費(fèi)力,而理性設(shè)計(jì)則受限于結(jié)構(gòu)信息的可用性和準(zhǔn)確性。

這兩種方法都無法高效地遍歷巨大的序列空間。即便采用傳統(tǒng)的計(jì)算方法,尋找最優(yōu)設(shè)計(jì)也頗具挑戰(zhàn)性,因?yàn)檫@些方法往往無法充分利用現(xiàn)代硬件的能力,也無法彌補(bǔ)對(duì)蛋白質(zhì)生物物理學(xué)理解上的不足。在蛋白質(zhì)設(shè)計(jì)中,搜索空間本身極其龐大:一個(gè)典型的由 350 個(gè)氨基酸組成的蛋白質(zhì)大約有 10455 種可能的序列,這顯然是一個(gè)龐大到難以想象的數(shù)字(與之相比,可觀測(cè)宇宙中的總原子數(shù)量約為 1082 個(gè)),用常規(guī)方法進(jìn)行詳盡探索是不切實(shí)際的。

人工智能(AI)驅(qū)動(dòng)的進(jìn)步推動(dòng)了新工具的發(fā)展,這些工具定向進(jìn)化和理性設(shè)計(jì)這兩種策略提供了前所未有的速度、規(guī)模和精度。在定向進(jìn)化中,AI 工具能夠準(zhǔn)確地提出有益的突變,并從序列預(yù)測(cè)功能,大大縮短了實(shí)驗(yàn)周期。在理性設(shè)計(jì)中,AI 工具能夠在沒有同源模板的情況下,以接近實(shí)驗(yàn)的精度從序列預(yù)測(cè)結(jié)構(gòu),并從零開始生成新的蛋白質(zhì)。此外,生物分子共折疊模型現(xiàn)在可以直接從序列數(shù)據(jù)預(yù)測(cè)蛋白質(zhì)、核苷酸和小分子之間的多分子復(fù)合物,擴(kuò)大了 AI 驅(qū)動(dòng)設(shè)計(jì)的范圍。

基于深度學(xué)習(xí)方法的 AI 工具已經(jīng)發(fā)展成熟,將其融入蛋白質(zhì)設(shè)計(jì)工作流程不僅可行,而且至關(guān)重要。通過實(shí)現(xiàn)蛋白質(zhì)結(jié)構(gòu)和序列的準(zhǔn)確生成、評(píng)估和優(yōu)化,AI 已將蛋白質(zhì)設(shè)計(jì)從一個(gè)反復(fù)試驗(yàn)的過程轉(zhuǎn)變?yōu)橐粋€(gè)具有預(yù)測(cè)性和高效性的學(xué)科。

為了理解 AI 在蛋白質(zhì)設(shè)計(jì)這一快速發(fā)展的領(lǐng)域所發(fā)揮的作用,作者們提供了一份全面的路線圖,探討了 AI + 蛋白質(zhì)設(shè)計(jì)的關(guān)鍵方面。首先,審視了定向進(jìn)化和理性設(shè)計(jì)所涉及的工作流程,強(qiáng)調(diào)了 AI 的整合如何通過簡(jiǎn)化和優(yōu)化各個(gè)階段來增強(qiáng)這些策略;接下來,深入探討了蛋白質(zhì)設(shè)計(jì)工作流程中每個(gè)步驟可用的特定 AI 工具,說明了這些技術(shù)如何在每個(gè)階段提高效率和精;最后,探討了 AI 驅(qū)動(dòng)的蛋白質(zhì)設(shè)計(jì)在生物技術(shù)、藥物發(fā)現(xiàn)和合成生物學(xué)等領(lǐng)域的當(dāng)前應(yīng)用,并討論了該領(lǐng)域未來的發(fā)展方向。

AI 驅(qū)動(dòng)的蛋白質(zhì)設(shè)計(jì)工具的發(fā)展史

該時(shí)間線突出了蛋白質(zhì)設(shè)計(jì)領(lǐng)域的重要事件,分為三個(gè)不同的階段——

蛋白質(zhì)設(shè)計(jì)的基礎(chǔ)(1950-1990 年代),建立了關(guān)鍵的序列和結(jié)構(gòu)數(shù)據(jù)集,以及蛋白質(zhì)分析和設(shè)計(jì)的基礎(chǔ)工具;

計(jì)算輔助蛋白質(zhì)設(shè)計(jì)(1990-2010 年代),引入了同源建模和用于結(jié)構(gòu)預(yù)測(cè)及蛋白質(zhì)工程的計(jì)算工具,對(duì)蛋白質(zhì)設(shè)計(jì)領(lǐng)域做出了重大貢獻(xiàn)。深度學(xué)習(xí)在 2010 年代的變革性影響在其他領(lǐng)域也顯而易見,比如 AlexNet 在圖像識(shí)別方面的成功以及 AlphaGo 在圍棋領(lǐng)域的突破。這些進(jìn)展最終促成了 2017 年 Transformer 模型的問世,為蛋白質(zhì)設(shè)計(jì)的進(jìn)步奠定了基礎(chǔ)。

AI 驅(qū)動(dòng)的蛋白質(zhì)設(shè)計(jì)(2018 年至今),隨著諸如 AlphaFold 2 等 AI 工具的出現(xiàn)而徹底改變了這一領(lǐng)域,在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面達(dá)到了接近實(shí)驗(yàn)精度。近期的創(chuàng)新包括結(jié)構(gòu)和功能預(yù)測(cè)方法、生成式模型以及 DNA 合成工具,為蛋白質(zhì)設(shè)計(jì)提供了前所未有的能力。展望未來,發(fā)展方向?qū)⒓性谕ㄟ^先進(jìn)的 AI 架構(gòu)來增強(qiáng)蛋白質(zhì)設(shè)計(jì),加速藥物發(fā)現(xiàn)和開發(fā),并拓展合成生物學(xué)的前沿。

蛋白質(zhì)設(shè)計(jì)中的 AI 學(xué)習(xí)范式和模型架構(gòu)

蛋白質(zhì)設(shè)計(jì)中的人工智能學(xué)習(xí)范式和模型架構(gòu)——

a、三種 AI 學(xué)習(xí)范式:(L1)監(jiān)督學(xué)習(xí),使用有標(biāo)簽的數(shù)據(jù)訓(xùn)練模型,包括兩個(gè)子類別:標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí),直接從有標(biāo)簽的示例中學(xué)習(xí)(例如序列-功能預(yù)測(cè)器或結(jié)構(gòu)預(yù)測(cè)模型);標(biāo)簽高效監(jiān)督學(xué)習(xí),減少對(duì)大型有標(biāo)簽數(shù)據(jù)集的依賴;(L2)無監(jiān)督學(xué)習(xí),通過語(yǔ)言建模(預(yù)測(cè)下一個(gè)標(biāo)記或推斷被遮蔽的標(biāo)記)、擴(kuò)散模型(逆轉(zhuǎn)噪聲干擾以恢復(fù)有意義的數(shù)據(jù))、變分自編碼器(捕捉概率潛在空間)和對(duì)比學(xué)習(xí)(區(qū)分相似與不相似的樣本)從無標(biāo)簽數(shù)據(jù)中學(xué)習(xí)模式;(L3)強(qiáng)化學(xué)習(xí),通過與環(huán)境交互來優(yōu)化智能體的長(zhǎng)期決策,其中智能體觀察狀態(tài)、采取行動(dòng)并接收獎(jiǎng)勵(lì)以指導(dǎo)學(xué)習(xí)。關(guān)鍵組件包括策略(將狀態(tài)映射到行動(dòng))、價(jià)值函數(shù)(估計(jì)預(yù)期獎(jiǎng)勵(lì))和模型(預(yù)測(cè)未來狀態(tài)和獎(jiǎng)勵(lì))。

b、具有代表性的模型架構(gòu):(M1)循環(huán)神經(jīng)網(wǎng)絡(luò):將輸入數(shù)據(jù)視為序列,逐步處理以捕獲序列內(nèi)的依賴關(guān)系,例如氨基酸鏈;(M2)Transformer:使用注意力機(jī)制,為輸入序列(或“標(biāo)記”)中的每個(gè)單元分配不同的重要性(或“注意力”),使模型能夠?qū)W習(xí)蛋白質(zhì)序列中殘基或結(jié)構(gòu)中的結(jié)構(gòu)段的長(zhǎng)程關(guān)系;(M3)卷積神經(jīng)網(wǎng)絡(luò):通過應(yīng)用滑動(dòng)窗口捕獲局部結(jié)構(gòu)特征,適用于網(wǎng)格狀數(shù)據(jù);(M4)圖神經(jīng)網(wǎng)絡(luò):將蛋白質(zhì)表示為圖,節(jié)點(diǎn)為原子或殘基,邊為化學(xué)鍵或相互作用;(M5)幾何 3D 網(wǎng)絡(luò):捕獲蛋白質(zhì)的 3D 空間結(jié)構(gòu),在提供 3D 蛋白質(zhì)結(jié)構(gòu)時(shí)可提高折疊和功能預(yù)測(cè)的準(zhǔn)確性。

蛋白質(zhì)設(shè)計(jì)策略與工作流程

蛋白質(zhì)設(shè)計(jì)策略與工作流程——

a、蛋白質(zhì)設(shè)計(jì)項(xiàng)目首先明確目標(biāo),并從功能、結(jié)構(gòu)和可開發(fā)性這三個(gè)維度對(duì)其進(jìn)行評(píng)估,這些評(píng)估結(jié)果將指導(dǎo)設(shè)計(jì)策略的制定,以在廣闊的可探索序列空間中尋找最優(yōu)序列。然后通過三個(gè)階段的迭代循環(huán)來實(shí)現(xiàn)設(shè)計(jì)目標(biāo):(I)確定策略:在定向進(jìn)化和理性設(shè)計(jì)策略之間做出選擇,以指導(dǎo)尋找最優(yōu)序列。定向進(jìn)化是一種結(jié)果驅(qū)動(dòng)的方法,通過反復(fù)篩選突變的蛋白質(zhì)變體來實(shí)現(xiàn)目標(biāo),而理性設(shè)計(jì)是一種知識(shí)驅(qū)動(dòng)的方法,依賴于對(duì)序列 - 結(jié)構(gòu) - 功能關(guān)系的理解來指導(dǎo)設(shè)計(jì)。(II)庫(kù)設(shè)計(jì):此階段設(shè)計(jì)一系列序列以最大程度地提高找到功能性蛋白質(zhì)的機(jī)會(huì)。對(duì)于定向進(jìn)化,首先選擇具有有利特性的現(xiàn)有蛋白質(zhì)(親本選擇),然后使用誘變和多樣化來尋找改進(jìn)的變體;對(duì)于理性設(shè)計(jì),首先闡明驅(qū)動(dòng)蛋白質(zhì)功能的機(jī)制和隨后進(jìn)行有針對(duì)性的修改。(III)篩選與優(yōu)化:設(shè)計(jì)的文庫(kù)序列進(jìn)行 DNA 合成和蛋白質(zhì)表達(dá)以進(jìn)行實(shí)驗(yàn)驗(yàn)證,完成一輪設(shè)計(jì)流程,實(shí)驗(yàn)結(jié)果指導(dǎo)后續(xù)輪次。重復(fù)循環(huán)直至獲得滿足目標(biāo)的蛋白質(zhì),通常涵蓋活性、特異性、可開發(fā)性和穩(wěn)定性等多個(gè)關(guān)鍵特性。項(xiàng)目可能會(huì)結(jié)合這兩種策略來解決蛋白質(zhì)設(shè)計(jì)的各個(gè)方面。

b、利用 AI 工具包推進(jìn)蛋白質(zhì)設(shè)計(jì):AI 工具支持設(shè)計(jì)的每個(gè)階段,從策略定義到蛋白質(zhì)數(shù)據(jù)庫(kù)搜索(T1)、結(jié)構(gòu)預(yù)測(cè)(T2)和功能預(yù)測(cè)(T3),再到蛋白質(zhì)序列(T4)和結(jié)構(gòu)(T5)生成,最后進(jìn)行虛擬篩選(T6)和 DNA 合成(T7),以實(shí)現(xiàn)高效的篩選和驗(yàn)證。

用于蛋白質(zhì)設(shè)計(jì)的人工智能工具包

作者們將 AI 工具分為七個(gè)工具包,每個(gè)工具包包含特定的子工具包:(T1)蛋白質(zhì)數(shù)據(jù)庫(kù)搜索使用序列比對(duì)(T1a)和結(jié)構(gòu)模板(T1b)來檢索候選蛋白質(zhì);(T2)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)從序列預(yù)測(cè)折疊(T2a 和 T2b),評(píng)估結(jié)構(gòu)穩(wěn)定性(T2c)以及建模構(gòu)象動(dòng)力學(xué)(T2d);(T3)蛋白質(zhì)功能預(yù)測(cè)涵蓋基因本體論(T3a)、結(jié)合位點(diǎn)識(shí)別(T3b)以及翻譯后修飾分析(T3c);(T4)蛋白質(zhì)序列生成基于進(jìn)化模式(T4a)、功能標(biāo)簽(T4b)或結(jié)構(gòu)模板(T4c)創(chuàng)建序列;(T5)蛋白質(zhì)結(jié)構(gòu)生成設(shè)計(jì)滿足特定折疊目標(biāo)的結(jié)構(gòu);(T6)虛擬篩選包括結(jié)合和功能活性預(yù)測(cè)(T6a)以及可開發(fā)性和免疫原性評(píng)估(T6b);(T7)DNA 合成執(zhí)行反向翻譯和密碼子優(yōu)化以增強(qiáng)蛋白質(zhì)合成。

AI 驅(qū)動(dòng)的蛋白質(zhì)設(shè)計(jì)路線圖

該路線圖展示了 AI 工具包(a)如何貫穿兩個(gè)階段:庫(kù)設(shè)計(jì)(b)和篩選與優(yōu)化(c),作為從概念到驗(yàn)證開發(fā)人工智能驅(qū)動(dòng)的蛋白質(zhì)設(shè)計(jì)項(xiàng)目的指南。該路線圖應(yīng)在明確目標(biāo)并選定設(shè)計(jì)策略之后應(yīng)用。在每個(gè)階段,編號(hào)步驟(1-6)表示更精細(xì)的任務(wù)操作。b,定向進(jìn)化和理性設(shè)計(jì)都遵循其自身的三步庫(kù)設(shè)計(jì)序列(步驟 1-3,藍(lán)色圖標(biāo))。c,步驟 4-6(紅色圖標(biāo))涉及篩選和優(yōu)化。在每個(gè)步驟中,特定的設(shè)計(jì)任務(wù)(黃色圖標(biāo))指明所需的操作,“工具包:T\#”參考表明每個(gè)任務(wù)所支持的人工智能工具包。a,人工智能工具包:工具被組織成七個(gè)主要工具包(T1-T7),并細(xì)分為服務(wù)于蛋白質(zhì)設(shè)計(jì)各個(gè)方面的小工具包,成熟度水平(萌芽、高級(jí)和成熟)反映了真實(shí)世界中的驗(yàn)證和部署準(zhǔn)備情況。b,定向進(jìn)化設(shè)計(jì)候選庫(kù)三個(gè)步驟:第一步(DE.1),選擇具有基本功能和適應(yīng)性的“母體”蛋白質(zhì);第二步(DE.2),確定關(guān)鍵的突變區(qū)域;第三步(DE.3),引入突變以產(chǎn)生多樣性,從而便于尋找改進(jìn)的變體。相比之下,理性設(shè)計(jì)在三個(gè)步驟中構(gòu)建庫(kù):第一步(RD.1),設(shè)計(jì)滿足特定標(biāo)準(zhǔn)的功能性結(jié)構(gòu);第二步(RD.2),生成預(yù)測(cè)可折疊成該結(jié)構(gòu)的序列;第三步(RD.3),進(jìn)行有針對(duì)性的修改以增強(qiáng)符合設(shè)計(jì)目標(biāo)的特性。c,篩選和優(yōu)化:在庫(kù)設(shè)計(jì)之后,第四步(SO.4)虛擬篩選庫(kù)以提高效率;第五步(SO.5)將蛋白質(zhì)設(shè)計(jì)轉(zhuǎn)化為 DNA 以便在宿主細(xì)胞中表達(dá);第六步(SO.6)通過實(shí)驗(yàn)驗(yàn)證設(shè)計(jì)。如果設(shè)計(jì)通過驗(yàn)證,則目標(biāo)達(dá)成;否則,將重復(fù)使用 AI 預(yù)測(cè)和/或?qū)嶒?yàn)驗(yàn)證,提供反饋以指導(dǎo)庫(kù)設(shè)計(jì)的下一輪迭代。請(qǐng)注意,該路線圖具有靈活性;步驟可以跳過或在中途啟動(dòng)。例如,在理性設(shè)計(jì)中,如果只需對(duì)現(xiàn)有蛋白質(zhì)進(jìn)行細(xì)微修改以實(shí)現(xiàn)優(yōu)化,則直接從第三步(RD.3)開始。

AI 驅(qū)動(dòng)的蛋白質(zhì)設(shè)計(jì)案例研究

a、AI 能驅(qū)動(dòng)的腺相關(guān)病毒(AAV)衣殼定向進(jìn)化:在野生型(WT)AAV2 親本的指定位置引入隨機(jī)突變,生成包含 1010 個(gè) AAV2 序列的虛擬文庫(kù)。利用集成 AI 模型高效篩選這些序列,以預(yù)測(cè)衣殼的存活能力。該過程將文庫(kù)篩選至 20426 個(gè)序列,其中 110689 個(gè)(58.1%)經(jīng)實(shí)驗(yàn)驗(yàn)證為存活序列,包括與野生型相比最多有 29 個(gè)突變的設(shè)計(jì)。

b、AI 驅(qū)動(dòng)的抗體定向進(jìn)化:使用 ESM 蛋白質(zhì)語(yǔ)言模型生成重鏈和輕鏈突變體,通過預(yù)測(cè)最有可能提高總體適應(yīng)性的突變來實(shí)現(xiàn),無需依賴結(jié)構(gòu)或特定功能指導(dǎo)。在每一輪中,對(duì) ESM 生成的前 20 個(gè)或更少的抗體變體進(jìn)行實(shí)驗(yàn)篩選。經(jīng)過兩輪此過程,四個(gè)高度成熟的抗體的結(jié)合親和力提高了多達(dá) 7 倍,三個(gè)不成熟的抗體提高了多達(dá) 160 倍。

c、AI 驅(qū)動(dòng)的理性抗體優(yōu)化:使用 ESM-IF 反向折疊來當(dāng)給定實(shí)驗(yàn)確定的抗體-抗原復(fù)合物時(shí),識(shí)別用于序列生成的有益突變,然后對(duì)合成的變體進(jìn)行實(shí)驗(yàn)篩選。

d、基于 AI 從頭設(shè)計(jì)的熒光素酶的理性設(shè)計(jì):使用 trRosetta 工具生成新的 NTF2 框架,該框架由從結(jié)構(gòu)數(shù)據(jù)庫(kù)中搜索到的類似 NTF2 的結(jié)構(gòu)引導(dǎo),并使用 Rosetta 進(jìn)行拓?fù)湟龑?dǎo)突變預(yù)測(cè)。這些框架進(jìn)一步使用 RifDock(一種蛋白質(zhì)-配體對(duì)接模型)和 RosettaDesign 進(jìn)行優(yōu)化,以優(yōu)化口袋結(jié)構(gòu),而 ProteinMPNN 則用于優(yōu)化和虛擬篩選數(shù)千種新的蛋白質(zhì)序列。實(shí)驗(yàn)篩選確定了幾種活性變體,其中 LuxSit 表現(xiàn)出色,具有出色的熱穩(wěn)定性(熔點(diǎn)> 95°C)和對(duì) DTZ 與合成底物的化學(xué)發(fā)光反應(yīng)的高度特異性。

AI 已將蛋白質(zhì)設(shè)計(jì)從優(yōu)化抗體推進(jìn)到創(chuàng)造新型熒光素酶。然而,設(shè)計(jì)復(fù)雜的多功能蛋白質(zhì),例如大型多結(jié)構(gòu)域組裝體或具有復(fù)雜別構(gòu)網(wǎng)絡(luò)的蛋白質(zhì),仍然具有挑戰(zhàn)性,這凸顯了未來創(chuàng)新的機(jī)會(huì)。

要應(yīng)對(duì)這些挑戰(zhàn),下一代 AI 工具必須建立在堅(jiān)實(shí)且多樣化的數(shù)據(jù)基礎(chǔ)之上。訓(xùn)練數(shù)據(jù)驅(qū)動(dòng)模型學(xué)習(xí),而驗(yàn)證數(shù)據(jù)則用于評(píng)估性能。訓(xùn)練集中的偏差或缺失會(huì)扭曲預(yù)測(cè)結(jié)果,不具代表性的驗(yàn)證數(shù)據(jù)會(huì)誤導(dǎo)開發(fā),掩蓋其真正的效用。因此,穩(wěn)健的數(shù)據(jù)協(xié)議至關(guān)重要。這包括全面的訓(xùn)練庫(kù)、嚴(yán)格的驗(yàn)證以及諸如對(duì)代表性不足的序列進(jìn)行重新加權(quán)等偏差緩解策略。同樣重要的是,AI 工具能夠動(dòng)態(tài)整合新的生物學(xué)和實(shí)驗(yàn)數(shù)據(jù)。例如,Chai-1 通過納入表位條件約束將預(yù)測(cè)準(zhǔn)確率提高了一倍,而變分合成則能夠以優(yōu)化的實(shí)驗(yàn)參數(shù)實(shí)現(xiàn)千萬億級(jí)的合成。利用大規(guī)模、高質(zhì)量的數(shù)據(jù)集可能會(huì)在諸如內(nèi)在無序蛋白質(zhì)等此前難以觸及的領(lǐng)域開辟新的途徑。

除了數(shù)據(jù)之外,可解釋性仍然是一個(gè)關(guān)鍵障礙。許多 AI 工具都像黑箱一樣運(yùn)作,對(duì)其決策過程幾乎毫無解釋。為了促進(jìn)采用和建立信任,需要可解釋的 AI 方法來闡明計(jì)算機(jī)模擬設(shè)計(jì)的基礎(chǔ)。早期使用稀疏自動(dòng)編碼器的努力顯示出發(fā)現(xiàn)可解釋特征的前景,讓人們得以一窺這些工具背后的“思考”過程。

當(dāng)這些方法論基礎(chǔ)就位時(shí),由 AI 驅(qū)動(dòng)的蛋白質(zhì)設(shè)計(jì)有望開啟精準(zhǔn)治療的新時(shí)代,將諸如癌癥相關(guān)但沒有明顯小分子結(jié)合口袋的蛋白質(zhì)等曾經(jīng)“不可成藥”的靶點(diǎn)向蛋白質(zhì)藥物開放。先進(jìn)的 AI 模型能夠微調(diào)結(jié)合特異性,并增強(qiáng)諸如穩(wěn)定性、溶解性和可制造性等特性。這種能力加快了設(shè)計(jì)-制造-測(cè)試-分析的循環(huán),使個(gè)性化、可及的治療成為可能。然而,實(shí)驗(yàn)驗(yàn)證仍然是瓶頸,生物的復(fù)雜性甚至?xí)箿?zhǔn)確的模型轉(zhuǎn)向不相關(guān)的靶點(diǎn)或遺漏關(guān)鍵的疾病機(jī)制。關(guān)鍵屬性(尤其是穩(wěn)定性和免疫原性)的稀疏數(shù)據(jù)也限制了進(jìn)展。擴(kuò)大數(shù)據(jù)覆蓋范圍,例如納入新的高通量穩(wěn)定性測(cè)量或經(jīng)過整理的免疫原性數(shù)據(jù),將增強(qiáng)模型的穩(wěn)健性和可轉(zhuǎn)化性。

AI 驅(qū)動(dòng)的方法也在超越傳統(tǒng)的蛋白質(zhì)工程,后者一直專注于對(duì)天然蛋白質(zhì)進(jìn)行改造或重組已知的功能域。新興的方法現(xiàn)在能夠設(shè)計(jì)出具有自然界中不存在的功能的全新蛋白質(zhì)和生物系統(tǒng)。諸如 family-wide hallucination、RFDiffusion 和 AlphaProteo 等策略在從頭生成結(jié)合蛋白方面實(shí)現(xiàn)了高精度。這種能力的影響不僅限于單個(gè)蛋白質(zhì),還延伸到了更廣泛的合成生物學(xué)領(lǐng)域,在該領(lǐng)域,未來的 AI 工具或許能夠預(yù)測(cè)和優(yōu)化復(fù)雜的基因網(wǎng)絡(luò),從而實(shí)現(xiàn)具有精確控制功能的分子電路。然而,由于細(xì)胞系統(tǒng)的復(fù)雜性以及對(duì)蛋白質(zhì)與其他細(xì)胞成分之間相互作用的新興行為理解有限,設(shè)計(jì)分子電路仍然具有挑戰(zhàn)性。此外,合成生物學(xué)的倫理問題也必須得到解決。

展望未來,AI 有可能設(shè)計(jì)出包含非標(biāo)準(zhǔn)氨基酸或全新化學(xué)骨架的系統(tǒng),從而帶來前所未有的穩(wěn)健性和全新功能,甚至整個(gè)蛋白質(zhì)組的設(shè)計(jì)也變得可以想象——基因組語(yǔ)言模型“Evo”已經(jīng)開始構(gòu)思整個(gè)蛋白質(zhì)組,凸顯了這種可能性(盡管這種能力尚未完全實(shí)現(xiàn),而且由此產(chǎn)生的蛋白質(zhì)組目前還不具備功能)。