清華新聞網(wǎng)11月15日電 蛋白質(zhì)作為最重要的生命構(gòu)建單元之一,其序列和功能之間的映射(適應(yīng)性景觀,F(xiàn)itness landscape)的針對(duì)性研究對(duì)于蛋白質(zhì)理性設(shè)計(jì)以及工程應(yīng)用都有極大的意義。目前人們只能對(duì)于蛋白質(zhì)序列-功能關(guān)系進(jìn)行少量低緯度的點(diǎn)采樣,例如深度突變搜索(DMS)、單位點(diǎn)飽和突變等,或是利用隨機(jī)建庫(kù)等方式以極低概率捕獲序列與功能耦連的關(guān)鍵信息。一些更高效的定向進(jìn)化工具如PACE、OrthoRep等會(huì)使得蛋白質(zhì)空間的搜索深度加深,但由于其專(zhuān)注于產(chǎn)生高適應(yīng)性突變體的特征使得其對(duì)于蛋白功能的全局認(rèn)知不足。一些計(jì)算方法成功構(gòu)建起序列-結(jié)構(gòu)之間的精確關(guān)聯(lián),例如2024年諾貝爾化學(xué)獎(jiǎng)獲獎(jiǎng)?wù)唛_(kāi)發(fā)的AlphaFold, RoseTTAFold等結(jié)構(gòu)預(yù)測(cè)或設(shè)計(jì)算法,并進(jìn)一步試圖利用深度學(xué)習(xí)構(gòu)建序列和功能的映射關(guān)系,但由于缺乏高質(zhì)量大規(guī)模的序列-功能映射數(shù)據(jù),計(jì)算方法的可延展性始終有所限制。總之,受限于蛋白質(zhì)序列空間的高維度與復(fù)雜性(例如,100個(gè)氨基酸的蛋白質(zhì)設(shè)計(jì)空間達(dá)到10130,遠(yuǎn)超宇宙中的原子數(shù)目~1080),研究人員對(duì)這一空間及其映射規(guī)律的理解尚淺,亟待豐富與完善。
近日,清華大學(xué)藥學(xué)院張數(shù)一團(tuán)隊(duì)提出了對(duì)蛋白質(zhì)序列-功能空間進(jìn)行壓縮的概念,開(kāi)發(fā)了進(jìn)化掃描系統(tǒng),可以高效獲取空間壓縮后的錨點(diǎn)(Anchor),并開(kāi)發(fā)了相應(yīng)的EvoAI系統(tǒng),實(shí)現(xiàn)了對(duì)蛋白質(zhì)序列-功能空間的進(jìn)化壓縮和AI重構(gòu),壓縮比可以達(dá)到1048,對(duì)于理解蛋白質(zhì)序列-功能空間映射關(guān)系引入了新的視角。
研究人員首先構(gòu)建了進(jìn)化搜索系統(tǒng)(Evolutionary Scanning, EvoScan)用以對(duì)蛋白進(jìn)行分區(qū)域定向進(jìn)化。該系統(tǒng)改造了噬菌體輔助的連續(xù)定向進(jìn)化系統(tǒng)(PACE)。其中,突變體系來(lái)源EvolvR系統(tǒng)中enCas9-PolIM5復(fù)合蛋白,通過(guò)構(gòu)建其誘導(dǎo)表達(dá)體系來(lái)創(chuàng)建靶向分區(qū)域突變質(zhì)粒(TP)。為了測(cè)試系統(tǒng)的可行性,研究人員先后利用了綠色熒光蛋白EGFP的納米抗體突變體的回復(fù)突變實(shí)驗(yàn)測(cè)試蛋白-蛋白相互作用的靶向進(jìn)化,以及利用SARS-CoV-2主蛋白酶Mpro蛋白對(duì)其抑制劑的逃逸效應(yīng)的進(jìn)化測(cè)試蛋白-配體相互作用的靶向進(jìn)化,證明該系統(tǒng)可以對(duì)gRNA覆蓋的上下游約30bp的區(qū)域進(jìn)行靶向進(jìn)化并得到功能提升的突變體。隨后,研究人員利用EvoScan進(jìn)化了轉(zhuǎn)錄因子AmeR對(duì)于特定DNA序列的抑制能力,設(shè)計(jì)了13條gRNA對(duì)于蛋白進(jìn)行區(qū)域分割,最終在8個(gè)區(qū)域中找到氨基酸突變。研究人員對(duì)這些區(qū)域進(jìn)行隨機(jī)排序,構(gòu)建了8個(gè)不同的進(jìn)化路徑,使進(jìn)化過(guò)程可以遍歷以上8個(gè)區(qū)域,最終產(chǎn)生了82個(gè)功能提升、維度各不相同的錨點(diǎn),并對(duì)上述錨點(diǎn)進(jìn)行基于流式熒光的功能測(cè)試,系統(tǒng)生物學(xué)分析以及上位效應(yīng)(Epistasis)的分析與計(jì)算等。結(jié)果顯示,盡管絕大多數(shù)突變對(duì)于蛋白功能都有不同程度的提升,但不同的單點(diǎn)突變對(duì)于不同的突變組合而言,產(chǎn)生的功能效應(yīng)并非都是提升,一些突變位點(diǎn)能夠提升蛋白功能,但會(huì)干擾其他的突變位點(diǎn)的效應(yīng),這反映了蛋白質(zhì)序列空間的高復(fù)雜度。


圖1.EvoScan系統(tǒng)構(gòu)成和蛋白質(zhì)序列-功能空間壓縮
為了理解和重構(gòu)這個(gè)高緯度復(fù)雜空間,研究人員設(shè)計(jì)了與EvoScan配套的深度學(xué)習(xí)算法,并命名為EvoAI。該方法結(jié)合了預(yù)訓(xùn)練的GeoFitness模型和蛋白質(zhì)語(yǔ)言模型(ESM-2),加上多層感知器(MLP),以提高預(yù)測(cè)蛋白質(zhì)突變效應(yīng)的準(zhǔn)確性。在本研究中EvoAI利用AmeR蛋白82個(gè)突變體的序列-功能映射信息對(duì)模型加以訓(xùn)練,并生成了不同于上述突變體的共1093個(gè)新蛋白,通過(guò)對(duì)于預(yù)測(cè)強(qiáng)度的排序,研究人員測(cè)試了預(yù)測(cè)強(qiáng)度最高的10個(gè)突變體,并將其與僅利用傳統(tǒng)DMS方法預(yù)測(cè)得到的10個(gè)具備相同突變數(shù)量的,強(qiáng)度最高的10個(gè)突變體進(jìn)行強(qiáng)度對(duì)比,結(jié)果顯示,通過(guò)EvoAI預(yù)測(cè)得到的突變體均有顯著的功能提升,而DMS方法得到的突變體多數(shù)均無(wú)顯著功能提升,甚至某些突變體不再具備明顯的抑制功能。這表明EvoAI系統(tǒng)識(shí)別到了通過(guò)信息壓縮得到的高維度蛋白信息,并有效地生成了具備功能的突變體。

圖2.EvoAI原理示意圖和蛋白質(zhì)序列-功能空間重構(gòu)
與現(xiàn)有方法相比,該方法有幾個(gè)重要優(yōu)勢(shì)。首先,它實(shí)現(xiàn)了序列空間廣泛、均勻且精確的采樣,可以快速探索高維并生成更多樣化和功能性的突變體,并提供有關(guān)序列-功能映射的更豐富信息。其次,它整合了基于經(jīng)驗(yàn)的進(jìn)化掃描和深度學(xué)習(xí)模型,充分利用了這兩種不同方法的優(yōu)勢(shì)。研究人員可以使用深度學(xué)習(xí)得到的關(guān)鍵特征來(lái)動(dòng)態(tài)地指導(dǎo)掃描過(guò)程。可解釋性深度學(xué)習(xí)在未來(lái)的進(jìn)一步發(fā)展可能會(huì)揭示潛在的進(jìn)化規(guī)則,并為蛋白質(zhì)如何適應(yīng)和克服進(jìn)化限制提供見(jiàn)解。第三,它可以進(jìn)化和研究缺乏結(jié)構(gòu)信息或涉及具有挑戰(zhàn)性的相互作用的蛋白質(zhì)。EvoScan可以針對(duì)不同的蛋白質(zhì)相互作用捕獲蛋白質(zhì)錨點(diǎn),如蛋白質(zhì)-蛋白質(zhì)、蛋白質(zhì)-配體和蛋白質(zhì)-核酸相互作用。文章中提出的蛋白質(zhì)序列-功能空間壓縮的概念也有望應(yīng)用于不同種類(lèi)的蛋白質(zhì),并對(duì)自然界如何在有限時(shí)間內(nèi)完成蛋白質(zhì)空間的搜索和物種的高效進(jìn)化產(chǎn)生一定的啟發(fā)作用。
相關(guān)研究成果以“EvoAI 實(shí)現(xiàn)蛋白質(zhì)序列空間的極端壓縮和重構(gòu)”(EvoAI enables extreme compression and reconstruction of the protein sequence space)為題,于11月11日發(fā)表于《自然·方法》(Nature Methods)。
清華大學(xué)藥學(xué)院2020級(jí)博士生馬梓源,2019級(jí)博士生李文杰、沈運(yùn)浩以及生命學(xué)院2019級(jí)博士生徐運(yùn)昕為論文共同第一作者,藥學(xué)院助理教授張數(shù)一為論文通訊作者。生命學(xué)院副教授龔海鵬與藥學(xué)院研究員田博學(xué)為研究提供了重要幫助。研究得到國(guó)家科技部重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金、清華大學(xué)篤實(shí)專(zhuān)項(xiàng)基金和北京生物結(jié)構(gòu)前沿研究中心的資助。
論文鏈接:
https://www.nature.com/articles/s41592-024-02504-2
供稿:藥學(xué)院
題圖設(shè)計(jì):韓羽臻
編輯:李華山
審核:郭玲