清華新聞網(wǎng)10月17日電 近日,清華大學(xué)自動化系汪小我團隊提出了一種將專家知識與大數(shù)據(jù)學(xué)習(xí)相融合的合成啟動子人工智能輔助設(shè)計方法,發(fā)現(xiàn)了轉(zhuǎn)錄因子結(jié)合位點旁側(cè)序列在啟動子優(yōu)化設(shè)計中的重要作用,為突破基因調(diào)控元件設(shè)計中面臨的高維度、小樣本的核心難題提供了新的思路。
近年來,合成生物學(xué)作為一門新興交叉學(xué)科獲得了蓬勃發(fā)展,為破解人類面臨的資源、健康、環(huán)境等重大挑戰(zhàn)提供全新解決途徑。合成生物學(xué)的核心理念是通過對DNA等生物大分子的逆向設(shè)計重構(gòu)獲得具有特定功能的人工生物系統(tǒng)。然而,這些生物分子編碼的組合排列空間十分龐大,序列與功能的映射關(guān)系復(fù)雜,對生物大分子序列進行精準設(shè)計極具挑戰(zhàn)。近期人工智能技術(shù)的突破引發(fā)了自然語言處理、計算機視覺等領(lǐng)域的革命性進步,尤其是以ChatGPT等為代表的生成式智能模型的突破,彰顯出AI在提取復(fù)雜模式、生成復(fù)雜對象上的強大潛力。基于人工智能技術(shù)逆向設(shè)計啟動子等具有特定功能的生物大分子序列,將為合成生物學(xué)的發(fā)展提供強大的設(shè)計工具和豐富的基礎(chǔ)元件。
啟動子是決定基因在何時、何地以何種程度進行轉(zhuǎn)錄表達的合成生物學(xué)基礎(chǔ)元件,設(shè)計具有特定功能的人工啟動子是逆向構(gòu)造人工基因系統(tǒng)的基礎(chǔ)。啟動子中連接不同轉(zhuǎn)錄因子結(jié)合位點的之間的旁側(cè)序列被證明對啟動子功能有著重要影響,但這些旁側(cè)序列的特征難以被人為歸納總結(jié)為明確的知識和設(shè)計準則。同時,由于天然基因組中具有特定轉(zhuǎn)錄因子結(jié)合序列的啟動子數(shù)量稀少,難以直接建立深度學(xué)習(xí)模型對這些啟動子的序列的整體模式進行提取。這些因素導(dǎo)致旁側(cè)序列在設(shè)計中被長期忽視,缺乏有效的對啟動子進行整體優(yōu)化設(shè)計的方法。

知識引導(dǎo)與數(shù)據(jù)驅(qū)動相融合的啟動子輔助設(shè)計方法DeepSEED
針對這一問題,研究團隊創(chuàng)新提出了一種知識引導(dǎo)與數(shù)據(jù)驅(qū)動相融合的智能設(shè)計策略:首先基于人類專家擅長在小樣本中識別明確模式的特點,利用專家知識定義與啟動子功能相關(guān)的重要顯式模式作為“種子”序列;在此基礎(chǔ)上,基于深度學(xué)習(xí)模型擅長在大型數(shù)據(jù)集中檢測隱含弱模式的強大能力,在海量啟動子數(shù)據(jù)中學(xué)習(xí)旁側(cè)序列與種子序列的隱式匹配關(guān)系,進而基于條件生成式模型獲得與特定種子序列相匹配的旁側(cè)序列,對序列整體進行全局優(yōu)化。在實際應(yīng)用過程中,研究者可以任意指定已知生物調(diào)控模式序列作為“種子”序列,模型通過學(xué)習(xí)大數(shù)據(jù)中旁側(cè)序列的調(diào)控規(guī)律對“種子”的旁側(cè)序列進行補全,從而實現(xiàn)啟動子的按需優(yōu)化設(shè)計。研究團隊成功將該方法應(yīng)用于大腸桿菌內(nèi)組成型啟動子、IPTG誘導(dǎo)型啟動子,以及哺乳動物細胞內(nèi)Dox誘導(dǎo)型啟動子的優(yōu)化設(shè)計。模型設(shè)計生成的合成啟動子在表現(xiàn)出高度序列多樣性、與天然基因序列低相似性的同時,保留了天然序列中k-mer頻率等關(guān)鍵統(tǒng)計特征,并優(yōu)化了DNA序列大小溝偏好、偏轉(zhuǎn)角等系統(tǒng)整體屬性,大幅提升了合成啟動子的轉(zhuǎn)錄活性和誘導(dǎo)率等關(guān)鍵性能。該成果有望為合成生物學(xué)研究提供基礎(chǔ)性的設(shè)計工具和多樣化的基因調(diào)控元件。
相關(guān)研究成果以“使用DeepSEED進行側(cè)翼序列深度改造實現(xiàn)高效啟動子設(shè)計”(Deep flanking sequence engineering for efficient promoter design using DeepSEED)為題,于10月9日發(fā)表于《自然·通訊》(Nature Communications)期刊。
清華大學(xué)自動化系博士研究生張鵬程、博士研究生王昊晨與碩士研究生許涵文為該論文的共同第一作者,汪小我教授為該論文的通訊作者。清華大學(xué)的魏磊、劉莉揚、胡志睿等也對本文作出了重要貢獻。該研究得到國家自然科學(xué)基金、國家重點研發(fā)計劃、清華大學(xué)國強研究院項目的資助。
論文鏈接:
https://www.nature.com/articles/s41467-023-41899-y
供稿:自動化系
題圖設(shè)計:曾儀
編輯:李華山
審核:郭玲