清華新聞網(wǎng)6月10日電 近日,,清華大學(xué)交叉信息研究院曾堅陽研究組成功開發(fā)了從大規(guī)??茖W(xué)文獻中提取生物醫(yī)學(xué)實體關(guān)系的深度學(xué)習(xí)模型,相關(guān)研究成果“基于機器學(xué)習(xí)的大規(guī)模生物醫(yī)學(xué)關(guān)系自動抽取技術(shù)”(A novel machine learning framework for automated biomedical relation extraction from large-scale literature repositories)于6月8日在《自然·機器智能》(Nature Machine Intelligence)上在線發(fā)表,。
理解藥物,、靶點、病毒,、副作用等等生物醫(yī)學(xué)實體之間的相互作用規(guī)律,是生物醫(yī)學(xué)研究者們長期以來致力于探索和研究的問題,,關(guān)于這些作用規(guī)律的研究成果廣泛分布在超過3000萬篇的科研文獻當中,,且文獻的數(shù)量還在不斷增加。目前,,大多數(shù)知名的生物醫(yī)學(xué)數(shù)據(jù)庫例如DrugBank,、CTD、SIDER和BioGRID,,都是由人類科學(xué)家花費大量的時間和精力從科學(xué)文獻中整理而來的,。雖然深度學(xué)習(xí)技術(shù)可以被用來加速這一過程,,但在生物醫(yī)學(xué)這種專業(yè)性領(lǐng)域,大規(guī)模的訓(xùn)練數(shù)據(jù)卻并非能夠輕易得到,。為了解決這一問題,,曾堅陽研究團隊采用了一種基于遠監(jiān)督的深度學(xué)習(xí)策略,使得模型能夠在不依賴于人工標注數(shù)據(jù)的情況下應(yīng)用到各種生物醫(yī)學(xué)關(guān)系抽取場景當中,。此外,,作者所提出的集成了隱式句法樹學(xué)習(xí)和注意力機制的模型,在多項生物醫(yī)學(xué)關(guān)系抽取任務(wù)當中,,都取得了領(lǐng)先的實驗結(jié)果,。這項研究成果表明,這種新型的機器學(xué)習(xí)框架能夠為生物醫(yī)學(xué)關(guān)系發(fā)現(xiàn)提供有力的幫助,。目前,,該工作已被應(yīng)用到一項旨在從已有的老藥中發(fā)現(xiàn)治療“新冠病毒”(COVID-19)的潛在藥物的工作當中,相關(guān)的研究成果已發(fā)布在生物預(yù)印本網(wǎng)站bioRxiv上(https://www.biorxiv.org/content/10.1101/2020.03.11.986836v1),。
曾堅陽研究組所提出的生物醫(yī)學(xué)關(guān)系自動抽取框架已成功應(yīng)用到多個生物醫(yī)學(xué)場景當中,,包括:通過抽取出的提示性信息指導(dǎo)了若干實驗驗證,從而確認了新的藥物-靶點作用關(guān)系,;在一項針對新冠肺炎的老藥新用研發(fā)任務(wù)中,,該關(guān)系抽取模型被應(yīng)用到一個回顧性研究當中,即通過查找文獻支持來驗證針對“非典”(SARS)或“中東呼吸綜合征”(MERS)的老藥新用策略的可行性,,從而間接證明該老藥新用策略針對“新冠病毒”(COVID-19)的有效性,;針對更多的生物實體間的作用關(guān)系抽取,如病毒-宿主,、藥物-副作用間的關(guān)系抽取,,該框架已在初步實驗中驗證了其有效性。

生物醫(yī)學(xué)實體關(guān)系抽取的流程圖
該論文通訊作者為清華大學(xué)交叉信息院副教授曾堅陽和助理研究員趙誕,,第一作者為清華大學(xué)交叉信息研究院碩士生洪禮翔,。該研究由國家自然科學(xué)基金、南京圖靈人工智能研究院和中關(guān)村海華前沿信息技術(shù)研究院支持,。
原文鏈接:
https://www.nature.com/articles/s42256-020-0189-y
供稿:交叉信息院
編輯:李晨暉
審核:程曦