PG新聞
News
人類基因組計劃完成20多年來,超過九成的非編碼序列仍是未破譯的“天書”,是基因組的“暗物質(zhì)”。近日,浙江大學(xué)醫(yī)學(xué)院郭國驥、韓曉平教授團(tuán)隊在《細(xì)胞》發(fā)布最新成果,其自主研發(fā)的AI生物大模型“女媧CE”(NvwaCE),為破譯非編碼序列提供了全新的工具。
據(jù)悉,女媧CE大模型能從一級DNA序列出發(fā),精準(zhǔn)預(yù)測脊椎動物基因突變對細(xì)胞的表型影響,精度達(dá)單PG電子通信細(xì)胞級,準(zhǔn)確率超90%。此外,它還成功預(yù)測并經(jīng)實驗驗證了罕見病鐮刀型貧血癥的基因治療位點,成為世界首例AI設(shè)計的人類疾病治療性位點。
“通過深度學(xué)習(xí),那些人類暫時無法理解的復(fù)雜語法,正在被AI學(xué)習(xí)、解析?!惫鶉K就課題最新進(jìn)展,接受了文匯報記者專訪。
人類幾乎所有具體的生理機(jī)能都依靠蛋白質(zhì)來完成。在人類基因組中,編碼序列(對蛋白質(zhì)進(jìn)行編碼,直接表達(dá)為蛋白質(zhì))僅占1-2%,剩下的98%都是非編碼序列(不會直接表達(dá)為蛋白質(zhì),包含調(diào)控序列)。
這98%的非編碼序列,在很長一段時間內(nèi)無法被理解。近年來,隨著AI發(fā)展和生物學(xué)研究的深入,科學(xué)家們發(fā)現(xiàn),這些序列對基因的表達(dá)調(diào)控,有可能被解讀。
“生命科學(xué)研究長期以‘還原論’為主,也就是科學(xué)家會將某個表型還原到某個基因,研究它的調(diào)控和功能。但進(jìn)入調(diào)控序列,這種方法就行不通了。”郭國驥解釋,非編碼序列有一套復(fù)雜精密的“語法系統(tǒng)”,決定了哪個基因在何時、何地、以何種強度表達(dá)。每一個調(diào)控序列的堿基,都可能在不同時間、不同類型細(xì)胞中扮演不同角色。因此,用傳統(tǒng)敲除驗證的方法,就像盲人摸象。
2020年,郭國驥團(tuán)隊完成了小鼠和人類細(xì)胞圖譜的一系列工作,他們開始思考從生物的一級DNA序列尋找細(xì)胞圖譜的編碼模式。當(dāng)時,傳統(tǒng)學(xué)界并不理解?!皯{什么一級DNA序列就會決定終極表型?”但郭國驥認(rèn)為,生物的表觀、表型等復(fù)雜現(xiàn)象之“因”,深植于DNA序列本身。從一級DNA序列出發(fā),研究生物表型,遠(yuǎn)比直接研究生物表型特征之間的聯(lián)系更能找到本質(zhì)規(guī)律。
傳統(tǒng)表型檢測外貌、身高、指紋之類的宏觀表型。郭國驥則將之精細(xì)到單細(xì)胞級別的分子表型?!皢蝹€細(xì)胞里面的分子是什么?我們測的是這種‘沒有偏見’的分子表型。”
為此,團(tuán)隊在傳統(tǒng)的ATAC測序技術(shù)上自主研發(fā)出超高靈敏度、超高通量的單細(xì)胞級測序技術(shù)UUATAC-seq,使測序靈敏度在理論上提升了4倍,通量提升了10到100倍,可以在單日內(nèi)高效繪制一個物種所有類型細(xì)胞核中的染色質(zhì)可及性圖譜。以此為基礎(chǔ),團(tuán)隊科學(xué)家繪制出涵蓋哺乳類、鳥類、兩棲類、爬行類、水生類五大類脊椎動物的單細(xì)胞圖譜數(shù)據(jù)集。
通過研究范式創(chuàng)新獲得高質(zhì)量的數(shù)據(jù),是這個團(tuán)隊的核心科研優(yōu)勢所在。據(jù)介紹,國外許多頂尖的基因組AI模型,比如近日Deepmind團(tuán)隊預(yù)發(fā)表的AlphaGenome,都是基于ENCODE項目進(jìn)行數(shù)據(jù)訓(xùn)練。由于該數(shù)據(jù)集年代久遠(yuǎn)、最長已超過20年,其涵蓋的基本是“群體細(xì)胞”“器官細(xì)胞”或者在體外培養(yǎng)的“細(xì)胞系”數(shù)據(jù),存在分辨率低、不同類型細(xì)胞混雜的問題。用這樣的數(shù)據(jù)集訓(xùn)練AI,好比用一本內(nèi)容模糊、混雜的教材教學(xué)生。
相較而言,女媧CE的訓(xùn)練集堪稱“精品”,所有數(shù)據(jù)在同一技術(shù)標(biāo)準(zhǔn)下產(chǎn)生,精度達(dá)到單細(xì)胞級別,數(shù)據(jù)噪音更少,有高度的可比性與純凈性。
“可以說,我們?yōu)锳I提供了迄今為止最適合學(xué)習(xí)基因調(diào)控語法的訓(xùn)練集?!惫鶉K說。
與依賴大量數(shù)據(jù)、超長掃描窗口(讀長)的生物深度學(xué)習(xí)算法不同,女媧CE采用多任務(wù)框架、超短掃描窗口,直接學(xué)習(xí)從一級DNA序列到生物體所有類型細(xì)胞表型的映射關(guān)系。“AI學(xué)到了一些我們?nèi)祟悤簳r無法理解的復(fù)雜規(guī)則?!惫鶉K說,通過這種規(guī)則,就能讓基因組的“暗物質(zhì)”開口說話,進(jìn)而預(yù)測基因突變帶來的后果。
借助女媧CE,以500堿基對(簡稱bp)的“短窗口”進(jìn)行分段掃描,團(tuán)隊發(fā)現(xiàn),在億萬年的演化長河中,脊椎動物的基因“調(diào)控語法”比其核苷酸序列本身更為保守。
“這意味著,在進(jìn)化過程中,即使物種的某段調(diào)控序列和過去已完全不同,但它們最終行使的功能依然類似。”郭國驥說,這一發(fā)現(xiàn)對達(dá)爾文進(jìn)化論中的“隨機(jī)突變”提出了重要補充:脊椎動物的基因組突變并非完全隨機(jī),適者生存并非僅僅依靠環(huán)境篩選,還有一套深刻的內(nèi)在調(diào)控語法約束著進(jìn)化過程?!叭魏翁鲞@套語法的突變,可能胚胎都無法形成。它在接受自然選擇前,就被生命底層的邏輯淘汰了?!?/p>
這一發(fā)現(xiàn)本身,也成為了女媧CE算法的重要組成部分,讓它擁有超高泛化能力。女媧CE能夠從基因組序列出發(fā),預(yù)測未經(jīng)訓(xùn)練物種的細(xì)胞染色質(zhì)可及性藍(lán)圖,并一次性預(yù)測了包括人、猴、牛、豬、馬、羊、熊貓七個物種的單細(xì)胞調(diào)控原件藍(lán)圖。
女媧CE的正式發(fā)表,也意味著中國科學(xué)家團(tuán)隊在AI基因組大模型研發(fā)的賽道上已先人一步。團(tuán)隊表示,相關(guān)數(shù)據(jù)和模型本身,將會全部開源。
要知道,很多遺傳性疾病、罕見病,都是因為細(xì)胞的表型異常。以往,當(dāng)科學(xué)家們試圖通過基因編輯手段治療這些疾病,只能通過“神農(nóng)嘗百草”的方式,不斷嘗試,嘗試幾百、上千次都不算多的。但是,有了AI,就可以根據(jù)異常表型特征,讓AI預(yù)測哪些基因位點最有可能讓表型恢復(fù)正常。
針對鐮狀細(xì)胞病,女媧CE就預(yù)測出了治療關(guān)鍵位點:胎兒血紅蛋白基因HBG1-68:AG。這是一個全新的、從未被記錄過的位點。進(jìn)一步實驗顯示,該位點在基因編輯后能夠?qū)崿F(xiàn)胎兒血紅蛋白表達(dá)量的顯著提升,這也是科學(xué)家首次在人類細(xì)胞中驗證了基因組AI預(yù)測的功能性位點。
除了“女媧”,還有“華佗”“神農(nóng)”……郭國驥坦言,他偏愛用中國PG電子通信傳統(tǒng)神話為自己的算法命名,這既是對傳統(tǒng)文化的致敬,也寄托了一種希望?!癆I或許最終會超越人類,向著‘神性’發(fā)展,就像神話中的女媧摶土造人,幫我們理解乃至創(chuàng)造生命,解決人類的難題。”
郭國驥團(tuán)隊的下一步計劃,是構(gòu)建虛擬細(xì)胞,將調(diào)控元件模型與網(wǎng)絡(luò)模型、蛋白質(zhì)結(jié)構(gòu)模型等模塊整合,創(chuàng)造出“數(shù)字小鼠”乃至“數(shù)字人類”。有了這樣的“數(shù)字生命”,科學(xué)家就可以高效進(jìn)行虛擬實驗,測試基因突變的影響或篩選疾病藥物和治療位點,從而大幅縮短研發(fā)周期、降低成本,并極大減少實驗動物的使用,讓未來的臨床試驗更安全、更精準(zhǔn)。
業(yè)余時間,郭國驥還是一位歌者。他創(chuàng)作的歌曲《生命》中,有這樣一句歌詞:“宇宙浩瀚無窮盡,卻不及她的珍貴……該如何解開基因的密鎖,該如何理清神經(jīng)的網(wǎng)絡(luò),千山萬水尋尋覓覓,春去秋來上下求索?!蹦菑堈{(diào)色盤般的封面圖,正來自2020年他在《自然》發(fā)表的世界第一份全面的人類細(xì)胞圖譜。