最近基因產(chǎn)業(yè)有點(diǎn)兒火。上月17日,華大基因宣布組建以人工智能為核心的新業(yè)務(wù)機(jī)構(gòu),引起業(yè)界一片猜測(cè);接著7月29日央視全面聚焦精準(zhǔn)醫(yī)療,大篇幅介紹了基因檢測(cè),一下子連街頭的大爺大媽們都嘮起了基因。然而就在這期間,加拿大一家叫Deep Genomics的公司悄然成立了,并迅速占領(lǐng)了國外各大媒體的頭條。
那么這家公司究竟在做什么?又有哪些過人之處?讓我們先看看國外的媒體評(píng)價(jià)。加拿大的《環(huán)球郵報(bào)》表示“這家多倫多創(chuàng)業(yè)公司意圖撼動(dòng)基因測(cè)序市場”;而美國《華盛頓郵報(bào)》則評(píng)價(jià)說“Deep Genomics,一家將深度學(xué)習(xí)的能量帶到基因組學(xué)的創(chuàng)業(yè)公司”;Gizmag稱“Deep Genomics意欲借助深度學(xué)習(xí)改革基因醫(yī)療”;《連線》之前的報(bào)道稱“機(jī)器智能破譯遺傳控制”;《科學(xué)美國人》說得很玄乎,“我們DNA的某些角落暗藏疾病線索–深度學(xué)習(xí)之光照亮基因突變鮮為人知的角落”。
總結(jié)下來,Deep Genomics就是人工智能和基因組學(xué)聯(lián)姻的產(chǎn)物,即“Deep Learning + Genomics”。在用深度學(xué)習(xí)研究基因組學(xué)的時(shí)代,Deep Genomics推開了第一扇窗。
也許你心中有個(gè)大大的疑問,基因檢測(cè)都做了這么長時(shí)間了,很多疾病都可以檢測(cè)了,基因組學(xué)為什么需要深度學(xué)習(xí)技術(shù)?這里舉個(gè)例子,某市突然停電了,為了搞清楚為什么停電,有兩種辦法:第一種是把所有電線全都排查一遍,然后找到損壞的地點(diǎn);第二是選那些平時(shí)就很容易損壞的地點(diǎn)去排查。如果我們對(duì)100個(gè)不同城市的斷電原因做統(tǒng)計(jì)分析,不難發(fā)現(xiàn)有些原因出現(xiàn)的頻率高,有些原因出現(xiàn)的頻率低。
我們?nèi)梭w也一樣,人群中的DNA突變(SNVs)總數(shù)大概數(shù)以億計(jì),其中突變頻率大于1%的叫做SNPs,SNPs大概有300萬個(gè)。要研究疾病與SNPs之間的關(guān)系,需要巨大的患者樣本量,統(tǒng)計(jì)出患者群體與正常人群體SNPs之間的差異。對(duì)于突變頻率小于1%的SNVs,雖然群體數(shù)量龐大,但是單個(gè)并沒有統(tǒng)計(jì)學(xué)意義,所以在疾病的分析中被自動(dòng)屏蔽掉了。從數(shù)量上我們不難看出,基因檢測(cè)如果缺少對(duì)突變頻率小于1%的SNVs的深入分析,精準(zhǔn)醫(yī)療只能被限制在狹小的范圍之內(nèi)。
目前我國衛(wèi)計(jì)委批準(zhǔn)用于臨床檢測(cè)的項(xiàng)目包括:遺傳病診斷、產(chǎn)前篩查與診斷、植入前胚胎遺傳學(xué)診斷和腫瘤診斷與治療。這四類項(xiàng)目它們的共同特點(diǎn)是:疾病僅與一個(gè)或者幾個(gè)易感基因相關(guān)。實(shí)際上,除了單基因遺傳病之外,其他疾病的易感基因多少,取決于對(duì)該疾病的研究程度。比如,目前對(duì)乳腺癌的基因檢測(cè)主要集中在BRCA1和BRCA2基因,目前在這兩個(gè)基因里已經(jīng)發(fā)現(xiàn)了大量的變異,可是我們卻對(duì)這些變異對(duì)乳腺癌的影響缺乏深入的認(rèn)識(shí)。更何況隨著對(duì)乳腺癌樣本研究的深入,已經(jīng)發(fā)現(xiàn)了40個(gè)跟乳腺癌相關(guān)的基因(當(dāng)然,每個(gè)基因里都可能有多個(gè)SNVs)。因此,僅從基因檢測(cè)的角度來講,想要達(dá)到精準(zhǔn)醫(yī)療,還為時(shí)尚早。
Deep Genomics的創(chuàng)始人,加拿大多倫多大學(xué)的Frey教授很早就專注于該領(lǐng)域的研究。他們的學(xué)術(shù)團(tuán)隊(duì)先后在國際頂尖期刊《Science》、《Nature Biotechnology》和《Bioinformatics》刊登了該領(lǐng)域的研究成果,希望利用深度機(jī)器學(xué)習(xí)技術(shù)改造精準(zhǔn)醫(yī)療,基因檢測(cè)、診斷和治療的發(fā)展。
接下來就講講Deep Genomics是如何分析突變頻率小于1%的SNVs與疾病之間的關(guān)系。當(dāng)然,要說清楚Deep Genomics的解決辦法,我們還需要繼續(xù)科普。對(duì)于沒有生物背景、且剛剛了解一點(diǎn)基因知識(shí)的同學(xué)來說,一談起疾病就會(huì)想到基因,但實(shí)際上從基因到疾病還有好幾步。鍋沒有做好,有可能是設(shè)計(jì)圖紙出了問題,也可能是模具出了問題。
假設(shè)我們要做一個(gè)機(jī)器人,我們要先繪制圖紙和材料切割圖(DNA),然后根據(jù)圖紙和材料切割圖制作模具(RNA),再根據(jù)模具制作各種原件(蛋白質(zhì)),最終這些元件組成有功能的機(jī)器人。我們的生命活動(dòng)也是這樣一級(jí)級(jí)實(shí)現(xiàn)的,生命信息從承載基因的DNA,傳遞到RNA,再傳遞到有生物活性的蛋白質(zhì),最終由蛋白質(zhì)實(shí)現(xiàn)所有生命活動(dòng)。
在制作機(jī)器人的過程中,錯(cuò)誤可能出現(xiàn)在圖紙(基因)上,也可能出現(xiàn)在材料切割圖上。兩種錯(cuò)誤都可能導(dǎo)致機(jī)器人功能異?!,F(xiàn)在的基因檢測(cè),分析了基因中出現(xiàn)頻率高的變異對(duì)疾病的影響,而嚴(yán)重忽視了基因剪切變異對(duì)疾病的影響。原因無外乎控制基因剪切變異的出現(xiàn)頻率低,沒有統(tǒng)計(jì)學(xué)意義。但是它們的數(shù)量卻是巨大的–數(shù)以億計(jì)。Deep Genomics目前提供3.28億個(gè)SNVs如何影響RNA(制作模具的材料)剪切的預(yù)測(cè)。那Deep Genomics是如何做到的呢?
根據(jù)目前基因檢測(cè)的思路,是很難對(duì)這些SNVs進(jìn)行分析的。因此,Deep Genomics引入了深入學(xué)習(xí)的人工智能技術(shù)。首先Frey團(tuán)隊(duì)建立了一個(gè)數(shù)學(xué)模型,然后輸入健康人的全基因組序列和RNA序列,對(duì)模型進(jìn)行訓(xùn)練,使模型學(xué)到健康人的RNA剪切模式;接下來,通過其他分子生物學(xué)方法對(duì)訓(xùn)練后的模型進(jìn)行確認(rèn)和校正;最后使用幾個(gè)目前已知的病例數(shù)據(jù),檢驗(yàn)?zāi)P团袛嗟臏?zhǔn)確性。在這一思路的指導(dǎo)下,Deep Genomics推出了他們的第一款產(chǎn)品SPIDEX。只需將測(cè)序結(jié)果和細(xì)胞類型導(dǎo)入,SPIDEX便可分析出某一變異對(duì)RNA剪切的影響,并計(jì)算出該變異與疾病之間的關(guān)系。
如果Deep Genomics的深度學(xué)習(xí)分析變得足夠精確,那么這項(xiàng)技術(shù)的貢獻(xiàn)顯而易見:直接分析突變頻率低的變異與疾病的關(guān)系;加速基因組學(xué)的研究和藥物的開發(fā)。同時(shí)我們要清醒地認(rèn)識(shí)到,目前Deep Genomics的SPIDEX技術(shù)只能分析SNVs引起的RNA剪切變異與疾病的關(guān)系,對(duì)于其他原因?qū)е碌募膊∫矡o能為力。但即便如此,人工智能在基因分析中的應(yīng)用仍然值得期待,也許它會(huì)成為解碼基因與疾病奧秘的一把金鑰匙。
|
|
|
官網(wǎng):www.baichuan365.com |
微信服務(wù)號(hào):iseebio |
微博:seebiobiotech |
|
|
|
商城:mall.seebio.cn |
微信訂閱號(hào):seebiotech |
泉養(yǎng)堂:www.canmedo.com |