摘要:Y染色體的基因組區(qū)域終于被完全測序。
幾十年來,由于結(jié)構(gòu)上的復(fù)雜性,Y染色體一直是基因組學(xué)界面臨的眾所周知的挑戰(zhàn)。現(xiàn)在,這個棘手的基因組區(qū)域終于被完全測序。
這一突破性成果最終帶來了端到端的人類染色體序列,并為人類參考基因組增添了3000萬個新堿基,其中大部分來自難以測序的衛(wèi)星DNA。這些堿基揭示了41個額外的蛋白質(zhì)編碼基因,并為研究與生殖、進化和種群變化有關(guān)的問題提供了重要的見解。
端粒到端粒(T2T)聯(lián)盟的研究人員于本周在《Nature》雜志上發(fā)表了這項成果。這個聯(lián)盟由加州大學(xué)圣克魯斯分校生物分子工程學(xué)助理教授Karen Miga共同領(lǐng)導(dǎo)。目前,帶有注釋的完整Y染色體參考序列已發(fā)布在USUC Genome Browser上,也可通過Github訪問。
共同第一作者、加州大學(xué)圣克魯茲分校的博士后研究員Monika Cechova表示:“就在幾年前,幾乎一半的人類Y染色體序列在文獻中還是缺失的。當時我們甚至不知道是否能夠?qū)λM行測序,這太令人困惑了。如今確實發(fā)生了巨大的轉(zhuǎn)變。”
圖1 Y染色體的基因組區(qū)域終于被完全測序
完成Y染色體的測序
Y染色體的結(jié)構(gòu)一直具有挑戰(zhàn)性,因為一些DNA是以回文形式排列的(即正向和反向序列相同),跨度長達100多萬個堿基對。此外,Y染色體中有很大一部分是衛(wèi)星DNA,這也是之前版本的Y染色體參考序列所缺少的。在Y染色體上,兩段衛(wèi)星DNA相互連接,進一步加大了測序的難度。
研究人員能夠?qū)崿F(xiàn)Y染色體的無間隙讀取,主要得益于長讀長測序技術(shù)的進步以及創(chuàng)新的計算組裝方法,這些方法能夠處理重復(fù)序列,并將測序的原始數(shù)據(jù)轉(zhuǎn)化為可用的資源。這些新方法讓研究團隊能夠解決Y染色體組裝上的一些重大難題,比如精確地界定回文序列中反轉(zhuǎn)發(fā)生的位置。
美國國家人類基因組研究所的科學(xué)家Arang Rhie談到:“在之前的參考基因組中,Y染色體缺少的序列最多。每當我們試圖開展任何分析時,總會發(fā)現(xiàn)我們遺漏了一半的Y染色體,這真是令人惱火。我很高興我們能夠整理出第一個完整的Y,看看我們究竟遺漏了什么,以及我們現(xiàn)在可以做什么。”他也是這篇論文的共同第一作者。
2018年,Miga及其同事發(fā)布了首個人類Y染色體著絲粒的完整圖譜。2022年,T2T聯(lián)盟又發(fā)布了首個完整測序的人類基因組(包括所有常染色體和X染色體)。如今,在此基礎(chǔ)上,他們又增加了3000萬個堿基對。
圖2 HG002的X和Y染色體的組裝
推動新的科學(xué)研究
Y染色體通常出現(xiàn)在男性個體中,但也可能存在于其他人群中,比如雙性人。雖然Y染色體上的基因相對較少,但卻是復(fù)雜和動態(tài)的,它們編碼了重要的功能,比如精子發(fā)生。完整的Y染色體參考序列將幫助科學(xué)家更好地研究人類基因組中這一部分的多個特征。
Y染色體結(jié)構(gòu)復(fù)雜,其基因家族迅速進化。事實上,Y染色體是變化最快的人類染色體,這意味著兩個健康人的Y染色體可能看起來完全不同——例如,一個人可能有40個基因拷貝,而另一個人只有19個拷貝。有了新的參考序列和成熟的Y染色體測序方法,人們?nèi)缃衲軌蚋玫匮芯窟@種進化。這也許是未來體外受精或其他不孕不育癥研究的重點。
對研究人類種群進化和漂移的人來說,端到端的Y染色體序列也是一個很重要的資源。這是因為Y染色體是一組遺傳物質(zhì)代代相傳,很少與外界發(fā)生重組,而人類常染色體和X染色體上的基因則不同,它們經(jīng)常重組并彼此共享遺傳物質(zhì)。對Y染色體有了更清晰的了解,就可以更容易地追蹤跨代遺傳的基因,并了解基因的位置和內(nèi)容如何隨著時間而變化。
如今,在Y染色體參考序列中新增了3000萬個堿基后,人們有望研究獨特的Y染色體序列模式,比如兩個衛(wèi)星DNA的結(jié)構(gòu)以及基因的位置和拷貝數(shù)。即使在Y染色體內(nèi),基因也被分成幾個區(qū)域,這些區(qū)域在內(nèi)容、結(jié)構(gòu)和進化歷史上都大不相同。了解Y染色體的變化速率以及如何解釋這種變化,也是相當有趣的。
圖3 T2T-Y的驗證和修飾
有研究表明,攜帶Y染色體的人隨著年齡增長可能會失去部分或全部遺傳物質(zhì),但科學(xué)家們還沒有完全弄清這種情況發(fā)生的原因及其可能產(chǎn)生的影響。完整的Y染色體參考序列可能有助于解開這個謎團。研究與Y染色體有關(guān)的疾病也將變得更加容易,比如精子產(chǎn)生不足。
細菌基因組的污染
這篇論文的一個意外發(fā)現(xiàn)是,在過去的研究中,由于細菌DNA中的人類污染未完全去除,Y染色體DNA曾多次被誤認為是細菌DNA。這一發(fā)現(xiàn)有望改善對細菌基因組的研究。
人類DNA有可能成為細菌樣本中的污染物,因為細菌DNA通常是從人類皮膚上提取的。科學(xué)家們使用現(xiàn)有的人類基因組參考序列來確定哪些序列來自人類污染,并去除這些序列,只留下細菌DNA用于他們的研究。然而,由于過去的人類參考序列中缺失了Y染色體中的大部分序列,科學(xué)家們無法將其識別為人類,因此誤認為是他們正在研究的細菌物種中的一部分。
這篇論文發(fā)現(xiàn)的證據(jù)表明,在一個公共數(shù)據(jù)庫中,大約5000個細菌基因組可能含有與人類Y染色體序列相匹配的污染。研究這些細菌物種的團隊可以使用更新的Y參考序列,將所有人類污染從他們的參考基因組中去除,并更清晰地了解細菌基因組。
“這是一件令人驚訝的事情,” Rhie談道。“人們一直在猜測,但直到現(xiàn)在才能證明這種情況真的在發(fā)生。”
Y染色體的泛基因組研究
雖然完整的人類Y染色體將為許多新發(fā)現(xiàn)打開大門,但研究人員計劃將Y染色體納入未來版本的人類泛基因組,以便進一步改進對該區(qū)域的研究。泛基因組是基因組學(xué)的一個新參考,它結(jié)合了不同祖先背景的多個人的基因組信息,最終有望實現(xiàn)更公平的研究和臨床探索,如診斷疾病、預(yù)測醫(yī)療結(jié)果和指導(dǎo)治療。
研究人員計劃與人類泛基因組參考聯(lián)盟合作,將完整的Y染色體序列整合到個體基因組中。這將有助于科學(xué)家了解不同祖先背景的人群的Y染色體是如何變化的,并為了解Y染色體在人類多樣性中的作用提供一個更好的參考點。
他們還希望與世界各地的科學(xué)家合作,讓其他人也能完成Y染色體測序。
[1] Rhie, A., Nurk, S., Cechova, M. et al. The complete sequence of a human Y chromosome. Nature (2023). https://doi.org/10.1038/s41586-023-06457-y