摘要:Y染色體的基因組區域終于被完全測序。
幾十年來,由于結構上的復雜性,Y染色體一直是基因組學界面臨的眾所周知的挑戰?,F在,這個棘手的基因組區域終于被完全測序。
這一突破性成果最終帶來了端到端的人類染色體序列,并為人類參考基因組增添了3000萬個新堿基,其中大部分來自難以測序的衛星DNA。這些堿基揭示了41個額外的蛋白質編碼基因,并為研究與生殖、進化和種群變化有關的問題提供了重要的見解。
端粒到端粒(T2T)聯盟的研究人員于本周在《Nature》雜志上發表了這項成果。這個聯盟由加州大學圣克魯斯分校生物分子工程學助理教授Karen Miga共同領導。目前,帶有注釋的完整Y染色體參考序列已發布在USUC Genome Browser上,也可通過Github訪問。
共同第一作者、加州大學圣克魯茲分校的博士后研究員Monika Cechova表示:“就在幾年前,幾乎一半的人類Y染色體序列在文獻中還是缺失的。當時我們甚至不知道是否能夠對它進行測序,這太令人困惑了。如今確實發生了巨大的轉變。”
圖1 Y染色體的基因組區域終于被完全測序
完成Y染色體的測序
Y染色體的結構一直具有挑戰性,因為一些DNA是以回文形式排列的(即正向和反向序列相同),跨度長達100多萬個堿基對。此外,Y染色體中有很大一部分是衛星DNA,這也是之前版本的Y染色體參考序列所缺少的。在Y染色體上,兩段衛星DNA相互連接,進一步加大了測序的難度。
研究人員能夠實現Y染色體的無間隙讀取,主要得益于長讀長測序技術的進步以及創新的計算組裝方法,這些方法能夠處理重復序列,并將測序的原始數據轉化為可用的資源。這些新方法讓研究團隊能夠解決Y染色體組裝上的一些重大難題,比如精確地界定回文序列中反轉發生的位置。
美國國家人類基因組研究所的科學家Arang Rhie談到:“在之前的參考基因組中,Y染色體缺少的序列最多。每當我們試圖開展任何分析時,總會發現我們遺漏了一半的Y染色體,這真是令人惱火。我很高興我們能夠整理出第一個完整的Y,看看我們究竟遺漏了什么,以及我們現在可以做什么。”他也是這篇論文的共同第一作者。
2018年,Miga及其同事發布了首個人類Y染色體著絲粒的完整圖譜。2022年,T2T聯盟又發布了首個完整測序的人類基因組(包括所有常染色體和X染色體)。如今,在此基礎上,他們又增加了3000萬個堿基對。
圖2 HG002的X和Y染色體的組裝
推動新的科學研究
Y染色體通常出現在男性個體中,但也可能存在于其他人群中,比如雙性人。雖然Y染色體上的基因相對較少,但卻是復雜和動態的,它們編碼了重要的功能,比如精子發生。完整的Y染色體參考序列將幫助科學家更好地研究人類基因組中這一部分的多個特征。
Y染色體結構復雜,其基因家族迅速進化。事實上,Y染色體是變化最快的人類染色體,這意味著兩個健康人的Y染色體可能看起來完全不同——例如,一個人可能有40個基因拷貝,而另一個人只有19個拷貝。有了新的參考序列和成熟的Y染色體測序方法,人們如今能夠更好地研究這種進化。這也許是未來體外受精或其他不孕不育癥研究的重點。
對研究人類種群進化和漂移的人來說,端到端的Y染色體序列也是一個很重要的資源。這是因為Y染色體是一組遺傳物質代代相傳,很少與外界發生重組,而人類常染色體和X染色體上的基因則不同,它們經常重組并彼此共享遺傳物質。對Y染色體有了更清晰的了解,就可以更容易地追蹤跨代遺傳的基因,并了解基因的位置和內容如何隨著時間而變化。
如今,在Y染色體參考序列中新增了3000萬個堿基后,人們有望研究獨特的Y染色體序列模式,比如兩個衛星DNA的結構以及基因的位置和拷貝數。即使在Y染色體內,基因也被分成幾個區域,這些區域在內容、結構和進化歷史上都大不相同。了解Y染色體的變化速率以及如何解釋這種變化,也是相當有趣的。
圖3 T2T-Y的驗證和修飾
有研究表明,攜帶Y染色體的人隨著年齡增長可能會失去部分或全部遺傳物質,但科學家們還沒有完全弄清這種情況發生的原因及其可能產生的影響。完整的Y染色體參考序列可能有助于解開這個謎團。研究與Y染色體有關的疾病也將變得更加容易,比如精子產生不足。
細菌基因組的污染
這篇論文的一個意外發現是,在過去的研究中,由于細菌DNA中的人類污染未完全去除,Y染色體DNA曾多次被誤認為是細菌DNA。這一發現有望改善對細菌基因組的研究。
人類DNA有可能成為細菌樣本中的污染物,因為細菌DNA通常是從人類皮膚上提取的??茖W家們使用現有的人類基因組參考序列來確定哪些序列來自人類污染,并去除這些序列,只留下細菌DNA用于他們的研究。然而,由于過去的人類參考序列中缺失了Y染色體中的大部分序列,科學家們無法將其識別為人類,因此誤認為是他們正在研究的細菌物種中的一部分。
這篇論文發現的證據表明,在一個公共數據庫中,大約5000個細菌基因組可能含有與人類Y染色體序列相匹配的污染。研究這些細菌物種的團隊可以使用更新的Y參考序列,將所有人類污染從他們的參考基因組中去除,并更清晰地了解細菌基因組。
“這是一件令人驚訝的事情,” Rhie談道。“人們一直在猜測,但直到現在才能證明這種情況真的在發生。”
Y染色體的泛基因組研究
雖然完整的人類Y染色體將為許多新發現打開大門,但研究人員計劃將Y染色體納入未來版本的人類泛基因組,以便進一步改進對該區域的研究。泛基因組是基因組學的一個新參考,它結合了不同祖先背景的多個人的基因組信息,最終有望實現更公平的研究和臨床探索,如診斷疾病、預測醫療結果和指導治療。
研究人員計劃與人類泛基因組參考聯盟合作,將完整的Y染色體序列整合到個體基因組中。這將有助于科學家了解不同祖先背景的人群的Y染色體是如何變化的,并為了解Y染色體在人類多樣性中的作用提供一個更好的參考點。
他們還希望與世界各地的科學家合作,讓其他人也能完成Y染色體測序。
[1] Rhie, A., Nurk, S., Cechova, M. et al. The complete sequence of a human Y chromosome. Nature (2023). https://doi.org/10.1038/s41586-023-06457-y