谷歌大腦發布DeepVariant,用深度學習實現精準基因測序

更新時間:2022-04-03 11:37:59 所屬欄目:基因組 作者:賴佩珊

摘要:在許多科學領域,特別是基因組學領域里,重大突破常常歸功于新技術的應用。例如誕生于1977年的桑格測序法(Sangersequencing),是世界上第一個測定人類DNA序列的方法;后來的微陣列晶片技術(microarraytechnologies)能夠進行大規模全基因組實驗。新的

在許多科學領域,特別是基因組學領域里,重大突破常常歸功于新技術的應用。例如誕生于1977年的桑格測序法(Sanger sequencing),是世界上第一個測定人類DNA序列的方法;后來的微陣列晶片技術(microarray technologies)能夠進行大規模全基因組實驗。新的設備和工具能讓我們深入了解基因組,并將其廣泛應用于醫療、農業和生態環境。

基因組學中最具變革性的新技術之一是高通量測序(HTS),于21世紀初開始投入商業使用。利用HTS,科學家和臨床醫生能夠以較低成本快速、大量地生成測序數據。

人類體內23對染色體可是由30億個鹼基對組成的,而HTS輸出的并不是被分析者完整的基因組序列,而是大約10億個短序列,稱為reads。每個read僅代表100個鹼基對,每個鹼基對的錯誤率在0.1%~10%之間。

于是,將HTS的輸出結果轉化成單一、精確、完整的基因組序列是目前面臨的嚴峻的挑戰,尤其是在生物醫學領域,這一問題促成了許多組織的努力。例如瓶中基因聯盟(GIAB)能夠產生高度可信的基因組,可用于驗證并作為基準測試。以及精準FDA社區挑戰賽,旨在促進創新,提高基于HTS的基因組測試的質量和準確性。

將測序結果與基準基因序列進行比對,會發現與基準不同的鹼基。它可能表示一個鹼基變體,也有可能是一個錯誤

近日,谷歌大腦宣布了一種名為DeepVariant的深度學習技術,它可以從HTS序列數據中重建真正的基因組序列,比以往的方法更準確。這項成果是谷歌大腦團隊與Verily Life Sciences共同合作兩年多的產物,將基因組中的碎片重構問題轉化成谷歌擅長的圖像分類問題。

測序片段與基準序列的對比結果。A:一對染色體上的單核苷酸多態性;B:一條染色體上的鹼基缺失;C:兩條染色體上鹼基缺失;D:錯誤引起的鹼基變異

研究人員首先用GIAB的參考基因組作為樣本,利用這些基因組多處重復的地方,將HTS輸出的數據編碼成多通道的訓練樣本,然后在TensorFlow上訓練圖像分類模型,從實驗數據中識別真正的基因組序列。盡管DeepVariant不具備基因組或HTS相關知識,但不到一年的時間,它就贏得了PrecisionFDA Truth Challenge中的最高SNP性能獎(Highest SNP

Performance)。到目前為止,它的錯誤率比之前下降了50%。

谷歌大腦現已發布開源版DeepVariant,希望能讓這項技術惠及更多地區。另外,他們還與谷歌云平臺(GCP)合作發布了工作流。谷歌大腦的研究人員表示,DeepVariant是第一個將谷歌的計算基礎架構和機器學習應用到基因組中的工具,也是將谷歌技術應用于醫療保健和其他科學中的一部分。

相關內容

歡迎留言:

免费人成网站在线观看TV