新檢索方法可在幾分鐘內找到靶DNA序列

日期：2025-04-03 12:15

瀏覽次數：751

摘要：新檢索方法可在幾分鐘內找到靶DNA序列從數據庫中檢索DNA序列需要花費生物學家和醫學研究人員幾天的時間，多虧美國卡耐基梅隆大學計算機科學家們開發出的一種新的檢索方法，如今這種檢索只需幾分鐘時間就可完成。由計算生物學副教授Carl Kingsford和計算生物學系博士生Brad Solomon開發的這種方法旨在檢索所謂的短測序片段(short reads)，即由高通量測序技術產生的DNA和RNA序列。它依賴一種新的被稱作序列布隆樹(Sequence Bloom Tree, SBT)的索引數據結構。研究人員在于2016年2月8日在線發表在Nature Biotechnology期刊上的...

新檢索方法可在幾分鐘內找到靶DNA序列

從數據庫中檢索DNA序列需要花費生物學家和醫學研究人員幾天的時間，多虧美國卡耐基梅隆大學計算機科學家們開發出的一種新的檢索方法，如今這種檢索只需幾分鐘時間就可完成。

由計算生物學副教授Carl Kingsford和計算生物學系博士生Brad Solomon開發的這種方法旨在檢索所謂的短測序片段(short reads)，即由高通量測序技術產生的DNA和RNA序列。它依賴一種新的被稱作序列布隆樹(Sequence Bloom Tree, SBT)的索引數據結構。研究人員在于2016年2月8日在線發表在Nature Biotechnology期刊上的一篇標題為“Fast search of thousands of short-read sequencing experiments”的論文中，描述了這種數據結構。

美國國家衛生院維護著一個龐大的被稱作序列片段歸檔(Sequence Read Archive)的數據庫，該數據庫總共含有(3×10¹⁵)個堿基對。這種信息對很多研究人員---從對基礎生物學過程提出問題的那些研究人員到研究潛在癌癥**方法的那些研究人員---有用。

Kingsford說，“這種數據庫含有未知數量的迄今為止尚未發現的新認識，而且被人們大量地使用。它的主要問題是檢索比較困難。”

它需要上千個硬盤來儲存這些序列。他注意到，通過短測序片段---通常每個片段長50到200個堿基對---進行搜索以便觀察哪些短測序片段能夠組裝成可能長1萬個堿基對的靶基因，是比較繁瑣的，在某些情形下需要數天時間才能完成。

正如索引能夠加快書本或目錄檢索，這種由Kingsford和Solomon開發的基于SBT的索引能夠極大地加快這種生物信息學數據庫檢索。利用被稱作布隆過濾器(Bloom filters)的數據結構，他們實際上將每個短測序片段描述為一個固定長度的子序列集合。布隆過濾器能夠高效地在小空間中儲存信息，并且能夠測試一種元素是不是一個集合的成員。

在**查詢水平上，SBT能夠判別靶DNA序列是否包含在這個數據庫中。如果包含的話，那么這種檢索進行到下一個水平：SBT指示這種序列是否存在于這個數據庫的前半部分還是后半部分。在每個水平上，這種查詢以某種方式擴散開去直到所需檢索的序列被檢索到。

Kingsford和Solomon利用2652項人血液、乳腺和大腦實驗---其中每項實驗產生的數據經常含有十億多個RNA序列堿基對---產生的數據庫測試了它們的技術。他們發現對這種數據庫的絕大多數的檢索可以在平均20min內完成。作為比較，他們利用現有的被稱作SRA-BLAST和STAR之類的技術估計了所需的檢索時間：SRA-BLAST需要2.2天，而STAR需要921天。

他們注意到，進一步的加快檢索是可能的，這是因為這種新檢索方法每批次能夠同時進行20萬多個查詢。

下一篇：研究人員可能開發對抗幾種埃博拉病毒的單一療法
上一篇：三篇Science論文探討脫發與毛囊干細胞衰老的關系

滬公網安備 31011702004399號

国产一区二区三区久久精品-国产一区二区三区久久-国产一区二区三区精品视频-国产一区二区三区国产精品-国产一区二区三区高清-国产一区二区三区成人久久片

新檢索方法可在幾分鐘內找到靶DNA序列

新檢索方法可在幾分鐘內找到靶DNA序列