關(guān)于測(cè)序常用名詞的解釋整理
高通量測(cè)序技術(shù)(High-throughputsequencing,HTS)是對(duì)傳統(tǒng)Sanger測(cè)序(稱為一代測(cè)序技術(shù))革命性的改變,一次對(duì)幾十萬(wàn)到幾百萬(wàn)條核酸分子進(jìn)行序列測(cè)定,因此在有些文獻(xiàn)中稱其為下一代測(cè)序技術(shù)(nextgenerationsequencing,NGS)足見其劃時(shí)代的改變,同時(shí)高通量測(cè)序使得對(duì)一個(gè)物種的轉(zhuǎn)錄組和基因組進(jìn)行細(xì)致全貌的分析成為可能,所以又被稱為深度測(cè)序(Deepsequencing)。什么是Sanger法測(cè)序(一代測(cè)序)
Sanger法測(cè)序利用一種DNA聚合酶來(lái)延伸結(jié)合在待定序列模板上的引物。直到摻入一種鏈終止核苷酸為止。每一次序列測(cè)定由一套四個(gè)單獨(dú)的反應(yīng)構(gòu)成,每個(gè)反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP),并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基團(tuán),使延長(zhǎng)的寡聚核苷酸選擇性地在G、A、T或C處終止。終止點(diǎn)由反應(yīng)中相應(yīng)的雙脫氧而定。每一種dNTPs和ddNTPs的相對(duì)濃度可以調(diào)整,使反應(yīng)得到一組長(zhǎng)幾百至幾千堿基的鏈終止產(chǎn)物。它們具有共同的起始點(diǎn),但終止在不同的的核苷酸上,可通過高分辨率變性凝膠電泳分離大小不同的片段,凝膠處理后可用X-光膠片放射自顯影或非同位素標(biāo)記進(jìn)行檢測(cè)。
什么是基因組重測(cè)序(GenomeRe-sequencing)
全基因組重測(cè)序是對(duì)基因組序列已知的個(gè)體進(jìn)行基因組測(cè)序,并在個(gè)體或群體水平上進(jìn)行差異性分析的方法。隨著基因組測(cè)序成本的不斷降低,人類疾病的致病突變研究由外顯子區(qū)域擴(kuò)大到全基因組范圍。通過構(gòu)建不同長(zhǎng)度的插入片段文庫(kù)和短序列、雙末端測(cè)序相結(jié)合的策略進(jìn)行高通量測(cè)序,實(shí)現(xiàn)在全基因組水平上檢測(cè)疾病關(guān)聯(lián)的常見、低頻、甚至是罕見的突變位點(diǎn),以及結(jié)構(gòu)變異等,具有重大的科研和產(chǎn)業(yè)價(jià)值。
什么是denovo測(cè)序
denovo測(cè)序也稱為從頭測(cè)序:其不需要任何現(xiàn)有的序列資料就可以對(duì)某個(gè)物種進(jìn)行測(cè)序,利用生物信息學(xué)分析手段對(duì)序列進(jìn)行拼接,組裝,從而獲得該物種的基因組圖譜。獲得一個(gè)物種的全基因組序列是加快對(duì)此物種了解的重要捷徑。隨著新一代測(cè)序技術(shù)的飛速發(fā)展,基因組測(cè)序所需的成本和時(shí)間較傳統(tǒng)技術(shù)都大大降低,大規(guī)模基因組測(cè)序漸入佳境,基因組學(xué)研究也迎來(lái)新的發(fā)展契機(jī)和革命性突破。利用新一代高通量、高效率測(cè)序技術(shù)以及強(qiáng)大的生物信息分析能力,可以高效、低成本地測(cè)定并分析所有生物的基因組序列。
測(cè)序名詞關(guān)系圖
什么是fragments
fragments就是打成的片段,而測(cè)序測(cè)的就是這些fragments,測(cè)出來(lái)的結(jié)果就是reads,又可以分為單端側(cè)和雙端側(cè),單端測(cè)序的話,只是從fragments的一端測(cè)序,測(cè)多長(zhǎng)read就多長(zhǎng),雙端測(cè)序就是從一個(gè)fragments的兩端測(cè),就會(huì)得出兩個(gè)reads
什么是Reads
高通量測(cè)序平臺(tái)產(chǎn)生的序列就稱為reads。
(測(cè)序讀到的堿基序列片段,測(cè)序的最小單位;)
什么是Contig
拼接軟件基于reads之間的overlap區(qū),拼接獲得的序列稱為Contig(重疊群)。(由reads通過對(duì)overlap區(qū)域拼接組裝成的沒有g(shù)ap的序列段;)
什么是ContigN50
Reads拼接后會(huì)獲得一些不同長(zhǎng)度的Contigs。將所有的Contig長(zhǎng)度相加,能獲得一個(gè)Contig總長(zhǎng)度。然后將所有的Contigs按照從長(zhǎng)到短進(jìn)行排序,如獲得Contig1,Contig2,Contig3...???Contig25。將Contig按照這個(gè)順序依次相加,當(dāng)相加的長(zhǎng)度達(dá)到Contig總長(zhǎng)度的一半時(shí),最后一個(gè)加上的Contig長(zhǎng)度即為ContigN50。舉例:Contig1+Contig2+Contig3+Contig4=Contig
總長(zhǎng)度*1/2時(shí),Contig4的長(zhǎng)度即為ContigN50。ContigN50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。
什么是Scaffold
基因組denovo測(cè)序(沒有參考基因組的測(cè)序,需要研究人員從頭拼接得到的序列),通過reads拼接獲得Contigs后,往往還需要構(gòu)建454Paired-end庫(kù)或IlluminaMate-pair庫(kù),以獲得一定大小片段(如3Kb、6Kb、10Kb、20Kb)兩端的序列;谶@些序列,可以確定一些Contig之間的順序關(guān)系,這些先后順序已知的Contigs組成Scaffold。
(通過pairends信息確定出的contig排列,中間有g(shù)ap)
什么是ScaffoldN50
ScaffoldN50與ContigN50的定義類似。Contigs拼接組裝獲得一些不同長(zhǎng)度的Scaffolds。將所有的`Scaffold長(zhǎng)度相加,能獲得一個(gè)Scaffold總長(zhǎng)度。然后將所有的Scaffolds按照從長(zhǎng)到短進(jìn)行排序,如獲得Scaffold1,Scaffold2,Scaffold3...???Scaffold25。將Scaffold按照這個(gè)順序依次相加,當(dāng)相加的長(zhǎng)度達(dá)到Scaffold總長(zhǎng)度的一半時(shí),最后一個(gè)加上的Scaffold長(zhǎng)度即為ScaffoldN50。舉例:Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold總長(zhǎng)度*1/2時(shí),Scaffold5的長(zhǎng)度即為ScaffoldN50。ScaffoldN50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。
什么是測(cè)序深度和覆蓋度
測(cè)序深度:是指測(cè)序得到的總堿基數(shù)與待測(cè)基因組大小的比值。假設(shè)一個(gè)基因大小為2M,測(cè)序深度為10X,那么獲得的總數(shù)據(jù)量為20M。
覆蓋度:是指測(cè)序獲得的序列占整個(gè)基因組的比例。
Gap:由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測(cè)序最終拼接組裝獲得的序列往往無(wú)法覆蓋有所的區(qū)域,這部分沒有獲得的區(qū)域就稱為。例如一個(gè)細(xì)菌基因組測(cè)序,覆蓋度是98%,那么還有2%的序列區(qū)域是沒有通過測(cè)序獲得的。
什么是RPKM、FPKM
RPKM,ReadsPerKilobaseofexonmodelperMillionmappedreads,isdefinedinthisway[Mortazavietal.,2008]:
每1百萬(wàn)個(gè)map上的reads中map到外顯子的每1K個(gè)堿基上的reads個(gè)數(shù)。假如有1百萬(wàn)個(gè)reads映射到了人的基因組上,那么具體到每個(gè)外顯子呢,有多少映射上了呢,而外顯子的長(zhǎng)度不一,那么每1K個(gè)堿基上又有多少reads映射上了呢,這大概就是這個(gè)RPKM的直觀解釋。
如果對(duì)應(yīng)特定基因的話,那么就是每1000000mapped到該基因上的reads中每kb有多少是mapped到該基因上的exon的read
【測(cè)序常用名詞的解釋整理】相關(guān)文章:
名詞分析與解釋08-29
努力的名詞解釋08-28
招引的名詞解釋01-17
建筑名詞解釋08-29
描寫整理的成語(yǔ)及解釋02-19
跟石頭有關(guān)的名詞及解釋08-29
股市上的名詞解釋08-29
關(guān)于工程材料名詞的解釋08-29