av电影第一

 
標題摘要內容
 高通量測序基础知识汇总 
技術支持/Technology

一代測序技術:即傳統的Sanger測序法,Sanger法是根據核苷酸在待定序列模板上的引物點開始,隨機在某一個特定的堿基處終止,並且在每個堿基後面進行熒光標記,産生以ATCG結束的四組不同長度的一系列核苷酸,每一次序列測定由一套四個單獨的反應構成,每個反應含有所有四種脫氧核苷酸三磷酸(dNTP),並混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH 基團,使延長的寡聚核苷酸選擇性地在GATC處終止,使反應得到一組長幾百至幾千堿基的鏈終止産物。它們具有共同的起始點,但終止在不同的的核苷酸上,可通過高分辨率變性凝膠電泳分離大小不同的片段,通過檢測得到DNA堿基序列。

 

二代測序技術:next generation sequencingNGS)又稱为高通量測序技术,與传统測序相比,二代測序技术可以一次对几十万到几百万條核酸分子同时進行序列测定,从而使得对一個物种的轉錄組和基因組進行细致全貌的分析成为可能,所以又被稱为深度測序(Deep sequencing)。NGS主要的平台有Roche454 & 454+),IlluminaHiSeq 2000/2500GA IIxMiSeq),ABI SOLiD等。

 

基因Gene,是遺傳的物質基礎,是DNARNA分子上具有遺傳信息的特定核苷酸序列。基因通過複制把遺傳信息傳遞給下一代,使後代出現與親代相似的性狀。

 

DNADeoxyribonucleic acid,脫氧核糖核酸,一個脫氧核苷酸分子由三部分組成:含氮堿基、脫氧核糖、磷酸。脫氧核糖核酸通過3',5'-磷酸二酯鍵按一定的順序彼此相連構成長鏈,即DNA鏈,DNA鏈上特定的核苷酸序列包含有生物的遺傳信息,是絕大部分生物遺傳信息的載體。

 

RNARibonucleic Acid,,核糖核酸,一個核糖核苷酸分子由堿基,核糖和磷酸構成。核糖核苷酸經磷酯鍵縮合而成長鏈狀分子稱之爲RNA鏈。RNA是存在于生物細胞以及部分病毒、類病毒中的遺傳信息載體。不同種類的RNA鏈長不同,行使各式各樣的生物功能,如參與蛋白質生物合成的RNA有信使RNA、轉移RNA和核糖體RNA等。

 

16S rDNA"S"是沈降系數,是反映生物大分子在離心場中向下沈降速度的一個指標,值越高,說明分子越大。rDNAribosome DNA)指的是原核生物基因組中編碼核糖體RNArRNA)分子對應的DNA序列,16S rDNA 是原核生物編碼核糖體小亞基16S rRNA的基因。細菌rRNA(核糖體RNA)按沈降系數分爲3種,分別爲5S16S23S rRNA16S rDNA是細菌染色體上編碼16S rRNA相對應的DNA序列,存在于所有細菌染色體基因中。16S rRNA 普遍存在于原核生物中。16S rRNA 分子,其大小約1540bp,既含有高度保守的序列區域,又有中度保守和高度變化的序列區域,其可變區序列因細菌不同而異,恒定區序列基本保守,所以可利用恒定區序列設計引物,將16S rDNA片段扩增出来,通過高通量測序利用可变區序列的差异来对不同菌属、菌种的细菌進行分类鉴定。

 

cDNAcomplementary DNA,互補脫氧核糖核酸,與RNA鏈互補的單鏈DNA,以RNA爲模板,在反轉錄酶的作用下所合成的DNA

 

Small RNA:生物體內一類高度保守的重要的功能分子,其大小在18-30nt,包括microRNAsiRNAsnRNAsnoRNApiRNApiwi-interacting RNA)等,它的主要功能是誘導基因沈默,調控細胞生長、發育、基因轉錄和翻譯等生物學過程。以miRNA爲例介紹它們的功能:miRNARNA誘導沈默複合體(RNA induced silencing complex, RISC)结合,并將此复合體與其互补的mRNA序列结合,根据靶序列與miRNA的互補程度,從而導致靶序列降解或幹擾靶序列蛋白質的翻譯過程。

 

SD 域:Segment duplication,串聯重複是由序列相近的一些 DNA 片段串聯組成。串聯重複在人類基因多樣性的靈長類基因中發揮重要作用。

 

Genotype and phenotype基因型是指某一生物個體全部基因組合的總稱;表型,又稱性狀,是基因型和環境共同作用的結果。

 

基因組Genome,單倍體細胞核、細胞器(線粒體、葉綠體)或病毒粒子所含的全部DNA分子或RNA分子。

 

全基因組de novo測序:又稱从头測序,它不依赖于任何现有的序列资料,而直接对某個物种的基因組進行測序,然后利用生物信息学分析手段对序列進行拼接、組装,从而获得該物种的基因組序列圖谱。

 

全基因組重測序:對已有參考序列(Reference Sequence)物种的不同個體進行基因組測序,并以此为基础進行個體或群體水平的遗传差异性分析。全基因組重測序能够发现大量的单核苷酸多态性位点(SNP)、拷貝數變異(Copy Number VariationCNV)、插入缺失(InDelInsertion/Deletion)、結構變異(Structure VariationSV)等变异类型,以准确快速的方法將单個参考基因組信息上升为群體遗传特征。

 

轉錄組Transcriptome,是指特定生長階段某組織或細胞內所有轉錄産物的集合;狹義上指所有mRNA的集合。

 

轉錄組測序:對某組織在某一功能狀態下所能轉錄出來的所有RNA進行測序,获得特定状态下的該物种的几乎所有转录本序列信息。通常轉錄組測序是指对mRNA進行測序获得相关序列的过程。其根据所研究物种是否有参考基因組序列分为轉錄組de novo測序(无参考基因組序列)和轉錄組重測序(有参考基因組序列)。

 

外顯子組Exome,人类基因組全部外显子區域的集合稱为外顯子組,是基因中重要的编码蛋白的部分,并涵盖了與個體表型相关的大部分的功能性变异。

 

外顯子組測序:是指利用序列捕获技术將全基因組外显子區域DNA捕捉并富集后進行高通量測序的基因組分析方法。外显子測序相对于基因組重測序成本较低,对研究已知基因的SNPInDel 等具有較大的優勢。

 

目标區域測序:应用相关试剂盒对基因組上感兴趣的目标區域進行捕获富集后進行大规模測序,一般需要根据目标區域专门定制捕获芯片。

 

宏基因組:Metagenome,指特定生活环境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因。目前主要指环境样品中的细菌和真菌的基因組总和。

 

宏基因組16S rRNA測序:可以對特定環境下的細菌和古細菌群體的微生物種類和風度進行有效的鑒定。對不同地點、不同條件下的多個樣本16S rRNA的PCR产物平行測序,可以比较不同样本间的微生物組成及成分差异,进而阐明物种丰度、种群结果等生态学信息。

 

表觀遺傳學Epigenetics,是指在基因組DNA序列沒有改變的情況下,基因的表達調控和性狀發生了可遺傳的變化。表觀遺傳的現象很多,已知的有DNA甲基化(DNA methylation),基因組印记(genomic impriting),母體效應(maternal effects),基因沈默(gene silencing),核仁顯性,休眠轉座子激活和RNA編輯(RNA editing)等。

 

全基因組甲基化測序DNA 甲基化是指在 DNA 甲基化转移酶的作用下,在基因組 CpG 二核苷酸的胞嘧啶5'碳位共價鍵結合一個甲基基團。DNA 甲基化已经成为表觀遺傳學和表观基因組学的重要研究內容。甲基化是基因表达的主要调控方式之一,研究染色體DNA甲基化情况是了解基因调控的重要手段。对已经有参考基因組的物种的基因組DNA用標准亞硫酸氫鹽(Bisulfite)處理後,未甲基化的胞嘧啶C會脫氨基形成尿嘧啶U,經PCR擴增,U替換爲胸腺嘧啶T,而發生甲基化的胞嘧啶C保持不变。將处理組與参考基因組序列進行比对,可发现甲基化位点并对甲基化情况進行定量分析的方法叫做全基因組甲基化測序。

 

ChIp-SeqChromatin Immunoprecipitation sequencing,即染色質免疫共沈澱-測序技术,即通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA片段。對富集得到的DNA片段進行纯化與文库构建,然后進行高通量測序,从而得到全基因組范围内可以與目的蛋白相互作用的DNA片段的方法叫做ChIP-Seq

 

數字表達譜Digital Gene Expression Profile,利用新一代高通量測序技术和高性能计算分析技术,能够全面、经济、快速地检测某一物种特定組织在特定状态下的基因表达情况,即运用特定的酶对mRNApolyA tail 21-25nt的位置進行酶切,所獲得的帶polyA尾的序列(Tag)通過高通量測序,該tag被測得的次數即是對應基因的表達值。数字基因表达谱已被广泛应用于基础科学研究、医学研究和药物研发等领域。特点是经济,但获得的数据量有限。若想获得转录本的更多信息的话,一般都采用轉錄組測序的方法来測序。

 

SBSsequencing by synthesis,边合成边測序反应,是指在DNA聚合酶的作用下延伸碱基所進行的測序。

 

Run:指高通量測序平台单次上机測序反应。




















1. Flow Cell结构示意圖?

 

Lane:也叫channel,單泳道,每條泳道包含2列(column),每列分布有多個小區(tile),如圖1。不同的測序平台Flow Cell中所含的Lane不一樣,如HiSeq 20002flow cell,每個flow cell中含有8laneHiSeq 2500是包含2mini flow cell(快速運行模式)和2high output flow cell,兩個模式不能同时运行,其中每個mini flow cell包含2lane,每個high output flow cell中包含8laneMiseq系統的flow cell僅含有1lane

 

Tile小區,每條Lane中有2tile,合計120個小區。每個小區上分布数目繁多的簇结合位点,如圖1

 

Cluster:簇,在Illumina測序平台中会采用桥式PCR方式生産DNA簇,每個DNA簇才能産生亮度達到CCD可以分辨的熒光點。

Index標簽,在Illumina平台的多重測序(Multiplexed Sequencing)過程中會使用Index来區分样品,并在常规測序完成后,针对Index部分額外進行7個循环的測序,通过Index的識別,可以在1Lane中區分12種不同的樣品。

 

Barcode:與Index同義,多指在Roche GS FLX 454測序平台的16S PCR产物的測序过程中接头序列所包含的的用来區分不同样本的序列。

 

PF%PF%是指符合測序质量标准的簇的百分比,與測序的通量相关联。

 

Fasta一种序列存储格式。一個序列文件若以FASTA格式存储,则每一條序列的第一行以“>”開頭,而跟隨“>”的是序列的ID号(即唯一的标识符)及对該序列的描述信息;第二行开始是序列內容,序列短于61nt的,則一行排列完;序列長于61nt的,則每行存儲61nt,最後剩下小于61nt的,在最后一行排列完;第二條序列另起一行,仍然由“>”和序列的ID號開始,以此類推。

 

FastqFastqSolexa測序技术中一种反映測序序列的碱基质量的文件格式。第一行以“@”符号开头,后面紧跟一個序列的描述信息;第二行是該序列的內容;第三行以“+”符号开头,后面可以是該序列的描述信息,也可省略;而第四行是第二行中的序列內容每個碱基所对应的測序质量值。

 

Read高通量測序平台产生的序列标签就稱为 reads

 

基因組組装:進行基因組或轉錄組de novo測序時,物种基因組经构建不同的文库測序所得的片段需经过生物信息学手段对其進行整理拼接,并通过一定的标准(如N50)对后续組装结果進行质量评估等,最终获得高准确度的基因組序列的过程。

 

基因組測序深度:測序得到的总碱基数與待测基因組大小的比值。如测一個物种的全基因組的重測序,基因組大小约为5G,測序获得100G的数据量,则測序深度为20×

 

基因組覆盖率:指測序获得的序列占整個基因組的比例。由于基因組中的高GC、重复序列等复杂结构的存在,測序最终拼接組装获得的序列往往无法覆盖有所的區域,这部分没有获得的區域就稱为Gap。例如一個细菌基因組測序,覆盖率是98%,那麽還有2%的序列區域是没有通过測序获得的。

 

Contigde novo測序中拼接软件基于 reads 之間的 overlap 區,拼接獲得的中间没有gap的序列稱爲 Contig(重疊群)。

 

Scaffold基因組 de novo 測序,通过 reads 拼接獲得 Contigs 後,往往還需要構建 454 Paired-end 庫或 Illumina Mate-pair 庫,以獲得一定大小片段(如 3Kb8Kb10Kb20Kb)兩端的序 列。基于這些序列,可以確定一些 Contig 之間的顺序关系,这些先后顺序已知的 Contig Scaffold

 

Contig N50Reads拼接後會獲得一些不同長度的Contigs。將所有的Contig长度相加,能获得一個Contig總長度。然後將所有的Contigs按照從長到短進行排序,如獲得Contig 1Contig 2Contig 3……Contig 25。將Contig按照这個顺序依次相加,当相加的长度达到Contig總長度的一半時,最后一個加上的Contig長度即爲Contig N50。舉例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig總長度*1/2時,Contig 4的長度即爲Contig N50Contig N50可以作为基因組拼接的结果好坏的一個判断标准。

 

Scaffold N50Scaffold N50Contig N50的定義類似。Contigs拼接組装获得一些不同长度的Scaffolds。將所有的Scaffold长度相加,能获得一個Scaffold總長度。然後將所有的Scaffolds按照從長到短進行排序,如獲得Scaffold 1Scaffold 2Scaffold 3……Scaffold 25。將Scaffold按照这個顺序依次相加,当相加的长度达到Scaffold總長度的一半時,最后一個加上的Scaffold長度即爲Scaffold N50。舉例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長度*1/2時,Scaffold 5的長度即爲Scaffold N50Scaffold N50可以作为基因組拼接的结果好坏的一個判断标准。

 

Isotig指在轉錄組de novo測序時,用454平台測序完成后組装出的结果,一個isotig可视为一個转录本。

 

Isogroup指轉錄組de novo測序中,用454平台測序完成后組装出的结果获得的可聚类到同一個基因的转录本群。

 

GC%GC含量,全基因組范围内或在特定基因組序列内的4種堿基中,鳥嘌呤和胞嘧啶所占的比率。

 

SNPsingle nucleotide polymorphism,单核苷酸多态性,個體间基因組DNA序列同一位置单個核苷酸变异(替代、插入或缺失)所引起的多态性;不同物种個體基因組 DNA 序列同一位置上的单個核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因組作圖的标志。SNP CG序列上出現最爲頻繁,而且多是C轉換爲,原因是CG中的常爲甲基化的,自發地脫氨後即成爲胸腺嘧啶。一般而言,SNP 是指變異頻率大于1 %的單核苷酸變異,主要用于高危群體的發現、疾病相關基因的鑒定、藥物的設計和測試以及生物學的基礎研究等。

 

InDelInsertion/Deletion,插入/缺失,在基因組重測序進行mapping時,進行容Gap的比對並檢測可信的Short InDel,如基因組上小片段>50bp的插入或缺失。在檢測過程中,Gap的長度爲1~5個碱基。

 

CNVcopy number variation,基因組拷贝数变异,是基因組变异的一种形式,通常使基因組中大片段的DNA形成非正常的拷貝數量。如人類正常染色體拷貝數是2,有些染色體區域拷贝数变成13,这样,該區域发生拷贝数缺失或增加,位于該區域内的基因表达量也会受到影响。如果把一條染色體分成A-B-C-D四個區域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D 分別發生了C區域的扩增及缺失,扩增的位置可以是连续扩增如 A-B-C-C-D 也可以是在其他位置的擴增,如A-C-B-C-D

 

SVstructure variation,基因組结构变异,染色體结构变异是指在染色體上发生了大片段的变异。主要包括染色體大片段的插入和缺失(引起 CNV 的变化),染色體内部的某块區域发生重复复制、翻转颠换、易位、兩條染色體之间发生重組(inter-chromosome trans-location)等。

 

基因表達差異:是指某一物種或特定細胞在特定時期/功能狀態下,多樣本間不同基因在mRNA水平上表達量的差異,可通過RPKM/FPKM值來體現。

 

RPKMReads Per Kilobase per Million mapped reads [是衷摽 1 百万個map  的reads  map 到外顯子的每1K 個碱基上的reads 個数。计算公式四RPKM=106C/NL/103,其中C爲唯一比對到目的基因的reads數;N爲唯一比對到參考基因的總reads數,L是目的基因编码區的碱基数。RPKM法可以消除基因长度、数据量之間的差异進行计算基因表达量。

 

可變剪切:alternative splicing大多數真核基因轉錄産生的mRNA前體是按一種方式剪接産生出一種mRNA,因而只産生一種蛋白質。但有些基因産生的mRNA前體可按不同的方式剪接,産生出兩種或更多種mRNA,即可變剪接。

 

基因融合:Gene fusion的個或多個的的白。

 

基因家族分析:通过進行BLASTN/ HMM比對等查找基因歸屬的基因家族並添加相關功能注釋。

 

基因組注釋:Genome annotation是利用生物信息學方法和工具,对基因組所有基因的生物学功能進行高通量注释,是当前功能基因組学研究的一個热点。基因組注释的研究內容包括基因识别和基因功能注释兩個方面。基因识别的核心是确定全基因組序列中所有基因的确切位置。常见的基因組注释有GO注釋、pathway分析。

 

GO注釋:gene ontology是指對基因功能的注解。GO強調基因産物在細胞中的功能。GO不能反映此基因的表达情况,即是否在特定细胞中、特定組织中、特定发育阶段或與某种疾病相关,但GO支持其他的OBO(open biology ontologies)成员成立其他类型的本體论数据库(如发育本體学、蛋白組本體学、基因芯片本體学等)

 

Pathway注釋:是指对功能基因参與的信号通路等進行分析注释。

 

甲基化率:是指在甲基化測序中,发生甲基化的胞嘧啶占所有胞嘧啶的比率。

 

CpG島:CpG island 是指DNA上一個區域,此區域含有大量相联的胞嘧啶(C)、鳥嘌呤(G),以及使兩者相连的磷酸酯键(p)。基因組中长度为3003000 bp的富含CpG二核苷酸的一些區域,主要存在于基因的5’區域。启动子區中CpG島的未甲基化狀態是基因轉錄所必需的,而CpG序列中的C的甲基化可導致基因轉錄被抑制。