dna甲基化建库,dna甲基化常见于

抒情君 7

本文旨在普及生物信息学基本概念,汇集生信需要的常见的名词,文中部分如有更好理解的方式欢迎在评论区回复,个人力量有限,欢迎大家一起在评论区补充,汇集最新最全的生信概念以作为后续查找的资料。

十一个最常用的测序概念

1、高通量测序:高通量测序技术(High-throughputsequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

2、下一代测序:英文名为Next Generation Sequencing,简称为NGS。也叫做二代测序或者高通量测序。也称为高通量测序,high-throughput sequencing,或者称为新一代测序,全基因组测序WGS等等概念。是指相对于Sanger为主的第一代测序技术来说的,其特点是测序产量高,读长短,价格便宜。现在通常所说的二代测序技术,主要包括ABI的solid测序,罗氏的454测序技术、Life 公司的Ion Torrent测序技术和illumina公司的Hiseq、miseq测序技术等。当前最主要的是指illunina测序。

3、全基因组测序 (Whole Genome Sequecing,WGS):是指利用高通量测序平台对人类 不同个体或群体进行全基因组测序,并在个体或群体水平上进行生物信息分析的技术手段. 全基因组测序可全面挖掘 DNA 水平的遗传变异,包括较大的结构性变异,为筛选疾病的致病 及易感基因,研究发病及遗传机制 ,以及推断种群迁徙和进化等提供重要信息。全基因组测序可以检测人基因组上SNP突变,INDEL突变之外,还可以用于检测拷贝数变异CNV和结构变异SV,融合基因,病毒整合位点检测,非编码区突变检测等。

4、全外显子组测序, Whole Exon Sequencing:也就是只测序基因组上的外显子区域。目前主要用于人基因组的研究,也包括一些小鼠等。人类基因组中约有180,000个外显子,占人全部基因组的1%,约30M。外显子测序是利用探针杂交富集外显子区域的DNA序列,然后通过高通量测序,主要用于研究基因组上编码区域的信息。WES只包含了基因组上外显子的信息,而WGS则覆盖了所有的遗传信息。相比于WGS,WES可以进行大样本高深度的测序。

5、转录组测序:转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。转录组研究是基因功能及结构研究的基础和出发点,通过新一代高通量测序,能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本及基因序列,已广泛应用于基础研究、临床诊断和药物研发等领域。

6、全基因组重测序:全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。全基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel,Insertion/Deletion)、结构变异位点(SV,Structure Variation)位点。SBC可以协助客户,通过生物信息手段,分析不同个体基因组间的结构差异, 同时完成注释。

7、Chip-seq:染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。

8、Hi-C测序:Hi-C技术源于染色体构象捕获(Chromosome Conformation Capture, 3C)技术,利用高通量测序技术,结合生物信息分析方法,研究全基因组范围内整个染色质DNA在空间位置上的关系,获得高分辨率的染色质三维结构信息。Hi-C技术不仅可以研究染色体片段之间的相互作用,建立基因组折叠模型,还可以应用于基因组组装、单体型图谱构建、辅助宏基因组组装等,并可以与RNA-Seq、ChIP-Seq等数据进行联合分析,从基因调控网络和表观遗传网络来阐述生物体性状形成的相关机制。

9、单细胞测序(Single-cell sequencing):单细胞测序是指DNA研究中涉及测序单细胞微生物相对简单的基因组,更大更复杂的人类细胞基因组。

10、亚硫酸氢盐测序(Bisulfite sequencing,BS-seq ,methseq):先使用亚硫酸氢盐处理DNA,然后上机测序来确定甲基化模式,用亚硫酸氢盐处理DNA可将胞嘧啶残基(C)转化为尿嘧啶(U),但5-甲基胞嘧啶残基(5mC)对其有抗性,并不会发生转变。

87、ATAC-seq:该技术利用DNA转座酶技术实现染色质可及性分析,DNA转座酶可将自身结合的一段序列随机插入到基因组中。紧密包裹的染色质DNA不会受到转座酶打断,而开放区域的染色质DNA可以被转座酶随机插入并打断。然后将这些打断后的DNA收集在一起进行后续的建库、测序、分析、即可得到开放染色质的信息。另外两种研究开放染色质区域的技术如下:

1)DNase-seq: 染色质开放区域的DNA是可以被DNaseI内切酶切割的,然后我们再对切割完的DNA片段进行测序,再将测序结果比对到全基因组上就能得知被切掉的区域位置。但这种方法耗时耗力,而且重复性较差。

2)MNase-seq: 它和DNase技术互补,主要是利用外切酶将含有核小体包裹的区域切割下来并测序,反向比较获得开放性染色质区域。缺点与DNase差不多。

组学概念

11、功能基因组学(functional genomics):功能基因组学(functional genomics)(Functuionalgenomics)又往往被称为后基因组学(Postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等。采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析,新的技术应运而生,包括基因表达的系统分析(serial analysis of gene expression,SAGE),cDNA微阵列(cDNA microarray),DNA 芯片(DNA chip)和序列标志片段显示(sequence tagged fragmentsdisplay。

12、比较基因组学(comparative genomics):比较基因组学(comparative genomics)(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物(model organism)基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制(Molecular Mechanisms),阐明物种进化关系,及基因组的内在结构。

13、表观遗传学:表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNAmethylation),基因组印记(genomicimpriting),母体效应(maternaleffects),基因沉默(genesilencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。

14、蛋白质组学:蛋白质组学,是以蛋白质组为研究对象,研究细胞、组织或生物体蛋白质组成及其变化规律的科学

15、基因组学:基因组学是对生物体所有基因进行集体表征、定量研究及不同基因组比较研究的一门交叉生物学学科。基因组学主要研究基因组的结构、功能、进化、定位和编辑等,以及它们对生物体的影响。

16、代谢组学:代谢组学利用高通量、高灵敏度与高精确度的现代分析技术,对细胞、有机体分泌出来的体液中的代谢物的整体组成进行动态跟踪分析,借助多变量统计分析方法,来辩识和解析被研究对象的生理、病理状态及其与环境因子、基因组成等的关系。代谢组学是一种整体性的研究策略,其研究策略有点类似于通过分析发动机的尾气成分,来研究发动机的运行规律和故障诊断等的反向工程学的技术思路。由于代谢组学着眼于把研究对象作为一个整体来观察和分析,也被称为整体的系统生物学。

关于序列比对

17、替换打分矩阵:替换记分矩阵是反映残基之间相互替换率的矩阵。也就是说,它描述了残基两两相似的量化关系,DNA 序列的替换记分矩阵主要有三种。一个是等价矩阵,另一种是转换-颠换矩阵,还有一种叫 BLAST 矩阵

图片来源于中国MOOC山东大学生物信息学课件

18、Needleman-Wunsch:经典的全局比对算法是 Needleman-Wunsch 算法。1970 年,Needleman 和 Wunsch 首先将动态规划法应用于两条序列的全局比对,后来这个算法就称为 Needleman-Wunsch 算法。今天,所有比对软件使用的算法都是从这个经典算法衍生出来的。

图片来源于中国MOOC山东大学生物信息学课件

19、MEME:MEME 是一款寻找序列基序(motif)的软件。在核酸或蛋白质序列中存在一些有特定模式的序列片段,这些片段称为序列的基序(motif)。序列的基序与生物功能密切相关,MEME 是 The MEME Suite 在线软件套装中的一员( http://meme-suite.org/)。MEME 的使用非常简单,只需要将待分析的序列上传即可。而且,上传的序列为原始序列,不需要提前为它们做多序列比对。你也可以指定返回排名前几的基序。MEME 的等待时间稍长,大约 10 分钟以上,所以最好留下邮箱。

图片来源于中国MOOC山东大学生物信息学课件

20、WebLogo:寻找保守区域:序列标识图 WebLogo序列标识图就是序列的 logo,它是以图形的方式依次绘出序列比对中各个位置上出现的残基,每个位置上残基的累积可以反应出该位置上残基的一致性。每个残基对应图形字符的大小与残基在该位置上出现的频率成正比。但图形字符的大小并不等于频率百分比,而是经过简单统计计算后转化的结果。如果某一列非常保守,字母高度就高。反之,如果某一列没有什么特征,各种残基都有出现,杂乱无章,那么就会看到一堆比较矮的字母摞在一起

21、TCOFFEE:TCOFFEE 是一个非常流行的多序列比对工具。TCOFFEE 与 CLUSTAL 系列在所使用的算法上类似,准确度上比 CLUSTAL 系列略高,但计算耗时也比 CLUSTAL 系列略高。最关键的是 TCOFFEE 有很多种变形,也就是说它有更多的功能。许多网站都提供 TCOFFEE的在线使用,比如 EMBL 的多序列比对工具里就有 TCOFFEE。但是这次,我们从 TCOFFEE的网站( T-COFFEE Multiple Sequence Alignment Server)做多序列比对。

21、BLAST:BLAST 实际上是综合在一起的一组工具的统称,它不仅可用于直接对蛋白质序列数据库和核酸序列数据库进行搜索,而且可以将待搜索的核酸序列翻译成蛋白质序列后再进行搜索,或者反之,以提高搜索效率。因此 BLAST 可以分为 BLASTp,BLASTn,BLASTx,tBLASTn和 tBLASTx。

图片来源于中国MOOC山东大学生物信息学课件

BLASTp 也就是用蛋白质序列搜索蛋白质序列数据库,

BLASTn 是用核酸序列搜索核酸序列数据库,这是最直接也是最常用的两种 BLAST。

BLASTx 是将核酸序列按 6 条链翻译成蛋白质序列后搜索蛋白质序列数据库

tBLASTn 是用蛋白质序列搜核酸序列数据库,核酸数据库中的核酸序列要按 6 条链翻译成蛋白质序列后再被搜索

tBLASTx。它是将核酸序列按 6 条链翻译成蛋白质序列后搜索核酸序列数据库,核酸数据库中的所有核酸序列也要按 6 条链翻译成的蛋白质序列后再被搜索

关于树

19、进化树:英文Evolutionary Trees。在生物学中,用来表示物种之间的进化关系,又称系统树、系谱树。生物分类学家和进化论者根据各类生物间的亲缘关系的远近,把各类生物安置在有分枝的树状的图表上,简明地表示生物的进化历程和亲缘关系。

20、分子树(molecular tree):依据分子数据构建的反映分子系统发育的树。

30、系统发生树(英文:Phylogenetic tree):又称为演化树(evolutionary tree),是表明被认为具有共同祖先的各物种间演化关系的树。是一种亲缘分支分类方法(cladogram)。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。

计算距离

31、MP 最大简约法(maximal parsimony):假设4种核苷酸或者20中氨基酸可以突变为与其自身不同的任何一种,这样对于任何一个给定的拓朴结构,可以推断每个位点的祖先状态。对这一拓朴结构,可以计算出用来解释整个进化过程所需核苷酸或者氨基酸的最小替代数。对所有可能正确的拓朴结构进行这种计算,并挑选出所需替代数最小的拓朴结构作为最优系统树。

32、NJ 邻接法(neighbour joining):是距离法中的一种,这种方法并不检验所有可能的拓朴结构,但在物种聚合时要应用最小进化原则。

33、ML 最大似然法( maximal likelihood ):在ML法中,以一个特定的替代模型分析既定的一组序列数据,使所获得的每一个拓朴结构的拟自然率最大,挑选出其中拟自然率最大的拓朴结构作为最终树。

测序基础

34、测序深度和覆盖度:测序深度(Sequencing Depth):测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。重测序的个体,如果采用的是双末端或Mate-Pair方案,当测序深度在10~15X以上时,基因组覆盖度和测序错误率控制均得以保证。

35、DNA甲基化:DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5"碳位共价键结合一个甲基基团。

36、基因组注释:基因组注释(Genomeannotation) 是利用生物信息(bioinformation)学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学(functional genomics)研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置

37、index测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。

38、碱基质量值 :(Quality Score 或 Q-score )是碱基识别( Base Calling )出错的概率的整数映射。碱基质量值越高表明碱基识别越可靠,碱基测错的可能性越小。

39、Q30 :碱基质量值为 Q30 代表碱基的精确度在 99.9% 。

40、FPKM(Fragments Per Kilobase of transcript per Million fragments mapped ) 每 1 百万个 map 上的 reads 中 map 到外显子的每 1K 个碱基上的 fragment 个数。

41、TPM:TPM与FPKM最大的区别在于消除两种影响的次序:在TPM中先消除基因长度的影响,再消除测序深度的影响。计算TPM的过程也可以分为三个步骤:

将每个read counts除以对应基因的长度(外显子区域的长度,单位为kb),此时得到每千个碱基包含的reads数,即(reads per kilobase, RPK);将一个样本中的RPK加起来的总数除以$10^6$,得到"per million"缩放系数(这是两种方法计算结果不同的主要来源,因为这里的总数是消除了基因长度的影响之后得到的RPK,而不是原始read counts之和);用RPK除以"per million"缩放系数,得到TPM。

42、FC(Fold Change ):即差异表达倍数。

43、FDR (False Discovery Rate ):即错误发现率,定义为在多重假设检验过程中,错误拒绝 (拒绝真的原 (零)假设 )的个数占所有被拒绝的原假设个数的比例的期望值。通过控制 FDR 来决定 P 值的阈值。

44、P 值(P-value ):即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的 P 值,一般以 P

上一篇:

下一篇:

  推荐阅读

分享