二代测序---NGS（二代测序技术原理及流程）-技术精选-玖叶教程网

二代测序，也称为下一代测序（Next Generation Sequencing, NGS），是一系列高通量测序技术的统称，它们能够在短时间内产生数十万到数十亿个短序列读长。NGS技术包括了Illumina测序、Ion Torrent测序、Roche 454测序（现已停产）和Pacific Biosciences（PacBio）的单分子实时测序（SMRT）等。这里我将重点介绍Illumina测序的数据分析方法与原理，因为它是目前最广泛使用的NGS平台。

Illumina测序的原理：

**文库制备：**首先，将待测序的DNA样本打断成小片段，并在两端加上特定的接头序列。这些带有接头的DNA片段称为文库。
**桥式扩增：**文库中的DNA片段通过接头固定在流动槽的表面，然后在流动槽中扩增形成DNA簇（clusters）。每个DNA簇由同一个DNA分子的多个拷贝组成。
**边合成边测序（Sequencing by Synthesis, SBS）：**使用可逆终止的荧光核苷酸，每次只允许一个核苷酸被添加到新合成的DNA链上。每个核苷酸都带有独特的荧光标记，并且3'端被化学修饰，以防止进一步的链延伸。
**图像采集：**通过激光激发荧光标记，相机捕捉每个位置的荧光信号，从而确定添加的核苷酸类型。
**洗脱和下一个循环：**洗去未结合的核苷酸和荧光标记，去除3'端的阻断基团，准备下一个核苷酸的添加。
**序列生成：**重复这个过程，直到获得足够长的序列读长。

Illumina测序的数据分析方法：

**数据预处理：**包括去除接头序列、去除低质量读长、去除污染序列等。
**序列比对（Alignment）：**将测序得到的短序列读长映射到参考基因组上，以确定它们的位置。常用的比对工具有BWA、Bowtie和TopHat等。
**变异检测：**在比对之后，分析软件会寻找序列中的变异位点，如单核苷酸多态性（SNPs）、插入/缺失（indels）和结构变异（SVs）。常用的变异检测工具有GATK、SAMtools和VarScan等。
**注释：**将检测到的变异位点与数据库中的信息进行比对，以预测它们的功能影响和潜在的生物学意义。常用的注释工具包括ANNOVAR和Ensembl VEP等。
**下游分析：**根据研究目的，可能还包括转录组分析、表观遗传学分析、基因融合检测、非编码RNA分析等。
**结果可视化：**使用各种生物信息学工具和软件包，如IGV、Circos和GenomeBrowse等，来可视化和解释分析结果。

NGS数据分析是一个复杂的过程，涉及大量的计算和统计分析。随着技术的进步和生物信息学工具的发展，NGS数据分析的方法也在不断进化，以提高准确性、效率和可重复性。

以下是一个典型的NGS数据分析流程，以全基因组测序（WGS）为例：

数据获取（Data Acquisition）：
从测序仪获取原始数据，通常为FASTQ格式文件，包含了序列的碱基信息及其质量分数。
数据预处理（Data Preprocessing）：
**质量控制（Quality Control）：**使用工具如FastQC检查序列质量和测序错误。
**去除接头（Adapter Trimming）：**使用工具如Cutadapt或Trimmomatic去除序列两端的接头序列。
**去除低质量读段（Low-quality Read Trimming）：**移除质量分数低于阈值的碱基或整个读段。
**去除污染（Contamination Removal）：**识别并去除不属于目标物种的序列，如细菌、真菌或人类DNA。
序列比对（Alignment）：
使用比对工具（如BWA、Bowtie2或SOAPaligner）将预处理后的读段映射到参考基因组上。
生成的比对结果通常存储在BAM或SAM格式的文件中。
比对后处理（Post-alignment Processing）：
**排序（Sorting）：**将比对结果按染色体位置排序，使用工具如Samtools。
**去重复（Duplicate Removal）：**识别并去除PCR或扩增过程中的重复读段，使用工具如MarkDuplicates。
**重比对（Realignment）：**在局部区域重新比对以提高变异检测的准确性，使用工具如GATK RealignerTargetCreator和IndelRealigner。
**碱基校正（Base Quality Score Recalibration, BQSR）：**校正碱基质量分数，提高变异检测的准确性，使用工具如GATK BaseRecalibrator。
变异检测（Variant Calling）：
使用变异检测工具（如GATK HaplotypeCaller、FreeBayes或VarScan）识别基因组中的变异位点，包括单核苷酸多态性（SNPs）、插入/缺失（indels）等。
生成的变异调用结果通常存储在VCF格式的文件中。
变异注释（Variant Annotation）：
使用注释工具（如ANNOVAR、VEP或SnpEff）将变异位点与生物学功能、疾病关联、保守性等信息关联起来。
下游分析（Downstream Analysis）：
根据研究目的进行特定分析，如群体遗传学分析、癌症基因组分析、基因融合检测、甲基化分析等。
结果可视化（Visualization）：
使用生物信息学工具和软件（如IGV、Integrative Genomics Viewer、Circos等）来可视化和解释分析结果。
统计分析和生物学解释（Statistical Analysis and Biological Interpretation）：
进行统计检验以确定变异的显著性，结合生物学知识进行功能预测和机制解释。
报告撰写（Report Writing）：
汇总分析结果，撰写报告，提出结论，并建议后续的研究方向。

整个NGS数据分析流程可能需要几天到几周的时间，具体取决于数据的复杂性、分析工具的选择和计算资源的可用性。随着生物信息学工具的不断发展，这一流程也在不断地优化和自动化，以提高分析的效率和准确性。

在二代测序（Next Generation Sequencing, NGS）数据分析的流程中，有许多生物信息学工具被广泛使用。这些工具涵盖了从数据预处理到高级分析的各个阶段。以下是一些常见工具的概述：

数据预处理工具：
FastQC：用于检查原始测序数据的质量。
TrimGalore 或 Trimmomatic：用于去除接头序列和过滤低质量的读段。
Skewer：专门用于去除Illumina测序数据中的接头。
序列比对工具：
BWA (Burrows-Wheeler Aligner)：用于将短读段映射到参考基因组。
Bowtie2：另一种流行的短读段比对工具。
STAR：特别适用于转录组测序数据的比对。
SOAPaligner/soap2：用于高效地将短读段对齐到大型基因组。
比对后处理工具：
Samtools：用于处理SAM/BAM格式的比对文件，包括排序、索引和查看。
Picard Tools：由Broad Institute开发，用于去重复、重排序和其他比对后处理任务。
GATK (Genome Analysis Toolkit)：提供了一系列工具，用于高质量的变异检测和基因分型，包括重比对和碱基质量分数校正。
变异检测工具：
GATK HaplotypeCaller：用于检测SNPs和indels。
FreeBayes：一种灵活的变异检测工具，适用于多种测序技术和数据类型。
VarScan：用于检测SNPs、indels和拷贝数变异。
MuTect：专门用于癌症样本中的体细胞变异检测。
变异注释工具：
ANNOVAR：用于注释SNPs、indels和CNVs的功能影响。
Ensembl VEP (Variant Effect Predictor)：提供详细的变异注释，包括在基因和调控元件上的位置。
SnpEff：用于预测SNP和indel的基因和蛋白质水平的影响。
下游分析工具：
DESeq2, edgeR 或 limma：用于差异表达分析。
MACS (Model-based Analysis of ChIP-Seq)：用于ChIP-Seq数据的峰值调用。
HTSeq 或 featureCounts：用于计数比对的读段，常用于RNA-Seq数据。
Cufflinks 或 StringTie：用于转录本组装和表达定量。
结果可视化工具：
IGV (Integrative Genomics Viewer)：用于可视化比对和变异数据。
UCSC Genome Browser：提供基因组浏览和注释信息。
Circos：用于创建基因组数据的复杂圈图。
统计分析和生物学解释工具：
R语言：一个统计计算和图形表示的语言，有许多包（如Bioconductor项目）用于NGS数据分析。
Python：另一个流行的编程语言，有诸如Pandas、NumPy和BioPython等库用于数据分析。

这些工具只是冰山一角，还有许多其他工具和技术可用于特定的分析需求。随着NGS技术的不断发展，新的工具和方法也在不断涌现。在选择工具时，应考虑数据的特点、分析的目的以及个人的经验和技术栈。

玖叶教程网

前端编程开发入门

二代测序---NGS（二代测序技术原理及流程）