文：猿十叁

编辑：猿十叁

现代分子生物学中非常常见的工作，它可以帮助研究者获取感兴趣的基因序列，用于生物信息学分析、基因功能鉴定等多项研究。在过去的几十年中，基因序列提取工作一直是基因组学的热点研究方向之一。

基于计算机技术的基因序列提取方法有很多，其中以Python为代表的编程语言已经成为生物信息学领域中最常用的编程工具之一。Python拥有丰富的生物信息学库，例如BioPython和Pandas，可以大大简化基因序列提取的工作流程。

这次我将介绍一种基于Python的基因序列提取方法方法，它可以根据指定的基因ID从基因组序列中提取对应的基因序列。该方法具有快速、高效、精确的特点，可以应用于基因组学、生物信息学等多个领域。

操作步骤

在开始工作之前，需要从NCBI网站下载基因组序列文件和GFF文件。

然后使用Python的BioPython库可以读取基因组序列文件。以下是一个简单的Python代码样例：

接着使用Python的Pandas库可以读取GFF文件。以下是一个简单的Python代码样例：

在准备工作完成之后，可以根据指定的基因ID从基因组序列中提取对应的基因序列。以下是一个简单的Python代码样例：

在完成基因序列提取工作后，可以通过多种生物信息学工具对提取的基因序列进行进一步分析。例如，可以使用BLAST进行比对分析，以评估提取的基因序列的准确性。

本方法具有快速、高效、精确的特点，并且易于使用。它可以应用于基因组学、生物信息学等多个领域，为研究者提供了一个有效的基因序列提取工具。

在前面的代码中，我们定义了一个extract_gene_sequence函数来实现基因序列提取。该函数的输入参数包括：

genome：基因组序列
gff：基因组注释文件
gene_id：要提取序列的基因ID

该函数的主要实现步骤如下：

使用gff[gff[8].str.contains(gene_id, regex=False)].iloc[0]语句从GFF文件中获取与给定基因ID匹配的染色体编号、起始位置、终止位置和链方向信息。

判断基因的链方向（即正链或反链），然后根据起始位置和终止位置提取该基因的序列。如果该基因的链方向为“+”（正链），则直接使用genome[start_pos:end_pos]语句提取基因序列；如果该基因的链方向为“-”（反链），则需要使用genome[start_pos:end_pos].reverse_complement()语句提取基因序列。

函数结束后返回基因序列。

完整的代码如下：

其中，__name__ == "__main__"这一行代码表示如果该代码被直接运行，则执行下面的代码。如果该代码被当做模块导入到其他代码中，则不会执行下面的代码。

这是Python中常用的一种技巧，可以帮助我们在开发过程中更好地保存和测试代码。接下来我们可以对代码中的一些语法和函数进行进一步解释和说明。

from Bio import SeqIO：这一行代码表示从BioPython库中导入SeqIO模块。SeqIO是BioPython库中常用的一个模块，可以帮助我们读取和写入常见的生物序列文件格式，例如fasta、genbank、fastq等。

genome = SeqIO.read(genome_file, "fasta")：这一行代码使用BioPython库中的SeqIO模块读取fasta格式的基因组序列文件。read()函数用于读取单个序列文件，并且可以指定文件格式。

import pandas as pd：这一行代码表示导入Pandas库并将其命名为pd。Pandas是Python中非常常用的数据处理库，可以用来读写各种数据格式（如csv、excel、SQL等），进行数据清洗、处理和分析等操作。

gff = pd.read_csv(gff_file, sep="\t", header=None, comment="#")：这一行代码使用Pandas库中的read_csv函数读取GFF文件。参数中的sep="\t"表示文件是用tab分隔符来分隔不同的字段，header=None表示该文件没有表头，comment="#"表示该文件中以#开头的行应该被忽略。

gene_row = gff[gff[8].str.contains(gene_id, regex=False)].iloc[0]：这一行代码使用Pandas库中的dataframe和series来定位与指定基因ID匹配的染色体编号、起始位置、终止位置和链方向信息。

在Pandas库中，我们可以使用方括号“[]”来选择一行或多行数据，使用点号“.”来选择某个列的数据。

在上面的代码中，gff[8].str.contains(gene_id, regex=False)这个表达式返回一个布尔型的series，其中的每个元素（即每个基因的注释行）表示该行是否包含指定的基因ID。

然后使用gff[gff[8].str.contains(gene_id, regex=False)]这个语句选出包含指定基因ID的所有行，并返回对应的dataframe。最后使用.iloc[0]这个语句选出该dataframe中的第一行，即与指定基因ID匹配的那个行，作为gene_row变量的值。

if strand == "+"：这一行代码使用if语句判断基因的链方向。在GFF文件中，每个基因的注释行都会包含一个strand字段，用于表示基因所在的链方向。如果strand字段的值为“+”，则表示该基因位于正链上；如果strand字段的值为“-”，则表示该基因位于反链上。

gene_sequence = genome[start_pos:end_pos].reverse_complement()：这一行代码使用BioPython库中的reverse_complement()函数将基因序列翻转并取反，从而得到反链上的基因序列。

在生物学上，反链上的DNA序列和正链上的DNA序列具有相反的碱基序列，因此需要对反链上的基因序列进行取反操作，以得到正确的基因序列。

下面我们来继续介绍代码中的一些细节和需要注意的地方。

确保基因ID在注释文件中唯一：在上面的代码中，如果注释文件中存在多个基因ID相同的基因，代码可能会返回错误的结果。

因此，在使用本文提到的函数进行基因序列提取时，一定要确保所提取的基因ID在注释文件中是唯一的。如果不唯一，则需要根据其他的条件进行选择，例如基因名称、所在染色体、基因类型等。

处理基因ID中的其他字符：在使用本文提到的函数进行基因序列提取时，需要注意在基因ID中存在的空格、引号、连字符等特殊字符，因为这些字符可能会影响基因ID的匹配结果。

为了避免这种情况，我们可以在读取注释文件时，使用strip()、replace()等方法对基因ID进行一些预处理，以去除这些特殊字符。

处理注释文件中存在多行的情况：在一些基因组注释文件中，同一个基因的属性可能会被分别记录在不同的行中。

在这种情况下，如果我们按照本文中的方式对注释文件进行读取并提取基因序列，则可能会得到多个不同的序列，从而导致结果出现误差。因此，在读取注释文件时，我们需要进行适当的判断和处理，以保证不会出现这种情况。

处理基因跨越多个染色体的情况：在一些复杂的基因组中，同一个基因可能会跨越多个染色体。在这种情况下，我们需要考虑如何处理基因的定位和序列提取问题。

一种比较常见的做法是将跨越多个染色体的基因视为复杂基因，而不是简单的单个基因，然后对其进行更加复杂的序列定位和提取操作。

因此，在使用本文提到的函数进行基因序列提取时，需要考虑到这种情况，并进行适当的处理。

处理基因组序列文件过大的情况：在一些大型基因组项目中，基因组序列文件可能非常大，可能需要消耗大量的内存和处理时间。

在这种情况下，我们需要采用一些优化策略来减小内存占用和处理时间，例如采用分段读取和处理的方式，或者采用并行处理的方式，下面代码就是优化策略之一。

这个函数的输入参数包括：

gff_file：基因组注释文件，可以是gff/gtf等格式

gene_type：所选取的基因类型，默认为“gene”

这个函数的主要实现步骤如下：

按行读取注释文件，忽略以“#”开头的注释行。

读取所选取的基因类型为“gene”的行，将其中包含的基因ID及其相应的注释信息存储为一个字典（gene_annotation）。

具体地，该字典的键值对包括：基因ID（“gene_id”）以及各类其他属性（例如基因长度、外显子数目、基因名称等）。

将所有符合条件的基因注释信息存储为一个注释列表（annotation）。

返回注释列表。

该函数可以方便地读取基因组注释文件中包含的基因ID及其注释信息，并且只选择特定基因类型的信息。

这样，可以极大地简化后续基因组分析的工作。例如，一些基因组研究需要仅关注某些特定类型的基因，例如转录因子家族基因、免疫相关基因等。

在这种情况下，这个函数可以选择性地提取这些基因的注释信息，而不必阅读整个注释文件并手动提取相关信息。这可以节省大量时间和努力，同时还可以确保数据的准确性和一致性。

此外，这个函数的实现还可以灵活地适应不同的注释文件格式。只需要在函数中加入相应的代码，即可支持不同格式的文件，例如GFF、GTF、BED等格式。

为了满足不同实验室或项目的需要，方便数据的交换和共享，我们还需要做以下步骤。

该函数接受两个参数：gff_file和gene_type，分别表示输入的基因组注释文件的路径和所选取的基因类型。默认情况下，gene_type为"gene"，即选择基因类型。

该函数的第一步是初始化两个空列表变量：gene_annotation和annotation。gene_annotation用于存储基因ID及其注释信息，annotation用于存储所有符合条件的基因注释信息。

接下来，使用python内置函数with open()打开输入的文件，并按行读取其中的内容。忽略以“#”开头的注释行。

对于正常行，我们通过使用字符串操作函数（如split()和strip()）来解析其中的各个字段。在这些字段中，第三个字段表示该行注释的元素类型，我们只取对应基因类型的行（即fields[2] == gene_type）。

我们将其中包含的基因ID及其相应的注释信息存储为一个字典（data），并将该字典添加到字典变量gene_annotation中。

实现过程中，我们需要从每行的“attributes”字段中提取出基因ID等属性信息。这里我们使用分割字符串和循环遍历等基本字符串操作实现这一步骤。

为了避免基因ID重复出现，我们以基因ID为键值，将注释信息存储在字典变量gene_annotation中。具体实现中，若该基因ID未在字典变量gene_annotation中出现过，则将当前行的注释信息直接添加到该基因的键值中；否则，我们需将当前行的注释信息合并入已有信息中。这里我们使用字典的update()方法实现了合并操作。

最后，我们将gene_annotation中的每个字典元素存储到注释列表annotation中，并返回该列表。

需要注意的是，该函数的实现是基于注释文件中各字段值的格式和顺序的约定。使用该函数时，需要根据实际情况调整字段顺序或加入其他格式处理功能，以便适应不同的注释文件。

该函数的主要作用是从基因组注释文件中提取指定基因类型的基因注释信息。通过在文件中逐行读取并筛选，该函数将所选取的基因ID及其注释信息存储为一个字典，并将这些字典元素存储到一个注释列表中。

该函数的实现可以方便地适应不同的注释文件格式和处理需求，并且可以大大减少研究人员和生物信息学家在处理基因组注释数据时的工作量。

玖叶教程网

前端编程开发入门

利用python根据指定基因ID提取序列

操作步骤