Bio.SeqIO.InsdcIO 模块

Bio.SeqIO 对“genbank”和“embl”文件格式的支持。

您应该通过 Bio.SeqIO 函数使用此模块。请注意,在内部,此模块调用 Bio.GenBank 来执行 GenBank、EMBL 和 IMGT 文件的实际解析。

另请参见:国际核酸序列数据库协作 http://www.insdc.org/

GenBank http://www.ncbi.nlm.nih.gov/Genbank/

EMBL 核苷酸序列数据库 http://www.ebi.ac.uk/embl/

DDBJ(日本 DNA 数据库) http://www.ddbj.nig.ac.jp/

IMGT(使用具有更长功能缩进的 EMBL 格式变体) http://imgt.cines.fr/download/LIGM-DB/userman_doc.html http://imgt.cines.fr/download/LIGM-DB/ftable_doc.html http://www.ebi.ac.uk/imgt/hla/docs/manual.html

class Bio.SeqIO.InsdcIO.GenBankIterator(source)

基类:SequenceIterator

GenBank 文件解析器。

__init__(source)

将 Genbank 文件分解成 SeqRecord 对象。

参数 source 是以文本模式打开的文件类对象或文件路径。从 LOCUS 行到结束标记 // 的每个部分都成为单个 SeqRecord,并附带相关的注释和特征。

请注意,对于基因组或染色体,通常只有一条记录。

Bio.SeqIO 在内部调用它来处理 GenBank 文件格式。

>>> from Bio import SeqIO
>>> for record in SeqIO.parse("GenBank/cor6_6.gb", "gb"):
...     print(record.id)
...
X55053.1
X62281.1
M81224.1
AJ237582.1
L31939.1
AF297471.1

等效地,

>>> with open("GenBank/cor6_6.gb") as handle:
...     for record in GenBankIterator(handle):
...         print(record.id)
...
X55053.1
X62281.1
M81224.1
AJ237582.1
L31939.1
AF297471.1
parse(handle)

开始解析文件并返回 SeqRecord 生成器。

__abstractmethods__ = frozenset({})
__parameters__ = ()
class Bio.SeqIO.InsdcIO.EmblIterator(source)

基类:SequenceIterator

EMBL 文件解析器。

__init__(source)

将 EMBL 文件分解成 SeqRecord 对象。

参数 source 是以文本模式打开的文件类对象或文件路径。从 LOCUS 行到结束标记 // 的每个部分都成为单个 SeqRecord,并附带相关的注释和特征。

请注意,对于基因组或染色体,通常只有一条记录。

Bio.SeqIO 在内部调用它来处理 EMBL 文件格式。

>>> from Bio import SeqIO
>>> for record in SeqIO.parse("EMBL/epo_prt_selection.embl", "embl"):
...     print(record.id)
...
A00022.1
A00028.1
A00031.1
A00034.1
A00060.1
A00071.1
A00072.1
A00078.1
CQ797900.1

等效地,

>>> with open("EMBL/epo_prt_selection.embl") as handle:
...     for record in EmblIterator(handle):
...         print(record.id)
...
A00022.1
A00028.1
A00031.1
A00034.1
A00060.1
A00071.1
A00072.1
A00078.1
CQ797900.1
parse(handle)

开始解析文件并返回 SeqRecord 生成器。

__abstractmethods__ = frozenset({})
__parameters__ = ()
class Bio.SeqIO.InsdcIO.ImgtIterator(source)

基类:SequenceIterator

IMGT 文件解析器。

__init__(source)

将 IMGT 文件分解成 SeqRecord 对象。

参数 source 是以文本模式打开的文件类对象或文件路径。从 LOCUS 行到结束标记 // 的每个部分都成为单个 SeqRecord,并附带相关的注释和特征。

请注意,对于基因组或染色体,通常只有一条记录。

parse(handle)

开始解析文件并返回 SeqRecord 生成器。

__abstractmethods__ = frozenset({})
__parameters__ = ()
class Bio.SeqIO.InsdcIO.GenBankCdsFeatureIterator(source)

基类:SequenceIterator

GenBank 文件解析器,为每个 CDS 特征创建一个 SeqRecord。

__init__(source)

将 Genbank 文件分解成每个 CDS 特征的 SeqRecord 对象。

参数 source 是以文本模式打开的文件类对象或文件路径。

从 LOCUS 行到结束标记 // 的每个部分都可以包含多个 CDS 特征。这些将被返回,并附带所述的氨基酸翻译序列(如果存在)。

parse(handle)

开始解析文件并返回 SeqRecord 生成器。

__abstractmethods__ = frozenset({})
__parameters__ = ()
class Bio.SeqIO.InsdcIO.EmblCdsFeatureIterator(source)

基类:SequenceIterator

EMBL 文件解析器,为每个 CDS 特征创建一个 SeqRecord。

__init__(source)

将 EMBL 文件分解成每个 CDS 特征的 SeqRecord 对象。

参数 source 是以文本模式打开的文件类对象或文件路径。

从 LOCUS 行到结束标记 // 的每个部分都可以包含多个 CDS 特征。这些将被返回,并附带所述的氨基酸翻译序列(如果存在)。

parse(handle)

开始解析文件并返回 SeqRecord 生成器。

__abstractmethods__ = frozenset({})
__parameters__ = ()
class Bio.SeqIO.InsdcIO.GenBankWriter(target: IO | PathLike | str | bytes, mode: str = 'w')

基类:_InsdcWriter

GenBank 编写器。

HEADER_WIDTH = 12
QUALIFIER_INDENT = 21
STRUCTURED_COMMENT_START = '-START##'
STRUCTURED_COMMENT_END = '-END##'
STRUCTURED_COMMENT_DELIM = ' :: '
LETTERS_PER_LINE = 60
SEQUENCE_INDENT = 9
write_record(record)

将单个记录写入输出文件。

class Bio.SeqIO.InsdcIO.EmblWriter(target: IO | PathLike | str | bytes, mode: str = 'w')

基类:_InsdcWriter

EMBL 编写器。

HEADER_WIDTH = 5
QUALIFIER_INDENT = 21
QUALIFIER_INDENT_STR = 'FT                   '
QUALIFIER_INDENT_TMP = 'FT   %s                '
FEATURE_HEADER = 'FH   Key             Location/Qualifiers\nFH\n'
LETTERS_PER_BLOCK = 10
BLOCKS_PER_LINE = 6
LETTERS_PER_LINE = 60
POSITION_PADDING = 10
write_record(record)

将单个记录写入输出文件。

class Bio.SeqIO.InsdcIO.ImgtWriter(target: IO | PathLike | str | bytes, mode: str = 'w')

基于: EmblWriter

IMGT 编写器(EMBL 格式变体)。

HEADER_WIDTH = 5
QUALIFIER_INDENT = 25
QUALIFIER_INDENT_STR = 'FT                       '
QUALIFIER_INDENT_TMP = 'FT   %s                    '
FEATURE_HEADER = 'FH   Key                 Location/Qualifiers\nFH\n'