Bio.SeqIO.InsdcIO 模块
Bio.SeqIO 对“genbank”和“embl”文件格式的支持。
您应该通过 Bio.SeqIO 函数使用此模块。请注意,在内部,此模块调用 Bio.GenBank 来执行 GenBank、EMBL 和 IMGT 文件的实际解析。
另请参见:国际核酸序列数据库协作 http://www.insdc.org/
GenBank http://www.ncbi.nlm.nih.gov/Genbank/
EMBL 核苷酸序列数据库 http://www.ebi.ac.uk/embl/
DDBJ(日本 DNA 数据库) http://www.ddbj.nig.ac.jp/
IMGT(使用具有更长功能缩进的 EMBL 格式变体) http://imgt.cines.fr/download/LIGM-DB/userman_doc.html http://imgt.cines.fr/download/LIGM-DB/ftable_doc.html http://www.ebi.ac.uk/imgt/hla/docs/manual.html
- class Bio.SeqIO.InsdcIO.GenBankIterator(source)
-
GenBank 文件解析器。
- __init__(source)
将 Genbank 文件分解成 SeqRecord 对象。
参数 source 是以文本模式打开的文件类对象或文件路径。从 LOCUS 行到结束标记 // 的每个部分都成为单个 SeqRecord,并附带相关的注释和特征。
请注意,对于基因组或染色体,通常只有一条记录。
Bio.SeqIO 在内部调用它来处理 GenBank 文件格式。
>>> from Bio import SeqIO >>> for record in SeqIO.parse("GenBank/cor6_6.gb", "gb"): ... print(record.id) ... X55053.1 X62281.1 M81224.1 AJ237582.1 L31939.1 AF297471.1
等效地,
>>> with open("GenBank/cor6_6.gb") as handle: ... for record in GenBankIterator(handle): ... print(record.id) ... X55053.1 X62281.1 M81224.1 AJ237582.1 L31939.1 AF297471.1
- parse(handle)
开始解析文件并返回 SeqRecord 生成器。
- __abstractmethods__ = frozenset({})
- __parameters__ = ()
- class Bio.SeqIO.InsdcIO.EmblIterator(source)
-
EMBL 文件解析器。
- __init__(source)
将 EMBL 文件分解成 SeqRecord 对象。
参数 source 是以文本模式打开的文件类对象或文件路径。从 LOCUS 行到结束标记 // 的每个部分都成为单个 SeqRecord,并附带相关的注释和特征。
请注意,对于基因组或染色体,通常只有一条记录。
Bio.SeqIO 在内部调用它来处理 EMBL 文件格式。
>>> from Bio import SeqIO >>> for record in SeqIO.parse("EMBL/epo_prt_selection.embl", "embl"): ... print(record.id) ... A00022.1 A00028.1 A00031.1 A00034.1 A00060.1 A00071.1 A00072.1 A00078.1 CQ797900.1
等效地,
>>> with open("EMBL/epo_prt_selection.embl") as handle: ... for record in EmblIterator(handle): ... print(record.id) ... A00022.1 A00028.1 A00031.1 A00034.1 A00060.1 A00071.1 A00072.1 A00078.1 CQ797900.1
- parse(handle)
开始解析文件并返回 SeqRecord 生成器。
- __abstractmethods__ = frozenset({})
- __parameters__ = ()
- class Bio.SeqIO.InsdcIO.ImgtIterator(source)
-
IMGT 文件解析器。
- __init__(source)
将 IMGT 文件分解成 SeqRecord 对象。
参数 source 是以文本模式打开的文件类对象或文件路径。从 LOCUS 行到结束标记 // 的每个部分都成为单个 SeqRecord,并附带相关的注释和特征。
请注意,对于基因组或染色体,通常只有一条记录。
- parse(handle)
开始解析文件并返回 SeqRecord 生成器。
- __abstractmethods__ = frozenset({})
- __parameters__ = ()
- class Bio.SeqIO.InsdcIO.GenBankCdsFeatureIterator(source)
-
GenBank 文件解析器,为每个 CDS 特征创建一个 SeqRecord。
- __init__(source)
将 Genbank 文件分解成每个 CDS 特征的 SeqRecord 对象。
参数 source 是以文本模式打开的文件类对象或文件路径。
从 LOCUS 行到结束标记 // 的每个部分都可以包含多个 CDS 特征。这些将被返回,并附带所述的氨基酸翻译序列(如果存在)。
- parse(handle)
开始解析文件并返回 SeqRecord 生成器。
- __abstractmethods__ = frozenset({})
- __parameters__ = ()
- class Bio.SeqIO.InsdcIO.EmblCdsFeatureIterator(source)
-
EMBL 文件解析器,为每个 CDS 特征创建一个 SeqRecord。
- __init__(source)
将 EMBL 文件分解成每个 CDS 特征的 SeqRecord 对象。
参数 source 是以文本模式打开的文件类对象或文件路径。
从 LOCUS 行到结束标记 // 的每个部分都可以包含多个 CDS 特征。这些将被返回,并附带所述的氨基酸翻译序列(如果存在)。
- parse(handle)
开始解析文件并返回 SeqRecord 生成器。
- __abstractmethods__ = frozenset({})
- __parameters__ = ()
- class Bio.SeqIO.InsdcIO.GenBankWriter(target: IO | PathLike | str | bytes, mode: str = 'w')
基类:
_InsdcWriter
GenBank 编写器。
- HEADER_WIDTH = 12
- QUALIFIER_INDENT = 21
- STRUCTURED_COMMENT_START = '-START##'
- STRUCTURED_COMMENT_END = '-END##'
- STRUCTURED_COMMENT_DELIM = ' :: '
- LETTERS_PER_LINE = 60
- SEQUENCE_INDENT = 9
- write_record(record)
将单个记录写入输出文件。
- class Bio.SeqIO.InsdcIO.EmblWriter(target: IO | PathLike | str | bytes, mode: str = 'w')
基类:
_InsdcWriter
EMBL 编写器。
- HEADER_WIDTH = 5
- QUALIFIER_INDENT = 21
- QUALIFIER_INDENT_STR = 'FT '
- QUALIFIER_INDENT_TMP = 'FT %s '
- FEATURE_HEADER = 'FH Key Location/Qualifiers\nFH\n'
- LETTERS_PER_BLOCK = 10
- BLOCKS_PER_LINE = 6
- LETTERS_PER_LINE = 60
- POSITION_PADDING = 10
- write_record(record)
将单个记录写入输出文件。