Bio.GenBank.Record 模块
以一种简单易懂的格式保存 GenBank 数据。
- 类
Record - GenBank 记录中的所有信息。
Reference - 保存记录的参考文献数据。
Feature - 保存特征表中的信息。
Qualifier - 特征上的限定符。
- class Bio.GenBank.Record.Record
基类:
object
以类似于原始记录的格式保存 GenBank 信息。
Record 类旨在让您在只对查看 GenBank 数据感兴趣时,方便获取数据。
- 属性
locus - GenBank 记录中 LOCUS 关键字后指定的名称。这可能是登录号、克隆 ID 或其他内容。
size - 记录的大小。
residue_type - 构成该记录序列的残基类型。通常是 RNA、DNA 或 PROTEIN 等,但可能像 'ss-RNA circular' 这样深奥。
data_file_division - 该记录在 GenBank 中保存的部门(例如 PLN -> 植物;PRI -> 人类、灵长类动物;BCT -> 细菌……)
date - 记录提交的日期,格式为 '28-JUL-1998'。
accession - 序列的所有登录号的列表。
nid - 核苷酸标识号。
pid - 蛋白质标识号
version - 登录号 + 版本(例如 AB01234.2)
db_source - 关于记录来源数据库的信息
gi - 记录的 NCBI gi 标识号。
keywords - 与记录相关的关键词列表。
segment - 如果记录是系列中的一个,则这是关于该记录是哪个片段的信息(例如 '1 of 6')。
source - 序列来源的材料来源。
organism - 生物体的属和种(例如 'Homo sapiens')
taxonomy - 生物体分类学分类的清单,从一般到更具体。
references - Reference 对象的列表。
comment - 关于记录的任何类型的文本注释。
features - 构成特征表的特征列表。
base_counts - 包含序列碱基计数的字符串。
origin - 指定序列来源信息的字符串。
sequence - 包含序列本身的字符串。
contig - RefSeq 文件中 CONTIG 的位置信息字符串
project - 基因组测序项目编号(将在 2009 年被 dblink 互引替换)。
dblinks - 基因组测序项目编号和其他链接。(将在 2009 年替换项目信息)。
- GB_LINE_LENGTH = 79
- GB_BASE_INDENT = 12
- GB_FEATURE_INDENT = 21
- GB_INTERNAL_INDENT = 2
- GB_OTHER_INTERNAL_INDENT = 3
- GB_FEATURE_INTERNAL_INDENT = 5
- GB_SEQUENCE_INDENT = 9
- BASE_FORMAT = '%-12s'
- INTERNAL_FORMAT = ' %-10s'
- OTHER_INTERNAL_FORMAT = ' %-9s'
- BASE_FEATURE_FORMAT = '%-21s'
- INTERNAL_FEATURE_FORMAT = ' %-16s'
- SEQUENCE_FORMAT = '%9s'
- __init__()
初始化类。
- __str__()
为 Record 提供 GenBank 格式的输出选项。
这样做的目的是提供一种简单的方法来读取 GenBank 记录、对其进行修改,然后以“GenBank 格式”输出它。我们正在努力使这项工作能够让使用此函数输出的解析后的 Record 看起来与原始记录完全一样。
大部分输出基于以下位置的格式说明信息:
- class Bio.GenBank.Record.Reference
基类:
object
保存 GenBank 参考文献的信息。
- 属性
number - 参考文献清单中的参考文献编号。
bases - 参考文献所指序列中的碱基。
authors - 包含所有作者的字符串。
consrtm - 作者所属的联盟。
title - 参考文献的标题。
journal - 关于参考文献发表期刊的信息。
medline_id - 参考文献的 medline id。
pubmed_id - 参考文献的 pubmed_id。
remark - 关于参考文献的自由形式的备注。
- __init__()
初始化类。
- __str__()
将参考文献转换为 GenBank 格式字符串。