Bio.SwissProt 包
子模块
模块内容
用于处理 SwissProt 的 sprotXX.dat 文件的代码。
https://web.expasy.org/docs/userman.html
- 类
Record 保存 SwissProt 数据。
Reference 保存 SwissProt 记录中的参考文献数据。
- 函数
read 读取一个 SwissProt 记录
parse 读取多个 SwissProt 记录
- exception Bio.SwissProt.SwissProtParserError(*args, line=None)
基类:
ValueError
解析 SwissProt 文件时发生错误。
- __init__(*args, line=None)
使用有问题的行创建一个 SwissProtParserError 对象。
- class Bio.SwissProt.Record
基类:
object
保存 SwissProt 记录中的信息。
- 属性
entry_name 此条目的名称,例如 RL1_ECOLI。
data_class “STANDARD” 或 “PRELIMINARY”。
molecule_type 分子类型,“PRT”,
sequence_length 残基数。
accessions 登录号列表,例如 [‘P00321’]
created 一个包含 (日期, 版本) 的元组。
sequence_update 一个包含 (日期, 版本) 的元组。
annotation_update 一个包含 (日期, 版本) 的元组。
description 自由格式的描述。
- gene_name 包含键为 ‘Name’, ‘Synonyms’,
‘OrderedLocusNames’ 和 ‘ORFNames’ 的字典列表。
organism 序列来源。
organelle 序列来源。
organism_classification 分类学分类。字符串列表。 (http://www.ncbi.nlm.nih.gov/Taxonomy/)
taxonomy_id NCBI 分类学 ID 列表。
host_organism 病毒宿主的名称列表(如果有)。
host_taxonomy_id 宿主 NCBI 分类学 ID 列表(如果有)。
references Reference 对象列表。
comments 字符串列表。
cross_references 元组列表 (db, id1[, id2][, id3])。请参阅文档。
keywords 关键字列表。
features 元组列表 (键名称, 从, 到, 描述)。从和到可以是整数(代表残基号)、'<'、'>' 或 '?'
protein_existence 表示蛋白质存在证据的数值。
seqinfo 包含 (长度, 分子量, CRC32 值) 的元组
sequence 序列。
示例
>>> from Bio import SwissProt >>> example_filename = "SwissProt/P68308.txt" >>> with open(example_filename) as handle: ... records = SwissProt.parse(handle) ... for record in records: ... print(record.entry_name) ... print(record.accessions) ... print(record.keywords) ... print(record.organism) ... print(record.sequence[:20] + "...") ... NU3M_BALPH ['P68308', 'P24973'] ['Electron transport', 'Membrane', 'Mitochondrion', 'Mitochondrion inner membrane', 'NAD', 'Respiratory chain', 'Translocase', 'Transmembrane', 'Transmembrane helix', 'Transport', 'Ubiquinone'] Balaenoptera physalus (Fin whale) (Balaena physalus). MNLLLTLLTNTTLALLLVFI...
- __init__()
初始化类。
- class Bio.SwissProt.Reference
基类:
object
保存 SwissProt 条目中的一个参考文献信息。
- 属性
number 条目中参考文献的编号。
evidence 证据代码。字符串列表。
positions 描述工作范围。字符串列表。
comments 注释。包含 (标记, 文本) 的列表。
references 参考文献。包含 (数据库名, 标识符) 的列表。
authors 工作作者。
title 工作标题。
location 工作的引用。
- __init__()
初始化类。
- class Bio.SwissProt.FeatureTable(location=None, type='', id='<unknown id>', qualifiers=None, sub_features=None)
基类:
SeqFeature
存储序列特定区域的特征注释。
这是 Bio.SeqFeature 中定义的 SeqFeature 的一个子类,其中属性的使用方式如下
location
: 特征在规范序列或亚型序列上的位置;该位置存储为 Bio.SeqFeature 中定义的 SimpleLocation 的实例,其 ref 属性设置为引用特征定义所在的规范序列或亚型序列的亚型 IDid
: 唯一且稳定的标识符 (FTId),仅在属于类型 CARBOHYD、CHAIN、PEPTIDE、PROPEP、VARIANT 或 VAR_SEQ 的特征中提供type
: 指示特征的类型,如 UniProt 知识库文档中定义ACT_SITE: 参与酶活性的氨基酸
BINDING: 任何化学基团的结合位点
CARBOHYD: 糖基化位点;如果在 GlyConnect 数据库中进行了注释,则提供指向该数据库的 FTId 标识符
CA_BIND: 钙结合区域
CHAIN: 成熟蛋白质中的多肽链
COILED: 卷曲螺旋区域
COMPBIAS: 成分偏置区域
CONFLICT: 不同的来源报告了不同的序列
CROSSLNK: 转译后形成的氨基酸键
DISULFID: 二硫键
DNA_BIND: DNA 结合区域
DOMAIN: 结构域,定义为以特定方式组合的二级结构,这些二级结构组织成特征性的三维结构或折叠
INIT_MET: 起始甲硫氨酸
INTRAMEM: 位于膜内但不穿过膜的区域
HELIX: α-螺旋、3(10)-螺旋或 π-螺旋二级结构
LIPID: 脂质部分的共价结合
METAL: 金属离子的结合位点
MOD_RES: 残基的翻译后修饰 (PTM),通过 UniProt 网站上的 ptmlist.txt 文档中定义的受控词汇进行注释
MOTIF: 生物学意义的短序列基序
MUTAGEN: 通过诱变实验进行修饰的位点
NON_CONS: 非连续残基
NON_STD: 非标准氨基酸
NON_TER: 序列末端的残基不是末端残基
NP_BIND: 核苷酸磷酸结合区域
PEPTIDE: 释放的活性成熟多肽
PROPEP: 任何处理过的前肽
REGION: 序列中感兴趣的区域
REPEAT: 内部序列重复
SIGNAL: 信号序列(前肽)
SITE: 氨基酸位点,是感兴趣的位点,但没有用其他特征键表示
STRAND: β-折叠二级结构;可以是氢键结合的延伸 β-折叠,也可以是孤立的 β-桥中的残基
TOPO_DOM: 拓扑结构域
TRANSIT: 转运肽(线粒体、叶绿体、类囊体、蓝藻体、过氧化物酶体等)
TRANSMEM: 跨膜区域
TURN: 氢键结合的转角(3-、4- 或 5-转角)
UNSURE: 序列中的不确定性
VARIANT: 序列变异;对于人科动物(类人猿和人类)的蛋白质序列变异,会提供 FTId
VAR_SEQ: 通过可变剪接、可变启动子使用、可变起始或核糖体移码产生的序列变异
ZN_FING: 锌指区域
qualifiers
: 附加信息的字典,可能包括特征证据和自由文本注释。虽然 SwissProt 将特征标识符代码 (FTId) 作为限定符,但它存储为 FeatureTable 对象的 ID 属性。
- Bio.SwissProt.parse(source)
从文件中读取多个 SwissProt 记录。
参数 source 是一个文件类对象或文件路径。
返回一个生成器对象,该对象会产生 Bio.SwissProt.Record() 对象。
- Bio.SwissProt.read(source)
从文件中读取一个 SwissProt 记录。
参数 source 是一个文件类对象或文件路径。
返回一个 Record() 对象。