Bio.SwissProt 包

子模块

模块内容

用于处理 SwissProt 的 sprotXX.dat 文件的代码。

https://web.expasy.org/docs/userman.html

  • Record 保存 SwissProt 数据。

  • Reference 保存 SwissProt 记录中的参考文献数据。

函数
  • read 读取一个 SwissProt 记录

  • parse 读取多个 SwissProt 记录

exception Bio.SwissProt.SwissProtParserError(*args, line=None)

基类: ValueError

解析 SwissProt 文件时发生错误。

__init__(*args, line=None)

使用有问题的行创建一个 SwissProtParserError 对象。

class Bio.SwissProt.Record

基类: object

保存 SwissProt 记录中的信息。

属性
  • entry_name 此条目的名称,例如 RL1_ECOLI。

  • data_class “STANDARD” 或 “PRELIMINARY”。

  • molecule_type 分子类型,“PRT”,

  • sequence_length 残基数。

  • accessions 登录号列表,例如 [‘P00321’]

  • created 一个包含 (日期, 版本) 的元组。

  • sequence_update 一个包含 (日期, 版本) 的元组。

  • annotation_update 一个包含 (日期, 版本) 的元组。

  • description 自由格式的描述。

  • gene_name 包含键为 ‘Name’, ‘Synonyms’,

    ‘OrderedLocusNames’ 和 ‘ORFNames’ 的字典列表。

  • organism 序列来源。

  • organelle 序列来源。

  • organism_classification 分类学分类。字符串列表。 (http://www.ncbi.nlm.nih.gov/Taxonomy/)

  • taxonomy_id NCBI 分类学 ID 列表。

  • host_organism 病毒宿主的名称列表(如果有)。

  • host_taxonomy_id 宿主 NCBI 分类学 ID 列表(如果有)。

  • references Reference 对象列表。

  • comments 字符串列表。

  • cross_references 元组列表 (db, id1[, id2][, id3])。请参阅文档。

  • keywords 关键字列表。

  • features 元组列表 (键名称, 从, 到, 描述)。从和到可以是整数(代表残基号)、'<'、'>' 或 '?'

  • protein_existence 表示蛋白质存在证据的数值。

  • seqinfo 包含 (长度, 分子量, CRC32 值) 的元组

  • sequence 序列。

示例

>>> from Bio import SwissProt
>>> example_filename = "SwissProt/P68308.txt"
>>> with open(example_filename) as handle:
...     records = SwissProt.parse(handle)
...     for record in records:
...         print(record.entry_name)
...         print(record.accessions)
...         print(record.keywords)
...         print(record.organism)
...         print(record.sequence[:20] + "...")
...
NU3M_BALPH
['P68308', 'P24973']
['Electron transport', 'Membrane', 'Mitochondrion', 'Mitochondrion inner membrane', 'NAD', 'Respiratory chain', 'Translocase', 'Transmembrane', 'Transmembrane helix', 'Transport', 'Ubiquinone']
Balaenoptera physalus (Fin whale) (Balaena physalus).
MNLLLTLLTNTTLALLLVFI...
__init__()

初始化类。

class Bio.SwissProt.Reference

基类: object

保存 SwissProt 条目中的一个参考文献信息。

属性
  • number 条目中参考文献的编号。

  • evidence 证据代码。字符串列表。

  • positions 描述工作范围。字符串列表。

  • comments 注释。包含 (标记, 文本) 的列表。

  • references 参考文献。包含 (数据库名, 标识符) 的列表。

  • authors 工作作者。

  • title 工作标题。

  • location 工作的引用。

__init__()

初始化类。

class Bio.SwissProt.FeatureTable(location=None, type='', id='<unknown id>', qualifiers=None, sub_features=None)

基类: SeqFeature

存储序列特定区域的特征注释。

这是 Bio.SeqFeature 中定义的 SeqFeature 的一个子类,其中属性的使用方式如下

  • location: 特征在规范序列或亚型序列上的位置;该位置存储为 Bio.SeqFeature 中定义的 SimpleLocation 的实例,其 ref 属性设置为引用特征定义所在的规范序列或亚型序列的亚型 ID

  • id: 唯一且稳定的标识符 (FTId),仅在属于类型 CARBOHYD、CHAIN、PEPTIDE、PROPEP、VARIANT 或 VAR_SEQ 的特征中提供

  • type: 指示特征的类型,如 UniProt 知识库文档中定义

    • ACT_SITE: 参与酶活性的氨基酸

    • BINDING: 任何化学基团的结合位点

    • CARBOHYD: 糖基化位点;如果在 GlyConnect 数据库中进行了注释,则提供指向该数据库的 FTId 标识符

    • CA_BIND: 钙结合区域

    • CHAIN: 成熟蛋白质中的多肽链

    • COILED: 卷曲螺旋区域

    • COMPBIAS: 成分偏置区域

    • CONFLICT: 不同的来源报告了不同的序列

    • CROSSLNK: 转译后形成的氨基酸键

    • DISULFID: 二硫键

    • DNA_BIND: DNA 结合区域

    • DOMAIN: 结构域,定义为以特定方式组合的二级结构,这些二级结构组织成特征性的三维结构或折叠

    • INIT_MET: 起始甲硫氨酸

    • INTRAMEM: 位于膜内但不穿过膜的区域

    • HELIX: α-螺旋、3(10)-螺旋或 π-螺旋二级结构

    • LIPID: 脂质部分的共价结合

    • METAL: 金属离子的结合位点

    • MOD_RES: 残基的翻译后修饰 (PTM),通过 UniProt 网站上的 ptmlist.txt 文档中定义的受控词汇进行注释

    • MOTIF: 生物学意义的短序列基序

    • MUTAGEN: 通过诱变实验进行修饰的位点

    • NON_CONS: 非连续残基

    • NON_STD: 非标准氨基酸

    • NON_TER: 序列末端的残基不是末端残基

    • NP_BIND: 核苷酸磷酸结合区域

    • PEPTIDE: 释放的活性成熟多肽

    • PROPEP: 任何处理过的前肽

    • REGION: 序列中感兴趣的区域

    • REPEAT: 内部序列重复

    • SIGNAL: 信号序列(前肽)

    • SITE: 氨基酸位点,是感兴趣的位点,但没有用其他特征键表示

    • STRAND: β-折叠二级结构;可以是氢键结合的延伸 β-折叠,也可以是孤立的 β-桥中的残基

    • TOPO_DOM: 拓扑结构域

    • TRANSIT: 转运肽(线粒体、叶绿体、类囊体、蓝藻体、过氧化物酶体等)

    • TRANSMEM: 跨膜区域

    • TURN: 氢键结合的转角(3-、4- 或 5-转角)

    • UNSURE: 序列中的不确定性

    • VARIANT: 序列变异;对于人科动物(类人猿和人类)的蛋白质序列变异,会提供 FTId

    • VAR_SEQ: 通过可变剪接、可变启动子使用、可变起始或核糖体移码产生的序列变异

    • ZN_FING: 锌指区域

  • qualifiers: 附加信息的字典,可能包括特征证据和自由文本注释。虽然 SwissProt 将特征标识符代码 (FTId) 作为限定符,但它存储为 FeatureTable 对象的 ID 属性。

Bio.SwissProt.parse(source)

从文件中读取多个 SwissProt 记录。

参数 source 是一个文件类对象或文件路径。

返回一个生成器对象,该对象会产生 Bio.SwissProt.Record() 对象。

Bio.SwissProt.read(source)

从文件中读取一个 SwissProt 记录。

参数 source 是一个文件类对象或文件路径。

返回一个 Record() 对象。