Bio.SearchIO.HmmerIO 包

子模块

模块内容

Bio.SearchIO 对 HMMER 输出格式的支持。

此模块增加了对解析 HMMER 输出的支持。HMMER 是一套使用隐马尔可夫模型来寻找蛋白质序列相似性的程序。

Bio.SearchIO.HmmerIO 已在以下 HMMER 版本和类型上进行了测试

  • HMMER3 类型:hmmscan、hmmsearch、phmmer

  • HMMER2 类型:hmmpfam、hmmsearch

有关 HMMER 的更多信息,请参阅以下链接

支持的格式

Bio.SearchIO.HmmerIO 支持以下 HMMER 输出格式

  • 纯文本,v3.0 - ‘hmmer3-text’ - 解析,索引

  • 表格,v3.0 - ‘hmmer3-tab’ - 解析,索引,写入

  • 域表格,v3.0 - ‘hmmer3-domtab’* - 解析,索引,写入

  • 纯文本,v2.x - ‘hmmer2-text’ - 解析,索引

  • 对于域表格输出,由于 HMMER 输出序列坐标的方式,您必须指定产生输出的 HMMER 类型作为文件格式。因此,您不能使用 ‘hmmer3-domtab’,而必须使用 ‘hmmscan3-domtab’、‘hmmsearch3-domtab’ 或 ‘phmmer3-domtab’ 作为文件格式名称。

请注意,对于所有输出格式,HMMER 使用它自己的输入和输出坐标约定。它不使用 ‘hit’ 或 ‘query’,而是使用 ‘hmm’ 或 ‘ali’。例如,‘hmmfrom’ 是 HMM 序列的起始坐标,而 ‘alifrom’ 是蛋白质序列的起始坐标。

HmmerIO 了解这种不同的命名方案,并将相应地调整它们以适应 SearchIO 的对象模型。如果 HmmerIO 发现要解析的输出文件是由 hmmsearch 或 phmmer 编写的,那么所有 ‘hmm’ 坐标将是命中坐标,而 ‘ali’ 坐标将是查询坐标。相反,如果 HMMER 类型是 hmmscan,则 ‘hmm’ 将是查询,而 ‘ali’ 将是命中。

这就是为什么必须使用源 HMMER 类型指定 ‘hmmer3-domtab’ 格式。解析器需要知道哪个是命中,哪个是查询。‘hmmer3-text’ 在文件中包含其源程序信息,而 ‘hmmer3-tab’ 不输出任何坐标。这就是为什么这两种格式不需要像 ‘hmmer3-domtab’ 那样直接指定类型。

还要注意,在使用域表格格式编写器时,它将使用 HMMER 的命名约定(‘hmm’ 和 ‘ali’),因此您编写的文件将类似于由真实 HMMER 程序编写的文件。

hmmer2-text 和 hmmer3-text

用于 HMMER 3.0 纯文本输出的解析器可以解析包含对齐块(默认)或不包含对齐块(使用 ‘–noali’ 标志)的输出文件。如果存在对齐块,您还可以解析具有可变对齐宽度的文件(使用 ‘–notextw’ 或 ‘–textw’ 标志)。

提供以下 SearchIO 对象属性。用 ‘*’ 标记的行表示 hmmer2-text 格式中不可用的属性

对象

属性

QueryResult

accession

登录号(如果存在)

description

查询序列描述

id

查询序列 ID

program

HMMER 类型

seq_len*

查询序列的完整长度

target

目标搜索数据库

version

BLAST 版本

Hit

bias*

命中级别的偏差

bitscore

命中级别的分数

description

命中序列描述

domain_exp_num*

命中中域的预期数量(exp 列)

domain_obs_num

命中中观察到的域数量(N 列)

evalue

命中级别的 e 值

id

命中序列 ID

is_included*

布尔值,指示命中是否在包含阈值内

HSP

acc_avg*

每个对齐残基的预期准确性(acc 列)

bias*

hsp 级的偏差

bitscore

hsp 级的分数

domain_index

HMMER 设置的域索引

env_end*

包络的结束坐标

env_endtype*

包络结束类型(例如 ‘[]’、’..’、’[.’ 等)

env_start*

包络的起始坐标

evalue

hsp 级的独立 e 值

evalue_cond*

hsp 级的条件 e 值

hit_endtype

命中序列结束类型

is_included*

布尔值,指示 hsp 的命中是否在包含阈值内

query_endtype

查询序列结束类型

HSPFragment(也通过 HSP)

aln_annotation

对齐相似性字符串和其他注释(例如 PP、CS)

aln_span

对齐片段的长度

hit

命中序列

hit_end

命中序列结束坐标,可能是 ‘hmmto’ 或 ‘alito’,具体取决于 HMMER 类型

hit_start

命中序列起始坐标,可能是 ‘hmmfrom’ 或 ‘alifrom’,具体取决于 HMMER 类型

hit_strand

命中序列链

query

查询序列

query_end

查询序列结束坐标,可能是 ‘hmmto’ 或 ‘alito’,具体取决于 HMMER 类型

query_start

查询序列起始坐标,可能是 ‘hmmfrom’ 或 ‘alifrom’,具体取决于 HMMER 类型

query_strand

查询序列链

hmmer3-tab

提供以下 SearchIO 对象属性

对象

属性

列 / 值

QueryResult

accession

查询登录号(如果存在)

description

查询序列描述

id

查询名称

Hit

accession

命中登录号

偏差

命中级别的偏差

bitscore

命中级别的分数

description

命中序列描述

cluster_num

clu 列

domain_exp_num

exp 列

domain_included_num

inc 列

domain_obs_num

dom 列

domain_reported_num

rep 列

env_num

env 列

evalue

命中级别的 e 值

id

目标名称

overlap_num

ov 列

region_num

reg 列

HSP

偏差

最佳域的偏差

bitscore

最佳域的 bitscore

evalue

最佳域的 e 值

hmmer3-domtab

要解析域表格文件,您必须使用生成文件的 HMMER 类型。因此,请不要使用 ‘hmmer3-domtab’,而是使用 ‘hmmsearch3-domtab’、‘hmmscan3-domtab’ 或 ‘phmmer3-domtab’。

提供以下 SearchIO 对象属性

对象

属性

QueryResult

accession

accession

description

查询序列描述

id

查询序列 ID

seq_len

查询序列的完整长度

Hit

accession

accession

偏差

命中级别的偏差

bitscore

命中级别的分数

description

命中序列描述

evalue

命中级别的 e 值

id

命中序列 ID

seq_len

命中序列或 HMM 的长度

HSP

acc_avg

每个对齐残基的预期准确性(acc 列)

偏差

hsp 级的偏差

bitscore

hsp 级的分数

domain_index

HMMER 设置的域索引

env_end

包络的结束坐标

env_start

包络的起始坐标

evalue

hsp 级的独立 e 值

evalue_cond

hsp 级的条件 e 值

HSPFragment(也通过 HSP)

hit_end

命中序列结束坐标,可能是 ‘hmmto’ 或 ‘alito’,具体取决于 HMMER 类型

hit_start

命中序列起始坐标,可能是 ‘hmmfrom’ 或 ‘alifrom’,具体取决于 HMMER 类型

hit_strand

命中序列链

query_end

查询序列结束坐标,可能是 ‘hmmto’ 或 ‘alito’,具体取决于 HMMER 类型

query_start

查询序列起始坐标,可能是 ‘hmmfrom’ 或 ‘alifrom’,具体取决于 HMMER 类型

query_strand

查询序列链