Bio.SearchIO.HmmerIO 包
子模块
- Bio.SearchIO.HmmerIO.hmmer2_text 模块
Hmmer2TextParser
Hmmer2TextParser.__init__()
Hmmer2TextParser.__iter__()
Hmmer2TextParser.read_next()
Hmmer2TextParser.push_back()
Hmmer2TextParser.parse_key_value()
Hmmer2TextParser.parse_preamble()
Hmmer2TextParser.parse_qresult()
Hmmer2TextParser.parse_hits()
Hmmer2TextParser.parse_hsps()
Hmmer2TextParser.parse_hsp_alignments()
Hmmer2TextIndexer
- Bio.SearchIO.HmmerIO.hmmer3_domtab 模块
- Bio.SearchIO.HmmerIO.hmmer3_tab 模块
- Bio.SearchIO.HmmerIO.hmmer3_text 模块
模块内容
Bio.SearchIO 对 HMMER 输出格式的支持。
此模块增加了对解析 HMMER 输出的支持。HMMER 是一套使用隐马尔可夫模型来寻找蛋白质序列相似性的程序。
Bio.SearchIO.HmmerIO 已在以下 HMMER 版本和类型上进行了测试
HMMER3 类型:hmmscan、hmmsearch、phmmer
HMMER2 类型:hmmpfam、hmmsearch
- 有关 HMMER 的更多信息,请参阅以下链接
支持的格式
Bio.SearchIO.HmmerIO 支持以下 HMMER 输出格式
纯文本,v3.0 - ‘hmmer3-text’ - 解析,索引
表格,v3.0 - ‘hmmer3-tab’ - 解析,索引,写入
域表格,v3.0 - ‘hmmer3-domtab’* - 解析,索引,写入
纯文本,v2.x - ‘hmmer2-text’ - 解析,索引
对于域表格输出,由于 HMMER 输出序列坐标的方式,您必须指定产生输出的 HMMER 类型作为文件格式。因此,您不能使用 ‘hmmer3-domtab’,而必须使用 ‘hmmscan3-domtab’、‘hmmsearch3-domtab’ 或 ‘phmmer3-domtab’ 作为文件格式名称。
请注意,对于所有输出格式,HMMER 使用它自己的输入和输出坐标约定。它不使用 ‘hit’ 或 ‘query’,而是使用 ‘hmm’ 或 ‘ali’。例如,‘hmmfrom’ 是 HMM 序列的起始坐标,而 ‘alifrom’ 是蛋白质序列的起始坐标。
HmmerIO 了解这种不同的命名方案,并将相应地调整它们以适应 SearchIO 的对象模型。如果 HmmerIO 发现要解析的输出文件是由 hmmsearch 或 phmmer 编写的,那么所有 ‘hmm’ 坐标将是命中坐标,而 ‘ali’ 坐标将是查询坐标。相反,如果 HMMER 类型是 hmmscan,则 ‘hmm’ 将是查询,而 ‘ali’ 将是命中。
这就是为什么必须使用源 HMMER 类型指定 ‘hmmer3-domtab’ 格式。解析器需要知道哪个是命中,哪个是查询。‘hmmer3-text’ 在文件中包含其源程序信息,而 ‘hmmer3-tab’ 不输出任何坐标。这就是为什么这两种格式不需要像 ‘hmmer3-domtab’ 那样直接指定类型。
还要注意,在使用域表格格式编写器时,它将使用 HMMER 的命名约定(‘hmm’ 和 ‘ali’),因此您编写的文件将类似于由真实 HMMER 程序编写的文件。
hmmer2-text 和 hmmer3-text
用于 HMMER 3.0 纯文本输出的解析器可以解析包含对齐块(默认)或不包含对齐块(使用 ‘–noali’ 标志)的输出文件。如果存在对齐块,您还可以解析具有可变对齐宽度的文件(使用 ‘–notextw’ 或 ‘–textw’ 标志)。
提供以下 SearchIO 对象属性。用 ‘*’ 标记的行表示 hmmer2-text 格式中不可用的属性
对象 |
属性 |
值 |
---|---|---|
QueryResult |
accession |
登录号(如果存在) |
description |
查询序列描述 |
|
id |
查询序列 ID |
|
program |
HMMER 类型 |
|
seq_len* |
查询序列的完整长度 |
|
target |
目标搜索数据库 |
|
version |
BLAST 版本 |
|
Hit |
bias* |
命中级别的偏差 |
bitscore |
命中级别的分数 |
|
description |
命中序列描述 |
|
domain_exp_num* |
命中中域的预期数量(exp 列) |
|
domain_obs_num |
命中中观察到的域数量(N 列) |
|
evalue |
命中级别的 e 值 |
|
id |
命中序列 ID |
|
is_included* |
布尔值,指示命中是否在包含阈值内 |
|
HSP |
acc_avg* |
每个对齐残基的预期准确性(acc 列) |
bias* |
hsp 级的偏差 |
|
bitscore |
hsp 级的分数 |
|
domain_index |
HMMER 设置的域索引 |
|
env_end* |
包络的结束坐标 |
|
env_endtype* |
包络结束类型(例如 ‘[]’、’..’、’[.’ 等) |
|
env_start* |
包络的起始坐标 |
|
evalue |
hsp 级的独立 e 值 |
|
evalue_cond* |
hsp 级的条件 e 值 |
|
hit_endtype |
命中序列结束类型 |
|
is_included* |
布尔值,指示 hsp 的命中是否在包含阈值内 |
|
query_endtype |
查询序列结束类型 |
|
HSPFragment(也通过 HSP) |
aln_annotation |
对齐相似性字符串和其他注释(例如 PP、CS) |
aln_span |
对齐片段的长度 |
|
hit |
命中序列 |
|
hit_end |
命中序列结束坐标,可能是 ‘hmmto’ 或 ‘alito’,具体取决于 HMMER 类型 |
|
hit_start |
命中序列起始坐标,可能是 ‘hmmfrom’ 或 ‘alifrom’,具体取决于 HMMER 类型 |
|
hit_strand |
命中序列链 |
|
query |
查询序列 |
|
query_end |
查询序列结束坐标,可能是 ‘hmmto’ 或 ‘alito’,具体取决于 HMMER 类型 |
|
query_start |
查询序列起始坐标,可能是 ‘hmmfrom’ 或 ‘alifrom’,具体取决于 HMMER 类型 |
|
query_strand |
查询序列链 |
hmmer3-tab
提供以下 SearchIO 对象属性
对象 |
属性 |
列 / 值 |
---|---|---|
QueryResult |
accession |
查询登录号(如果存在) |
description |
查询序列描述 |
|
id |
查询名称 |
|
Hit |
accession |
命中登录号 |
偏差 |
命中级别的偏差 |
|
bitscore |
命中级别的分数 |
|
description |
命中序列描述 |
|
cluster_num |
clu 列 |
|
domain_exp_num |
exp 列 |
|
domain_included_num |
inc 列 |
|
domain_obs_num |
dom 列 |
|
domain_reported_num |
rep 列 |
|
env_num |
env 列 |
|
evalue |
命中级别的 e 值 |
|
id |
目标名称 |
|
overlap_num |
ov 列 |
|
region_num |
reg 列 |
|
HSP |
偏差 |
最佳域的偏差 |
bitscore |
最佳域的 bitscore |
|
evalue |
最佳域的 e 值 |
hmmer3-domtab
要解析域表格文件,您必须使用生成文件的 HMMER 类型。因此,请不要使用 ‘hmmer3-domtab’,而是使用 ‘hmmsearch3-domtab’、‘hmmscan3-domtab’ 或 ‘phmmer3-domtab’。
提供以下 SearchIO 对象属性
对象 |
属性 |
值 |
---|---|---|
QueryResult |
accession |
accession |
description |
查询序列描述 |
|
id |
查询序列 ID |
|
seq_len |
查询序列的完整长度 |
|
Hit |
accession |
accession |
偏差 |
命中级别的偏差 |
|
bitscore |
命中级别的分数 |
|
description |
命中序列描述 |
|
evalue |
命中级别的 e 值 |
|
id |
命中序列 ID |
|
seq_len |
命中序列或 HMM 的长度 |
|
HSP |
acc_avg |
每个对齐残基的预期准确性(acc 列) |
偏差 |
hsp 级的偏差 |
|
bitscore |
hsp 级的分数 |
|
domain_index |
HMMER 设置的域索引 |
|
env_end |
包络的结束坐标 |
|
env_start |
包络的起始坐标 |
|
evalue |
hsp 级的独立 e 值 |
|
evalue_cond |
hsp 级的条件 e 值 |
|
HSPFragment(也通过 HSP) |
hit_end |
命中序列结束坐标,可能是 ‘hmmto’ 或 ‘alito’,具体取决于 HMMER 类型 |
hit_start |
命中序列起始坐标,可能是 ‘hmmfrom’ 或 ‘alifrom’,具体取决于 HMMER 类型 |
|
hit_strand |
命中序列链 |
|
query_end |
查询序列结束坐标,可能是 ‘hmmto’ 或 ‘alito’,具体取决于 HMMER 类型 |
|
query_start |
查询序列起始坐标,可能是 ‘hmmfrom’ 或 ‘alifrom’,具体取决于 HMMER 类型 |
|
query_strand |
查询序列链 |