Bio.SearchIO.InterproscanIO 包

子模块

模块内容

Bio.SearchIO 对 InterProScan 输出格式的支持。

此模块添加了对解析 InterProScan XML 输出的支持。InterProScan 可作为命令行程序或在 EMBL-EBI 的网页上使用。Bio.SearchIO.InterproscanIO 已在以下版本上进行了测试

  • 版本:5.26-65.0 (interproscan-model-2.1.xsd)

有关 InterProScan 的更多信息,请通过以下链接获取: - 出版物:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3998142/ - 网页界面:https://www.ebi.ac.uk/interpro/search/sequence-search - 文档:https://github.com/ebi-pf-team/interproscan/wiki

支持的格式

Bio.SearchIO.InterproscanIO 支持以下格式

  • XML - ‘interproscan-xml’ - 解析

interproscan-xml

interproscan-xml 解析器遵循此处描述的 InterProScan XML:https://github.com/ebi-pf-team/interproscan/wiki/OutputFormats

对象

属性

XML 元素

QueryResult

target

InterPro

program

InterProScan

version

protein-matches.interproscan-version

Hit

accession

signature.name

id

signature.ac

description

signature.desc

dbxrefs

IPR:entry.ac go-xref.id pathway-xref.db:pathway-xref.id

attributes [‘Target’] [‘Target version’] [‘Hit type’]

*-match / *-location signature-library-release.library signature-library-release.version

HSP

bitscore

*-location.score

evalue

*-location.evalue

HSPFragment (也可通过 HSP)

query_start

*-location.start

query_end

*-location.end

hit_start

*-location.hmm-start

hit_end

*-location.hmm-end

query

sequence

InterProScan XML 文件可能包含具有多个位置的匹配项,或者包含对同一蛋白质具有单个位置的多个匹配项。在这两种情况下,匹配项都以唯一的 HIT 对象形式存储,位置以 HSP 对象形式存储。

HSP.*start == *start - 1 (因为 Biopython 中每个起始位置都是基于 0 的)

HSP.aln_span ==  query-end - query-start

匹配项或位置的类型(例如,hmmer3-match、hmmer3-location、coils-match、panther-location)存储在 hit.attributes[‘Hit type’] 中。例如,对于每个 ‘phobious-match’ 来说,将存在一个 ‘phobious-location’。因此,Hit.type 将存储不包含 ‘-match’ 或 ‘-location’ 的字符串(本例中为 ‘phobious’)。