Bio.SearchIO.FastaIO 模块
Bio.SearchIO 对 Bill Pearson 的 FASTA 工具的支持。
此模块增加了对解析 FASTA 输出的支持。FASTA 是一套程序,用于通过搜索数据库或识别局部重复来查找蛋白质或核苷酸序列之间的局部或全局相似性区域。
Bio.SearchIO.FastaIO 已在以下 FASTA 版本和版本上进行了测试
版本:fasta、ssearch、tfastx
版本:35、36
其他版本和/或版本可能会引入一些错误。如果您发现此类问题,请向 Biopython 的错误跟踪器提交错误报告。
有关 FASTA 的更多信息,请访问以下链接
支持的格式
Bio.SearchIO.FastaIO 支持解析和索引由 -m 10 标志触发的 FASTA 输出。模拟其他程序的其他格式(例如使用 -m 8 标志的 BLAST 表格格式)可能是可解析的,但使用 SearchIO 的其他解析器(在本例中,使用 'blast-tab' 解析器)。
fasta-m10
请注意,在 FASTA -m 10 输出中,来自不同链的 HSP 被视为来自不同的命中。它们在命中表中被列为两个独立的条目。FastaIO 认识到这一点,并将具有相同命中 ID 的 HSP 分组到一个单一的 Hit 对象中,无论链如何。
FASTA 有时还会输出与 HSP 匹配相邻的额外序列。这些额外的序列被 FastaIO 丢弃。仅提取包含实际序列匹配的区域。
提供以下对象属性
对象 |
属性 |
价值 |
---|---|---|
QueryResult |
description |
查询序列描述 |
id |
查询序列 ID |
|
program |
FASTA 版本 |
|
seq_len |
查询序列的完整长度 |
|
target |
目标搜索数据库 |
|
version |
FASTA 版本 |
|
Hit |
seq_len |
命中序列的完整长度 |
HSP |
bitscore |
*_bits 行 |
evalue |
*_expect 行 |
|
ident_pct |
*_ident 行 |
|
init1_score |
*_init1 行 |
|
initn_score |
*_initn 行 |
|
opt_score |
*_opt 行,*_s-w opt 行 |
|
pos_pct |
*_sim 行 |
|
sw_score |
*_score 行 |
|
z_score |
*_z-score 行 |
|
HSPFragment(也通过 HSP) |
aln_annotation |
al_cons 块(如果存在) |
hit |
命中序列 |
|
hit_end |
命中序列结束坐标 |
|
hit_start |
命中序列开始坐标 |
|
hit_strand |
命中序列链 |
|
query |
查询序列 |
|
query_end |
查询序列结束坐标 |
|
query_start |
查询序列开始坐标 |
|
query_strand |
查询序列链 |