Bio.SearchIO.FastaIO 模块

Bio.SearchIO 对 Bill Pearson 的 FASTA 工具的支持。

此模块增加了对解析 FASTA 输出的支持。FASTA 是一套程序,用于通过搜索数据库或识别局部重复来查找蛋白质或核苷酸序列之间的局部或全局相似性区域。

Bio.SearchIO.FastaIO 已在以下 FASTA 版本和版本上进行了测试

  • 版本:fasta、ssearch、tfastx

  • 版本:35、36

其他版本和/或版本可能会引入一些错误。如果您发现此类问题,请向 Biopython 的错误跟踪器提交错误报告。

有关 FASTA 的更多信息,请访问以下链接

支持的格式

Bio.SearchIO.FastaIO 支持解析和索引由 -m 10 标志触发的 FASTA 输出。模拟其他程序的其他格式(例如使用 -m 8 标志的 BLAST 表格格式)可能是可解析的,但使用 SearchIO 的其他解析器(在本例中,使用 'blast-tab' 解析器)。

fasta-m10

请注意,在 FASTA -m 10 输出中,来自不同链的 HSP 被视为来自不同的命中。它们在命中表中被列为两个独立的条目。FastaIO 认识到这一点,并将具有相同命中 ID 的 HSP 分组到一个单一的 Hit 对象中,无论链如何。

FASTA 有时还会输出与 HSP 匹配相邻的额外序列。这些额外的序列被 FastaIO 丢弃。仅提取包含实际序列匹配的区域。

提供以下对象属性

对象

属性

价值

QueryResult

description

查询序列描述

id

查询序列 ID

program

FASTA 版本

seq_len

查询序列的完整长度

target

目标搜索数据库

version

FASTA 版本

Hit

seq_len

命中序列的完整长度

HSP

bitscore

*_bits 行

evalue

*_expect 行

ident_pct

*_ident 行

init1_score

*_init1 行

initn_score

*_initn 行

opt_score

*_opt 行,*_s-w opt 行

pos_pct

*_sim 行

sw_score

*_score 行

z_score

*_z-score 行

HSPFragment(也通过 HSP)

aln_annotation

al_cons 块(如果存在)

hit

命中序列

hit_end

命中序列结束坐标

hit_start

命中序列开始坐标

hit_strand

命中序列链

query

查询序列

query_end

查询序列结束坐标

query_start

查询序列开始坐标

query_strand

查询序列链

class Bio.SearchIO.FastaIO.FastaM10Parser(handle, _FastaM10Parser__parse_hit_table=False)

Bases: object

Bill Pearson 的 FASTA 套件的 -m 10 输出的解析器。

__init__(handle, _FastaM10Parser__parse_hit_table=False)

初始化类。

__iter__()

遍历 FastaM10Parser 对象,生成查询结果。

class Bio.SearchIO.FastaIO.FastaM10Indexer(filename)

Bases: SearchIndexer

Bill Pearson 的 FASTA 套件的 -m 10 输出的索引器类。

__init__(filename)

初始化类。

__iter__()

遍历 FastaM10Indexer;生成查询结果的键、起始偏移量和偏移量长度。

get_raw(offset)

从文件中返回原始记录,作为字节字符串。

__abstractmethods__ = frozenset({})