Bio.Sequencing.Ace 模块
PHRAP 输出的 ACE 文件解析器。
由 Frank Kauff (fkauff@duke.edu) 和 Cymon J. Cox (cymon@duke.edu) 编写。
用法
有两种方法可以读取 ace 文件。
函数 ‘read’ 一次性读取整个文件;
函数 ‘parse’ 一次性读取一个接一个的片段。
第一个选项,一次性解析整个 ace 文件。
from Bio.Sequencing import Ace
acefilerecord = Ace.read(open('my_ace_file.ace'))
- 这会给你
acefilerecord.ncontigs(ace 文件中的片段数量)
acefilerecord.nreads(ace 文件中的读取数量)
acefilerecord.contigs[](每个片段的 Contig 类的一个实例)
Contig 类保存 CO 标签、CT 和 WA 标签的信息,以及用于此片段的所有读取(在 Read 类的实例列表中),例如:
contig3 = acefilerecord.contigs[2]
read4 = contig3.reads[3]
RD_of_read4 = read4.rd
DS_of_read4 = read4.ds
来自文件末尾的 CT、WA、RT 标签可以出现在任何位置,并自动排序到正确的位置。
有关详细信息,请参阅 _RecordConsumer。
第二个选项是以通常的方式逐个迭代 ace 文件中的片段。
from Bio.Sequencing import Ace
contigs = Ace.parse(open('my_ace_file.ace'))
for contig in contigs:
print(contig.name)
...
请注意,为了内存效率,使用迭代器方法时,一次只保留一个片段。但是,ACE 文件可能有一个页脚,其中包含 WA、CT、RT 或 WR 标签,这些标签包含有关片段的附加元数据。由于解析器在看到最后一个记录之前看不到这些数据,因此无法将其添加到相应的记录中。相反,这些标签将与最后一个片段记录一起返回。因此,ace 文件不完全适合迭代的概念。如果需要 WA、CT、RT、WR 标签,那么 ‘read’ 函数比 ‘parse’ 函数更合适。
- class Bio.Sequencing.Ace.rd
基础:
object
RD(读取),存储具有其名称、序列等的读取。
每个读取映射到的位置和链都保存在 AF 行中。
- __init__()
初始化类。
- class Bio.Sequencing.Ace.qa(line=None)
基础:
object
QA(读取质量),包括使用作为共识的部分(如果有)。
- __init__(line=None)
初始化类。
- class Bio.Sequencing.Ace.af(line=None)
基础:
object
AF 行,定义读取在片段中的位置。
请注意属性 coru 是 complemented (C) 或 uncomplemented (U) 的缩写,因为链信息使用 C 或 U 字符存储在 ACE 文件中。
- __init__(line=None)
初始化类。
- class Bio.Sequencing.Ace.bs(line=None)
基础:
object
BS(碱基片段),在每个位置选择哪个读取作为共识。
- __init__(line=None)
初始化类。
- class Bio.Sequencing.Ace.rt(line=None)
基础:
object
RT(瞬态读取标签),由 crossmatch 和 phrap 生成。
- __init__(line=None)
初始化类。
- class Bio.Sequencing.Ace.wa(line=None)
基础:
object
WA(整个程序集标签),保存程序集程序名称、版本等。
- __init__(line=None)
初始化类。
- class Bio.Sequencing.Ace.Reads(line=None)
基础:
object
保存有关支持 ACE 片段的读取的信息。
- __init__(line=None)
初始化类。
- class Bio.Sequencing.Ace.Contig(line=None)
基础:
object
保存有关 ACE 记录中的片段的信息。
- __init__(line=None)
初始化类。
- Bio.Sequencing.Ace.parse(source)
逐个迭代 ACE 文件的重叠群。
参数 source 是一个类文件对象或文件路径。
此函数返回一个迭代器,允许您逐条记录迭代 ACE 文件
records = parse(source) for record in records: # do something with the record
其中每条记录都是一个 Contig 对象。
- class Bio.Sequencing.Ace.ACEFileRecord
基础:
object
保存 ACE 文件的数据。
- __init__()
初始化类。
- sort()
将 wr、rt 和 ct 标签排序到相应的重叠群/读取实例中,如果可能。
- Bio.Sequencing.Ace.read(handle)
将完整的 ACE 文件解析为一个重叠群列表。