Bio.Sequencing.Ace 模块

PHRAP 输出的 ACE 文件解析器。

由 Frank Kauff (fkauff@duke.edu) 和 Cymon J. Cox (cymon@duke.edu) 编写。

用法

有两种方法可以读取 ace 文件。

  1. 函数 ‘read’ 一次性读取整个文件;

  2. 函数 ‘parse’ 一次性读取一个接一个的片段。

第一个选项,一次性解析整个 ace 文件。

from Bio.Sequencing import Ace
acefilerecord = Ace.read(open('my_ace_file.ace'))
这会给你
  • acefilerecord.ncontigs(ace 文件中的片段数量)

  • acefilerecord.nreads(ace 文件中的读取数量)

  • acefilerecord.contigs[](每个片段的 Contig 类的一个实例)

Contig 类保存 CO 标签、CT 和 WA 标签的信息,以及用于此片段的所有读取(在 Read 类的实例列表中),例如:

contig3 = acefilerecord.contigs[2]
read4 = contig3.reads[3]
RD_of_read4 = read4.rd
DS_of_read4 = read4.ds

来自文件末尾的 CT、WA、RT 标签可以出现在任何位置,并自动排序到正确的位置。

有关详细信息,请参阅 _RecordConsumer。

第二个选项是以通常的方式逐个迭代 ace 文件中的片段。

from Bio.Sequencing import Ace
contigs = Ace.parse(open('my_ace_file.ace'))
for contig in contigs:
    print(contig.name)
    ...

请注意,为了内存效率,使用迭代器方法时,一次只保留一个片段。但是,ACE 文件可能有一个页脚,其中包含 WA、CT、RT 或 WR 标签,这些标签包含有关片段的附加元数据。由于解析器在看到最后一个记录之前看不到这些数据,因此无法将其添加到相应的记录中。相反,这些标签将与最后一个片段记录一起返回。因此,ace 文件不完全适合迭代的概念。如果需要 WA、CT、RT、WR 标签,那么 ‘read’ 函数比 ‘parse’ 函数更合适。

class Bio.Sequencing.Ace.rd

基础:object

RD(读取),存储具有其名称、序列等的读取。

每个读取映射到的位置和链都保存在 AF 行中。

__init__()

初始化类。

class Bio.Sequencing.Ace.qa(line=None)

基础:object

QA(读取质量),包括使用作为共识的部分(如果有)。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.ds(line=None)

基础:object

DS 行,包括读取的染色体图文件的名称。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.af(line=None)

基础:object

AF 行,定义读取在片段中的位置。

请注意属性 coru 是 complemented (C) 或 uncomplemented (U) 的缩写,因为链信息使用 C 或 U 字符存储在 ACE 文件中。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.bs(line=None)

基础:object

BS(碱基片段),在每个位置选择哪个读取作为共识。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.rt(line=None)

基础:object

RT(瞬态读取标签),由 crossmatch 和 phrap 生成。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.ct(line=None)

基础:object

CT(共识标签)。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.wa(line=None)

基础:object

WA(整个程序集标签),保存程序集程序名称、版本等。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.wr(line=None)

基础:object

WR 行。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.Reads(line=None)

基础:object

保存有关支持 ACE 片段的读取的信息。

__init__(line=None)

初始化类。

class Bio.Sequencing.Ace.Contig(line=None)

基础:object

保存有关 ACE 记录中的片段的信息。

__init__(line=None)

初始化类。

Bio.Sequencing.Ace.parse(source)

逐个迭代 ACE 文件的重叠群。

参数 source 是一个类文件对象或文件路径。

此函数返回一个迭代器,允许您逐条记录迭代 ACE 文件

records = parse(source)
for record in records:
    # do something with the record

其中每条记录都是一个 Contig 对象。

class Bio.Sequencing.Ace.ACEFileRecord

基础:object

保存 ACE 文件的数据。

__init__()

初始化类。

sort()

将 wr、rt 和 ct 标签排序到相应的重叠群/读取实例中,如果可能。

Bio.Sequencing.Ace.read(handle)

将完整的 ACE 文件解析为一个重叠群列表。