Bio.AlignIO.MafIO 模块

Bio.AlignIO 对“maf”多序列比对格式的支持。

由 UCSC 描述的多序列比对格式,将一系列多序列比对存储在一个文件中。它适用于全基因组到全基因组的比对,可以存储诸如源染色体、起始位置、大小和链之类的元数据。

参见 http://genome.ucsc.edu/FAQ/FAQformat.html#format5

您应该通过 Bio.AlignIO 函数(或 Bio.SeqIO 函数,如果您想直接使用带间隙的序列)来使用此模块。

MAF 格式中的坐标是根据零基起始位置(如 Python)和比对区域大小定义的。

长度为 1 且从源序列的第一个位置开始的最小比对区域将具有 start == 0size == 1

正如我们在该示例中看到的,start + size 将给出零基结束位置加 1。因此,我们可以将 startstart + size 作为 Python 列表切片边界来操作。

对于包含结束坐标,我们需要使用 end = start + size - 1。一个 1 列宽的比对将有 start == end

class Bio.AlignIO.MafIO.MafWriter(handle)

基类:SequentialAlignmentWriter

接受一个 MultipleSeqAlignment 对象,写入 MAF 文件。

write_header()

写入 MAF 标头。

write_alignment(alignment)

将完整的比对写入 MAF 块。

将 MultipleSeqAlignment 对象中的每个 SeqRecord 写入其自己的 MAF 块(从包含“s”行的“a”行开始)。

Bio.AlignIO.MafIO.MafIterator(handle, seq_count=None)

将 MAF 文件句柄迭代为 MultipleSeqAlignment 对象。

迭代 MAF 文件类对象(句柄)中的行,产生 MultipleSeqAlignment 对象。SeqRecord ID 通常对应于物种名称。

class Bio.AlignIO.MafIO.MafIndex(sqlite_file, maf_file, target_seqname)

基类:object

MAF 文件的索引。

索引是一个 sqlite3 数据库,该数据库在对象创建时构建(如果需要),并在使用方法 searchget_spliced 时查询。

__init__(sqlite_file, maf_file, target_seqname)

索引或加载 MAF 文件的索引。

close()

关闭用于读取数据的文件句柄。

一旦调用,索引的进一步使用将不再起作用。此方法的唯一目的是允许显式句柄关闭 - 例如,如果您希望删除文件,在 Windows 上,您必须首先关闭该文件的所有打开的句柄。

search(starts, ends)

在索引数据库中搜索与提供的范围重叠的 MAF 记录。

以起始位置、然后结束位置、然后内部偏移字段的顺序返回 MultipleSeqAlignment 结果。

starts 应该是参考序列中片段的 0 基起始坐标列表。ends 应该是相应片段结束位置的列表(以半开 UCSC 约定:http://genome.ucsc.edu/blog/the-ucsc-genome-browser-coordinate-counting-systems/)。

get_spliced(starts, ends, strand=1)

返回提供的精确序列范围的多序列比对。

接受 target_seqname 上的起始位置和结束位置的两个列表,表示要进行硅片拼接的外显子。返回所需序列拼接在一起的 MultipleSeqAlignment

starts 应该是参考序列中片段的 0 基起始坐标列表。ends 应该是相应片段结束位置的列表(以半开 UCSC 约定:http://genome.ucsc.edu/blog/the-ucsc-genome-browser-coordinate-counting-systems/)。

要请求对应于参考序列前 100 个核苷酸的比对部分,可以使用 search([0], [100])

__repr__()

返回索引的字符串表示形式。

__len__()

返回索引中的记录数量。