Bio.Align.bigpsl 模块

Bio.Align 对 bigPsl 格式的对齐文件提供支持。

bigPsl 文件是一个 bigBed 文件,具有 BED12+13 格式,包含 12 个预定义的 BED 字段和 13 个在 autoSql 文件 bigPsl.as 中定义的自定义字段。此模块使用 Bio.Align.bigbed 模块来解析文件,但以 bigPsl.as 中定义的 PSL 兼容方式存储数据。由于 bigPsl 格式是 bigBed 格式的特例,因此 bigPsl 文件是二进制的,并被索引为 bigBed 文件。

有关更多信息,请参阅 http://genome.ucsc.edu/goldenPath/help/bigPsl.html

您应该通过 Bio.Align 函数来使用此模块。

class Bio.Align.bigpsl.AlignmentWriter(target, targets=None, compress=True, extraIndex=(), cds=False, fa=False, mask=None, wildcard='N')

基类:AlignmentWriter

用于 bigPsl 文件格式的对齐文件写入器。

fmt: str | None = 'bigPsl'
__init__(target, targets=None, compress=True, extraIndex=(), cds=False, fa=False, mask=None, wildcard='N')

创建一个 AlignmentWriter 对象。

参数
  • target - 输出流或文件名。

  • targets - 一个包含染色体对象的 SeqRecord 列表,

    顺序与它们在对齐中的顺序相同。每个 SeqRecord 中的序列内容可以是未定义的,但序列长度必须定义,例如

    SeqRecord(Seq(None, length=248956422), id=”chr1”)

    如果 targets 为 None(默认值),则对齐必须具有一个属性 .targets,该属性提供 SeqRecord 对象列表。

  • compress - 如果为 True(默认值),则使用 zlib 压缩数据。

    如果为 False,则不压缩数据。

  • extraIndex - 包含要索引的额外列名称的字符串列表。

    默认值为一个空列表。

  • cds - 如果为 True,则查找类型为 CDS 的查询特征,并在

    PSL 文件中以 NCBI 样式写入它(默认值:False)。

  • fa - 如果为 True,则将查询序列包含在 PSL 文件中

    (默认值:False)。

  • mask - 指定目标序列中的重复区域是否被

    屏蔽,并应在 repMatches 字段中而不是 matches 字段中报告。可接受的值为 None:无屏蔽(默认);“lower”:通过小写字符屏蔽;“upper”:通过大写字符屏蔽。

  • wildcard - 将对齐到目标或查询序列中的通配符字符

    报告到 nCount 字段中而不是 matchesmisMatchesrepMatches 字段中。默认值为 'N'。

write_file(stream, alignments)

写入文件。

__abstractmethods__ = frozenset({})
class Bio.Align.bigpsl.AlignmentIterator(source)

基类:AlignmentIterator

用于 bigPsl 文件的对齐迭代器。

存储在 bigPsl 文件中的成对对齐将被加载并增量返回。其他对齐信息存储为每个对齐的属性。

fmt: str | None = 'bigPsl'
__abstractmethods__ = frozenset({})