Bio.motifs 包

子模块

模块内容

用于序列基序分析的工具。

Bio.motifs 包含核心 Motif 类，其中包含各种 I/O 方法，以及用于基序比较和在序列中搜索基序的方法。它还包括用于解析来自 AlignACE、MEME 和 MAST 程序的输出的功能，以及 TRANSFAC 格式的文件。

Bio.motifs.create(instances, alphabet='ACGT'): 创建 Motif 对象。

Bio.motifs.parse(handle, fmt, strict=True)

解析来自基序查找程序的输出文件。

当前支持的格式（大小写无关）

AlignAce：AlignAce 输出文件格式
ClusterBuster：Cluster Buster 位置频率矩阵格式
XMS：XMS 矩阵格式
MEME：MEME 输出文件基序
MINIMAL：MINIMAL MEME 输出文件基序
MAST：MAST 输出文件基序
TRANSFAC：TRANSFAC 数据库文件格式
pfm-four-columns：具有四列的通用位置频率矩阵格式。（cisbp，homer，hocomoco，neph，tiffin）
pfm-four-rows：具有四行的通用位置频率矩阵格式。（scertf，yetfasco，hdpi，idmmpmm，flyfactor survey）
pfm：JASPAR 风格的位置频率矩阵
jaspar：JASPAR 风格的多个 PFM 格式
sites：JASPAR 风格的站点文件

由于 pfm 和 sites 格式的文件只包含一个基序，因此使用 Bio.motifs.read() 而不是 Bio.motifs.parse() 来读取这些文件会更容易。

例如

>>> from Bio import motifs
>>> with open("motifs/alignace.out") as handle:
...     for m in motifs.parse(handle, "AlignAce"):
...         print(m.consensus)
...
TCTACGATTGAG
CTGCACCTAGCTACGAGTGAG
GTGCCCTAAGCATACTAGGCG
GCCACTAGCAGAGCAGGGGGC
CGACTCAGAGGTT
CCACGCTAAGAGAAGTGCCGGAG
GCACGTCCCTGAGCA
GTCCATCGCAAAGCGTGGGGC
GAGATCAGAGGGCCG
TGGACGCGGGG
GACCAGAGCCTCGCATGGGGG
AGCGCGCGTG
GCCGGTTGCTGTTCATTAGG
ACCGACGGCAGCTAAAAGGG
GACGCCGGGGAT
CGACTCGCGCTTACAAGG

如果 strict 为 True（默认值），解析器将引发 ValueError，如果文件内容不严格符合指定的格式。

Bio.motifs.read(handle, fmt, strict=True)

使用指定的格式从句柄读取基序。

这支持与 Bio.motifs.parse() 相同的格式，但只适用于包含一个基序的文件。例如，读取 JASPAR 风格的 pfm 文件

>>> from Bio import motifs
>>> with open("motifs/SRF.pfm") as handle:
...     m = motifs.read(handle, "pfm")
>>> m.consensus
Seq('GCCCATATATGG')

或单个基序 MEME 文件，

>>> from Bio import motifs
>>> with open("motifs/meme.psp_test.classic.zoops.xml") as handle:
...     m = motifs.read(handle, "meme")
>>> m.consensus
Seq('GCTTATGTAA')

如果句柄不包含记录，或包含多个记录，则会引发异常

>>> from Bio import motifs
>>> with open("motifs/alignace.out") as handle:
...     motif = motifs.read(handle, "AlignAce")
Traceback (most recent call last):
    ...
ValueError: More than one motif found in handle

但是，如果您想要包含多个基序的文件中的第一个基序，此函数将引发异常（如上面的示例所示）。而是使用

>>> from Bio import motifs
>>> with open("motifs/alignace.out") as handle:
...     record = motifs.parse(handle, "alignace")
>>> motif = record[0]
>>> motif.consensus
Seq('TCTACGATTGAG')

如果要从句柄中读取多个记录，请使用 Bio.motifs.parse(handle, fmt) 函数。

如果 strict 为 True（默认值），解析器将引发 ValueError，如果文件内容不严格符合指定的格式。

class Bio.motifs.Instances(instances=None, alphabet='ACGT')

基础：list

包含构成基序的序列列表的类。

__init__(instances=None, alphabet='ACGT'): 初始化类。

__str__(): 返回一个包含基序序列的字符串。

count(): 统计某个位置的核苷酸数量。

search(sequence)

在给定序列中查找基序的位置。

这是一个生成器函数，返回给定序列中找到的基序实例的位置。

reverse_complement(): 计算序列的反向互补。

class Bio.motifs.Motif(alphabet='ACGT', alignment=None, counts=None, instances=None)

基础：object

表示序列基序的类。

__init__(alphabet='ACGT', alignment=None, counts=None, instances=None): 初始化类。

property mask

property pseudocounts

property background

__getitem__(key)

返回一个包含 key 中包含的位置的新 Motif 对象。

>>> from Bio import motifs
>>> motif = motifs.create(["AACGCCA", "ACCGCCC", "AACTCCG"])
>>> print(motif)
AACGCCA
ACCGCCC
AACTCCG
>>> print(motif[:-1])
AACGCC
ACCGCC
AACTCC

property pwm: 计算并返回此基序的位置权重矩阵。

property pssm: 计算并返回此基序的位置特异性评分矩阵。

property instances: 返回构建基序的序列。

__str__(masked=False): 返回基序的字符串表示。

__len__()

返回基序的长度。

请使用此方法（即调用 len(m)）而不是直接引用 m.length。

reverse_complement(): 将基序的反向互补作为新的基序返回。

property consensus: 返回一致序列。

property anticonsensus: 返回从该基序生成的可能性最小的模式。

property degenerate_consensus

返回简并一致序列。

遵循 D. R. Cavener 采用的规则：“果蝇和脊椎动物翻译起始位点侧翼的共有序列比较。” 核酸研究 15(4)：1353-1361。 (1987)。

TRANSFAC 使用相同的规则。

property relative_entropy: 返回一个数组，其中包含基序每一列的相对熵。

weblogo(fname, fmt='PNG', version=None, **kwds)

使用伯克利 WebLogo 服务下载并保存 WebLogo。

需要互联网连接。

version 参数已弃用，没有任何影响。

来自 **kwds 的参数将直接传递给 WebLogo 服务器。

当前，此方法使用 WebLogo 版本 3.3。这些是传递给 WebLogo 3.3 的参数及其默认值；有关更多信息，请参见其网站 http://weblogo.threeplusone.com

'stack_width' : 'medium',
'stacks_per_line' : '40',
'alphabet' : 'alphabet_dna',
'ignore_lower_case' : True,
'unit_name' : "bits",
'first_index' : '1',
'logo_start' : '1',
'logo_end': str(self.length),
'composition' : "comp_auto",
'percentCG' : '',
'scale_width' : True,
'show_errorbars' : True,
'logo_title' : '',
'logo_label' : '',
'show_xaxis': True,
'xaxis_label': '',
'show_yaxis': True,
'yaxis_label': '',
'yaxis_scale': 'auto',
'yaxis_tic_interval' : '1.0',
'show_ends' : True,
'show_fineprint' : True,
'color_scheme': 'color_auto',
'symbols0': '',
'symbols1': '',
'symbols2': '',
'symbols3': '',
'symbols4': '',
'color0': '',
'color1': '',
'color2': '',
'color3': '',
'color4': '',

__format__(format_spec)

以给定格式返回 Motif 的字符串表示。

当前支持的格式

clusterbuster：Cluster Buster 位置频率矩阵格式
pfm：JASPAR 单个位置频率矩阵
jaspar：JASPAR 多个位置频率矩阵
transfac：类似 TRANSFAC 的文件

format(format_spec)