Bio.motifs 包

子包

子模块

模块内容

用于序列基序分析的工具。

Bio.motifs 包含核心 Motif 类,其中包含各种 I/O 方法,以及用于基序比较和在序列中搜索基序的方法。 它还包括用于解析来自 AlignACE、MEME 和 MAST 程序的输出的功能,以及 TRANSFAC 格式的文件。

Bio.motifs.create(instances, alphabet='ACGT')

创建 Motif 对象。

Bio.motifs.parse(handle, fmt, strict=True)

解析来自基序查找程序的输出文件。

当前支持的格式(大小写无关)
  • AlignAce:AlignAce 输出文件格式

  • ClusterBuster:Cluster Buster 位置频率矩阵格式

  • XMS:XMS 矩阵格式

  • MEME:MEME 输出文件基序

  • MINIMAL:MINIMAL MEME 输出文件基序

  • MAST:MAST 输出文件基序

  • TRANSFAC:TRANSFAC 数据库文件格式

  • pfm-four-columns:具有四列的通用位置频率矩阵格式。(cisbp,homer,hocomoco,neph,tiffin)

  • pfm-four-rows:具有四行的通用位置频率矩阵格式。(scertf,yetfasco,hdpi,idmmpmm,flyfactor survey)

  • pfm:JASPAR 风格的位置频率矩阵

  • jaspar:JASPAR 风格的多个 PFM 格式

  • sites:JASPAR 风格的站点文件

由于 pfm 和 sites 格式的文件只包含一个基序,因此使用 Bio.motifs.read() 而不是 Bio.motifs.parse() 来读取这些文件会更容易。

例如

>>> from Bio import motifs
>>> with open("motifs/alignace.out") as handle:
...     for m in motifs.parse(handle, "AlignAce"):
...         print(m.consensus)
...
TCTACGATTGAG
CTGCACCTAGCTACGAGTGAG
GTGCCCTAAGCATACTAGGCG
GCCACTAGCAGAGCAGGGGGC
CGACTCAGAGGTT
CCACGCTAAGAGAAGTGCCGGAG
GCACGTCCCTGAGCA
GTCCATCGCAAAGCGTGGGGC
GAGATCAGAGGGCCG
TGGACGCGGGG
GACCAGAGCCTCGCATGGGGG
AGCGCGCGTG
GCCGGTTGCTGTTCATTAGG
ACCGACGGCAGCTAAAAGGG
GACGCCGGGGAT
CGACTCGCGCTTACAAGG

如果 strict 为 True(默认值),解析器将引发 ValueError,如果文件内容不严格符合指定的格式。

Bio.motifs.read(handle, fmt, strict=True)

使用指定的格式从句柄读取基序。

这支持与 Bio.motifs.parse() 相同的格式,但只适用于包含一个基序的文件。 例如,读取 JASPAR 风格的 pfm 文件

>>> from Bio import motifs
>>> with open("motifs/SRF.pfm") as handle:
...     m = motifs.read(handle, "pfm")
>>> m.consensus
Seq('GCCCATATATGG')

或单个基序 MEME 文件,

>>> from Bio import motifs
>>> with open("motifs/meme.psp_test.classic.zoops.xml") as handle:
...     m = motifs.read(handle, "meme")
>>> m.consensus
Seq('GCTTATGTAA')

如果句柄不包含记录,或包含多个记录,则会引发异常

>>> from Bio import motifs
>>> with open("motifs/alignace.out") as handle:
...     motif = motifs.read(handle, "AlignAce")
Traceback (most recent call last):
    ...
ValueError: More than one motif found in handle

但是,如果您想要包含多个基序的文件中的第一个基序,此函数将引发异常(如上面的示例所示)。 而是使用

>>> from Bio import motifs
>>> with open("motifs/alignace.out") as handle:
...     record = motifs.parse(handle, "alignace")
>>> motif = record[0]
>>> motif.consensus
Seq('TCTACGATTGAG')

如果要从句柄中读取多个记录,请使用 Bio.motifs.parse(handle, fmt) 函数。

如果 strict 为 True(默认值),解析器将引发 ValueError,如果文件内容不严格符合指定的格式。

class Bio.motifs.Instances(instances=None, alphabet='ACGT')

基础:list

包含构成基序的序列列表的类。

__init__(instances=None, alphabet='ACGT')

初始化类。

__str__()

返回一个包含基序序列的字符串。

count()

统计某个位置的核苷酸数量。

search(sequence)

在给定序列中查找基序的位置。

这是一个生成器函数,返回给定序列中找到的基序实例的位置。

reverse_complement()

计算序列的反向互补。

class Bio.motifs.Motif(alphabet='ACGT', alignment=None, counts=None, instances=None)

基础:object

表示序列基序的类。

__init__(alphabet='ACGT', alignment=None, counts=None, instances=None)

初始化类。

property mask
property pseudocounts
property background
__getitem__(key)

返回一个包含 key 中包含的位置的新 Motif 对象。

>>> from Bio import motifs
>>> motif = motifs.create(["AACGCCA", "ACCGCCC", "AACTCCG"])
>>> print(motif)
AACGCCA
ACCGCCC
AACTCCG
>>> print(motif[:-1])
AACGCC
ACCGCC
AACTCC
property pwm

计算并返回此基序的位置权重矩阵。

property pssm

计算并返回此基序的位置特异性评分矩阵。

property instances

返回构建基序的序列。

__str__(masked=False)

返回基序的字符串表示。

__len__()

返回基序的长度。

请使用此方法(即调用 len(m))而不是直接引用 m.length。

reverse_complement()

将基序的反向互补作为新的基序返回。

property consensus

返回一致序列。

property anticonsensus

返回从该基序生成的可能性最小的模式。

property degenerate_consensus

返回简并一致序列。

遵循 D. R. Cavener 采用的规则:“果蝇和脊椎动物翻译起始位点侧翼的共有序列比较。” 核酸研究 15(4):1353-1361。 (1987)。

TRANSFAC 使用相同的规则。

property relative_entropy

返回一个数组,其中包含基序每一列的相对熵。

使用伯克利 WebLogo 服务下载并保存 WebLogo。

需要互联网连接。

version 参数已弃用,没有任何影响。

来自 **kwds 的参数将直接传递给 WebLogo 服务器。

当前,此方法使用 WebLogo 版本 3.3。这些是传递给 WebLogo 3.3 的参数及其默认值;有关更多信息,请参见其网站 http://weblogo.threeplusone.com

'stack_width' : 'medium',
'stacks_per_line' : '40',
'alphabet' : 'alphabet_dna',
'ignore_lower_case' : True,
'unit_name' : "bits",
'first_index' : '1',
'logo_start' : '1',
'logo_end': str(self.length),
'composition' : "comp_auto",
'percentCG' : '',
'scale_width' : True,
'show_errorbars' : True,
'logo_title' : '',
'logo_label' : '',
'show_xaxis': True,
'xaxis_label': '',
'show_yaxis': True,
'yaxis_label': '',
'yaxis_scale': 'auto',
'yaxis_tic_interval' : '1.0',
'show_ends' : True,
'show_fineprint' : True,
'color_scheme': 'color_auto',
'symbols0': '',
'symbols1': '',
'symbols2': '',
'symbols3': '',
'symbols4': '',
'color0': '',
'color1': '',
'color2': '',
'color3': '',
'color4': '',
__format__(format_spec)

以给定格式返回 Motif 的字符串表示。

当前支持的格式
  • clusterbuster:Cluster Buster 位置频率矩阵格式

  • pfm:JASPAR 单个位置频率矩阵

  • jaspar:JASPAR 多个位置频率矩阵

  • transfac:类似 TRANSFAC 的文件

format(format_spec)

以给定格式返回 Motif 的字符串表示。

当前支持的格式
  • clusterbuster:Cluster Buster 位置频率矩阵格式

  • pfm:JASPAR 单个位置频率矩阵

  • jaspar:JASPAR 多个位置频率矩阵

  • transfac:类似 TRANSFAC 的文件

Bio.motifs.write(motifs, fmt)

以给定格式返回基序的字符串表示。

当前支持的格式(大小写无关)
  • clusterbuster:Cluster Buster 位置频率矩阵格式

  • pfm:JASPAR 简单单个位置频率矩阵

  • jaspar:JASPAR 多个 PFM 格式

  • transfac:类似 TRANSFAC 的文件