Bio.motifs 包
子包
子模块
- Bio.motifs.alignace 模块
- Bio.motifs.clusterbuster 模块
- Bio.motifs.mast 模块
- Bio.motifs.matrix 模块
GenericPositionMatrix
GenericPositionMatrix.__init__()
GenericPositionMatrix.__str__()
GenericPositionMatrix.__getitem__()
GenericPositionMatrix.consensus
GenericPositionMatrix.anticonsensus
GenericPositionMatrix.degenerate_consensus
GenericPositionMatrix.calculate_consensus()
GenericPositionMatrix.gc_content
GenericPositionMatrix.reverse_complement()
FrequencyPositionMatrix
PositionWeightMatrix
PositionSpecificScoringMatrix
PositionSpecificScoringMatrix.calculate()
PositionSpecificScoringMatrix.search()
PositionSpecificScoringMatrix.max
PositionSpecificScoringMatrix.min
PositionSpecificScoringMatrix.gc_content
PositionSpecificScoringMatrix.mean()
PositionSpecificScoringMatrix.std()
PositionSpecificScoringMatrix.dist_pearson()
PositionSpecificScoringMatrix.dist_pearson_at()
PositionSpecificScoringMatrix.distribution()
- Bio.motifs.meme 模块
- Bio.motifs.minimal 模块
- Bio.motifs.pfm 模块
- Bio.motifs.thresholds 模块
- Bio.motifs.transfac 模块
- Bio.motifs.xms 模块
模块内容
用于序列基序分析的工具。
Bio.motifs 包含核心 Motif 类,其中包含各种 I/O 方法,以及用于基序比较和在序列中搜索基序的方法。 它还包括用于解析来自 AlignACE、MEME 和 MAST 程序的输出的功能,以及 TRANSFAC 格式的文件。
- Bio.motifs.create(instances, alphabet='ACGT')
创建 Motif 对象。
- Bio.motifs.parse(handle, fmt, strict=True)
解析来自基序查找程序的输出文件。
- 当前支持的格式(大小写无关)
AlignAce:AlignAce 输出文件格式
ClusterBuster:Cluster Buster 位置频率矩阵格式
XMS:XMS 矩阵格式
MEME:MEME 输出文件基序
MINIMAL:MINIMAL MEME 输出文件基序
MAST:MAST 输出文件基序
TRANSFAC:TRANSFAC 数据库文件格式
pfm-four-columns:具有四列的通用位置频率矩阵格式。(cisbp,homer,hocomoco,neph,tiffin)
pfm-four-rows:具有四行的通用位置频率矩阵格式。(scertf,yetfasco,hdpi,idmmpmm,flyfactor survey)
pfm:JASPAR 风格的位置频率矩阵
jaspar:JASPAR 风格的多个 PFM 格式
sites:JASPAR 风格的站点文件
由于 pfm 和 sites 格式的文件只包含一个基序,因此使用 Bio.motifs.read() 而不是 Bio.motifs.parse() 来读取这些文件会更容易。
例如
>>> from Bio import motifs >>> with open("motifs/alignace.out") as handle: ... for m in motifs.parse(handle, "AlignAce"): ... print(m.consensus) ... TCTACGATTGAG CTGCACCTAGCTACGAGTGAG GTGCCCTAAGCATACTAGGCG GCCACTAGCAGAGCAGGGGGC CGACTCAGAGGTT CCACGCTAAGAGAAGTGCCGGAG GCACGTCCCTGAGCA GTCCATCGCAAAGCGTGGGGC GAGATCAGAGGGCCG TGGACGCGGGG GACCAGAGCCTCGCATGGGGG AGCGCGCGTG GCCGGTTGCTGTTCATTAGG ACCGACGGCAGCTAAAAGGG GACGCCGGGGAT CGACTCGCGCTTACAAGG
如果 strict 为 True(默认值),解析器将引发 ValueError,如果文件内容不严格符合指定的格式。
- Bio.motifs.read(handle, fmt, strict=True)
使用指定的格式从句柄读取基序。
这支持与 Bio.motifs.parse() 相同的格式,但只适用于包含一个基序的文件。 例如,读取 JASPAR 风格的 pfm 文件
>>> from Bio import motifs >>> with open("motifs/SRF.pfm") as handle: ... m = motifs.read(handle, "pfm") >>> m.consensus Seq('GCCCATATATGG')
或单个基序 MEME 文件,
>>> from Bio import motifs >>> with open("motifs/meme.psp_test.classic.zoops.xml") as handle: ... m = motifs.read(handle, "meme") >>> m.consensus Seq('GCTTATGTAA')
如果句柄不包含记录,或包含多个记录,则会引发异常
>>> from Bio import motifs >>> with open("motifs/alignace.out") as handle: ... motif = motifs.read(handle, "AlignAce") Traceback (most recent call last): ... ValueError: More than one motif found in handle
但是,如果您想要包含多个基序的文件中的第一个基序,此函数将引发异常(如上面的示例所示)。 而是使用
>>> from Bio import motifs >>> with open("motifs/alignace.out") as handle: ... record = motifs.parse(handle, "alignace") >>> motif = record[0] >>> motif.consensus Seq('TCTACGATTGAG')
如果要从句柄中读取多个记录,请使用 Bio.motifs.parse(handle, fmt) 函数。
如果 strict 为 True(默认值),解析器将引发 ValueError,如果文件内容不严格符合指定的格式。
- class Bio.motifs.Instances(instances=None, alphabet='ACGT')
基础:
list
包含构成基序的序列列表的类。
- __init__(instances=None, alphabet='ACGT')
初始化类。
- __str__()
返回一个包含基序序列的字符串。
- count()
统计某个位置的核苷酸数量。
- search(sequence)
在给定序列中查找基序的位置。
这是一个生成器函数,返回给定序列中找到的基序实例的位置。
- reverse_complement()
计算序列的反向互补。
- class Bio.motifs.Motif(alphabet='ACGT', alignment=None, counts=None, instances=None)
基础:
object
表示序列基序的类。
- __init__(alphabet='ACGT', alignment=None, counts=None, instances=None)
初始化类。
- property mask
- property pseudocounts
- property background
- __getitem__(key)
返回一个包含 key 中包含的位置的新 Motif 对象。
>>> from Bio import motifs >>> motif = motifs.create(["AACGCCA", "ACCGCCC", "AACTCCG"]) >>> print(motif) AACGCCA ACCGCCC AACTCCG >>> print(motif[:-1]) AACGCC ACCGCC AACTCC
- property pwm
计算并返回此基序的位置权重矩阵。
- property pssm
计算并返回此基序的位置特异性评分矩阵。
- property instances
返回构建基序的序列。
- __str__(masked=False)
返回基序的字符串表示。
- __len__()
返回基序的长度。
请使用此方法(即调用 len(m))而不是直接引用 m.length。
- reverse_complement()
将基序的反向互补作为新的基序返回。
- property consensus
返回一致序列。
- property anticonsensus
返回从该基序生成的可能性最小的模式。
- property degenerate_consensus
返回简并一致序列。
遵循 D. R. Cavener 采用的规则:“果蝇和脊椎动物翻译起始位点侧翼的共有序列比较。” 核酸研究 15(4):1353-1361。 (1987)。
TRANSFAC 使用相同的规则。
- property relative_entropy
返回一个数组,其中包含基序每一列的相对熵。
- weblogo(fname, fmt='PNG', version=None, **kwds)
使用伯克利 WebLogo 服务下载并保存 WebLogo。
需要互联网连接。
version 参数已弃用,没有任何影响。
来自
**kwds
的参数将直接传递给 WebLogo 服务器。当前,此方法使用 WebLogo 版本 3.3。这些是传递给 WebLogo 3.3 的参数及其默认值;有关更多信息,请参见其网站 http://weblogo.threeplusone.com
'stack_width' : 'medium', 'stacks_per_line' : '40', 'alphabet' : 'alphabet_dna', 'ignore_lower_case' : True, 'unit_name' : "bits", 'first_index' : '1', 'logo_start' : '1', 'logo_end': str(self.length), 'composition' : "comp_auto", 'percentCG' : '', 'scale_width' : True, 'show_errorbars' : True, 'logo_title' : '', 'logo_label' : '', 'show_xaxis': True, 'xaxis_label': '', 'show_yaxis': True, 'yaxis_label': '', 'yaxis_scale': 'auto', 'yaxis_tic_interval' : '1.0', 'show_ends' : True, 'show_fineprint' : True, 'color_scheme': 'color_auto', 'symbols0': '', 'symbols1': '', 'symbols2': '', 'symbols3': '', 'symbols4': '', 'color0': '', 'color1': '', 'color2': '', 'color3': '', 'color4': '',
- __format__(format_spec)
以给定格式返回 Motif 的字符串表示。
- 当前支持的格式
clusterbuster:Cluster Buster 位置频率矩阵格式
pfm:JASPAR 单个位置频率矩阵
jaspar:JASPAR 多个位置频率矩阵
transfac:类似 TRANSFAC 的文件
- format(format_spec)
以给定格式返回 Motif 的字符串表示。
- 当前支持的格式
clusterbuster:Cluster Buster 位置频率矩阵格式
pfm:JASPAR 单个位置频率矩阵
jaspar:JASPAR 多个位置频率矩阵
transfac:类似 TRANSFAC 的文件
- Bio.motifs.write(motifs, fmt)
以给定格式返回基序的字符串表示。
- 当前支持的格式(大小写无关)
clusterbuster:Cluster Buster 位置频率矩阵格式
pfm:JASPAR 简单单个位置频率矩阵
jaspar:JASPAR 多个 PFM 格式
transfac:类似 TRANSFAC 的文件