Bio.motifs.matrix 模块

支持各种形式的序列基序矩阵。

实现频率(计数)矩阵、位置权重矩阵和位置特异性评分矩阵。

class Bio.motifs.matrix.GenericPositionMatrix(alphabet, values)

基类:dict

支持位置矩阵操作的基类。

__init__(alphabet, values)

初始化类。

__str__()

返回一个字符串,其中包含矩阵中字母的核苷酸和计数。

__getitem__(key)

返回索引键的位置矩阵。

property consensus

返回一致序列。

property anticonsensus

返回反一致序列。

property degenerate_consensus

返回退化的共识序列。

calculate_consensus(substitution_matrix=None, plurality=None, identity=0, setcase=None)

返回给定参数的一致序列(作为字符串)。

此函数在很大程度上遵循 EMBOSS cons 工具的约定。

参数
  • substitution_matrix - 用于比较序列时的评分矩阵。默认情况下,它是 None,在这种情况下,我们只计算每个字母的频率。您可以使用 Bio.Align.substitution_matrices 中可用的替换矩阵,而不是默认值。常见的选择是用于蛋白质的 BLOSUM62(也称为 EBLOSUM62)和用于核苷酸的 NUC.4.4(也称为 EDNAFULL)。注意:这尚未实现。

  • plurality - 用于定义共识所需的正匹配数除以列中总计数的阈值。如果 substitution_matrix 为 None,则此参数必须为 None,并且会被忽略;否则会引发 ValueError。如果 substitution_matrix 不为 None,则 plurality 的默认值为 0.5。

  • identity - 用于定义共识值的相同数除以列中总计数。如果相同数少于 identity * 列中总计数,则在共识序列中使用未定义字符(核苷酸为 'N',氨基酸序列为 'X')。如果 identity 为 1.0,则只有相同字母的列才会对共识做出贡献。默认值为零。

  • setcase - 用于定义共识是否为大写(高于阈值)或小写(低于阈值)的正匹配数除以列中总计数的阈值。默认情况下,它等于 0.5。

property gc_content

计算 GC 含量分数。

reverse_complement()

计算反向互补。

class Bio.motifs.matrix.FrequencyPositionMatrix(alphabet, values)

基类:GenericPositionMatrix

用于支持对位置矩阵进行频率计算的类。

normalize(pseudocounts=None)

通过规范化计数矩阵来创建并返回一个位置权重矩阵。

如果 pseudocounts 为 None(默认值),则不会将伪计数添加到计数中。

如果 pseudocounts 是一个数字,则在计算位置权重矩阵之前将其添加到计数中。

或者,伪计数可以是字典,每个字母在字母表中都有一个与基序相关的键。

class Bio.motifs.matrix.PositionWeightMatrix(alphabet, counts)

基类:GenericPositionMatrix

用于支持对位置矩阵进行权重计算的类。

__init__(alphabet, counts)

初始化类。

log_odds(background=None)

返回位置特异性评分矩阵。

位置特异性评分矩阵 (PSSM) 包含根据概率矩阵和背景概率计算的对数几率得分。如果背景为 None,则假定均匀的背景分布。

class Bio.motifs.matrix.PositionSpecificScoringMatrix(alphabet, values)

基类:GenericPositionMatrix

用于支持位置特异性评分矩阵计算的类。

calculate(sequence)

返回给定序列在所有位置的 PWM 得分。

备注
  • 序列只能是 DNA 序列

  • 搜索仅在一条链上执行

  • 如果序列和基序具有相同的长度,则返回单个数字

  • 否则,结果是一个一维 NumPy 数组

search(sequence, threshold=0.0, both=True, chunksize=10**6)

查找 PWM 得分高于给定阈值的命中。

一个生成器函数,返回在给定序列中找到的命中,其 pwm 得分高于阈值。

property max

此基序的最大可能得分。

返回为一致序列计算的得分。

property min

此基序的最小可能得分。

返回为反一致序列计算的得分。

property gc_content

计算 GC 比率。

mean(background=None)

返回基序得分的期望值。

std(background=None)

返回基序分数的标准差。

dist_pearson(other)

返回给定基序与自身相比的皮尔逊相关系数相似度得分。

我们使用各自概率的皮尔逊相关系数。

dist_pearson_at(other, offset)

返回给定偏移处的皮尔逊相关系数相似度得分。

distribution(background=None, precision=10**3)

以给定的精度计算分数的分布。