Bio.motifs.matrix 模块
支持各种形式的序列基序矩阵。
实现频率(计数)矩阵、位置权重矩阵和位置特异性评分矩阵。
- class Bio.motifs.matrix.GenericPositionMatrix(alphabet, values)
基类:
dict
支持位置矩阵操作的基类。
- __init__(alphabet, values)
初始化类。
- __str__()
返回一个字符串,其中包含矩阵中字母的核苷酸和计数。
- __getitem__(key)
返回索引键的位置矩阵。
- property consensus
返回一致序列。
- property anticonsensus
返回反一致序列。
- property degenerate_consensus
返回退化的共识序列。
- calculate_consensus(substitution_matrix=None, plurality=None, identity=0, setcase=None)
返回给定参数的一致序列(作为字符串)。
此函数在很大程度上遵循 EMBOSS cons 工具的约定。
- 参数
substitution_matrix - 用于比较序列时的评分矩阵。默认情况下,它是 None,在这种情况下,我们只计算每个字母的频率。您可以使用 Bio.Align.substitution_matrices 中可用的替换矩阵,而不是默认值。常见的选择是用于蛋白质的 BLOSUM62(也称为 EBLOSUM62)和用于核苷酸的 NUC.4.4(也称为 EDNAFULL)。注意:这尚未实现。
plurality - 用于定义共识所需的正匹配数除以列中总计数的阈值。如果 substitution_matrix 为 None,则此参数必须为 None,并且会被忽略;否则会引发 ValueError。如果 substitution_matrix 不为 None,则 plurality 的默认值为 0.5。
identity - 用于定义共识值的相同数除以列中总计数。如果相同数少于 identity * 列中总计数,则在共识序列中使用未定义字符(核苷酸为 'N',氨基酸序列为 'X')。如果 identity 为 1.0,则只有相同字母的列才会对共识做出贡献。默认值为零。
setcase - 用于定义共识是否为大写(高于阈值)或小写(低于阈值)的正匹配数除以列中总计数的阈值。默认情况下,它等于 0.5。
- property gc_content
计算 GC 含量分数。
- reverse_complement()
计算反向互补。
- class Bio.motifs.matrix.FrequencyPositionMatrix(alphabet, values)
-
用于支持对位置矩阵进行频率计算的类。
- normalize(pseudocounts=None)
通过规范化计数矩阵来创建并返回一个位置权重矩阵。
如果 pseudocounts 为 None(默认值),则不会将伪计数添加到计数中。
如果 pseudocounts 是一个数字,则在计算位置权重矩阵之前将其添加到计数中。
或者,伪计数可以是字典,每个字母在字母表中都有一个与基序相关的键。
- class Bio.motifs.matrix.PositionWeightMatrix(alphabet, counts)
-
用于支持对位置矩阵进行权重计算的类。
- __init__(alphabet, counts)
初始化类。
- log_odds(background=None)
返回位置特异性评分矩阵。
位置特异性评分矩阵 (PSSM) 包含根据概率矩阵和背景概率计算的对数几率得分。如果背景为 None,则假定均匀的背景分布。
- class Bio.motifs.matrix.PositionSpecificScoringMatrix(alphabet, values)
-
用于支持位置特异性评分矩阵计算的类。
- calculate(sequence)
返回给定序列在所有位置的 PWM 得分。
- 备注
序列只能是 DNA 序列
搜索仅在一条链上执行
如果序列和基序具有相同的长度,则返回单个数字
否则,结果是一个一维 NumPy 数组
- search(sequence, threshold=0.0, both=True, chunksize=10**6)
查找 PWM 得分高于给定阈值的命中。
一个生成器函数,返回在给定序列中找到的命中,其 pwm 得分高于阈值。
- property max
此基序的最大可能得分。
返回为一致序列计算的得分。
- property min
此基序的最小可能得分。
返回为反一致序列计算的得分。
- property gc_content
计算 GC 比率。
- mean(background=None)
返回基序得分的期望值。
- std(background=None)
返回基序分数的标准差。
- dist_pearson(other)
返回给定基序与自身相比的皮尔逊相关系数相似度得分。
我们使用各自概率的皮尔逊相关系数。
- dist_pearson_at(other, offset)
返回给定偏移处的皮尔逊相关系数相似度得分。
- distribution(background=None, precision=10**3)
以给定的精度计算分数的分布。