Bio.Phylo.Applications 包
模块内容
系统发育命令行工具包装器(已弃用)。
我们已决定在将来删除此模块,并建议您直接构建命令并通过子进程模块调用它。
- class Bio.Phylo.Applications.PhymlCommandline(cmd='phyml', **kwargs)
-
用于树推断程序 PhyML 的命令行包装器。
主页: http://www.atgc-montpellier.fr/phyml
参考文献
Guindon S, Gascuel O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Systematic Biology, 2003 Oct;52(5):696-704. PubMed PMID: 14530136.
Guindon S, Dufayard JF, Lefort V, Anisimova M, Hordijk W, Gascuel O. New Algorithms and Methods to Estimate Maximum-Likelihood Phylogenies: Assessing the Performance of PhyML 3.0. Systematic Biology, 2010 59(3):307-21.
- __init__(cmd='phyml', **kwargs)
初始化类。
- property alpha
伽马分布形状参数的分布。
可以是固定的正值,也可以是“e”以获得最大似然估计。
这控制着 -a 参数及其关联值的添加。将此属性设置为所需的参数值。
- property bootstrap
如果值大于 0,则为引导复制次数。
否则
0: 既不计算近似似然比检验也不计算引导值。
-1: 近似似然比检验返回 aLRT 统计量。
-2: 近似似然比检验返回基于 Chi2 的参数分支支持。
-4: 仅 SH 类分支支持。
这控制着 -b 参数及其关联值的添加。将此属性设置为所需的参数值。
- property datatype
核苷酸的“nt”数据类型(默认)或氨基酸的“aa”。
这控制着 -d 参数及其关联值的添加。将此属性设置为所需的参数值。
- property frequencies
字符频率。
-f e、m 或“fA fC fG fT”
e: 经验频率,确定如下
核苷酸序列: (经验)通过统计比对中不同碱基的出现次数来估计平衡碱基频率。
氨基酸序列: (经验)通过统计比对中不同氨基酸的出现次数来估计平衡氨基酸频率。
m: 基于 ML/模型的频率,确定如下
核苷酸序列: (ML)使用最大似然法估计平衡碱基频率
氨基酸序列: (模型)使用替代模型定义的频率估计平衡氨基酸频率。
“fA fC fG fT”: 仅对基于核苷酸的模型有效。fA、fC、fG 和 fT 是分别对应于 A、C、G 和 T 的频率的浮点数。
这控制着 -f 参数及其关联值的添加。将此属性设置为所需的参数值。
- property input
PHYLIP 格式输入核苷酸或氨基酸序列文件名。
这控制着 -i 参数及其关联值的添加。将此属性设置为所需的参数值。
- property input_tree
起始树文件名。树必须是 Newick 格式。
这控制着 -u 参数及其关联值的添加。将此属性设置为所需的参数值。
- property model
替换模型名称。
基于核苷酸的模型
HKY85(默认)| JC69 | K80 | F81 | F84 | TN93 | GTR | custom
对于自定义选项,六位数字字符串标识模型。例如,000000 对应于 F81(或 JC69,前提是核苷酸频率分布是一致的)。012345 对应于 GTR。此选项可用于编码嵌套在 GTR 中的任何模型。
基于氨基酸的模型
LG(默认)| WAG | JTT | MtREV | Dayhoff | DCMut | RtREV | CpREV | VT | Blosum62 | MtMam | MtArt | HIVw | HIVb | custom
这控制着 -m 参数及其关联值的添加。将此属性设置为所需的参数值。
- property multiple
要分析的数据集数量(整数)。
这控制着 -n 参数及其关联值的添加。将此属性设置为所需的参数值。
- property n_rand_starts
要使用的初始随机树的数量。
仅在要执行 SPR 搜索时有效。
这控制着 –n_rand_starts 参数及其关联值的添加。将此属性设置为所需的参数值。
- property nclasses
相对替代速率类别的数量。
默认值 1。必须是正整数。
这控制着 -c 参数及其关联值的添加。将此属性设置为所需的参数值。
- property optimize
特定参数优化。
tlr: 优化树拓扑(t)、分支长度(l)和速率参数(r)。
tl: 优化树拓扑和分支长度。
lr: 优化分支长度和速率参数。
l: 优化分支长度。
r: 优化速率参数。
n: 没有优化参数。
这控制着 -o 参数及其关联值的添加。将此属性设置为所需的参数值。
- property pars
使用最小简约起始树。
当“u”选项不存在且需要进行树拓扑修改时,会考虑此选项。
此属性控制着 -p 开关的添加,将此属性视为布尔值。
- property print_site_lnl
将每个站点的似然值打印到文件 *_phyml_lk.txt 中。
此属性控制着 –print_site_lnl 开关的添加,将此属性视为布尔值。
- property print_trace
将树搜索过程中探索的每个系统发育树打印到文件 *_phyml_trace.txt 中。
此属性控制着 –print_trace 开关的添加,将此属性视为布尔值。
- property prop_invar
不变位点的比例。
可以是 [0,1] 范围内的固定值,也可以是“e”以获得最大似然估计。
这控制着 -v 参数及其关联值的添加。将此属性设置为所需的参数值。
- property quiet
没有交互式问题(用于在批处理模式下运行)。
此属性控制着 –quiet 开关的添加,将此属性视为布尔值。
- property r_seed
用于启动随机数生成器的种子。
必须是整数。
这控制着 –r_seed 参数及其关联值的添加。将此属性设置为所需的参数值。
- property rand_start
将初始树设置为随机。
仅在要执行 SPR 搜索时有效。
此属性控制添加 –rand_start 开关,将此属性视为布尔值。
- property run_id
在每个 PhyML 输出文件末尾添加给定字符串。
此选项在运行涉及 PhyML 的模拟时可能很有用。
这控制添加 –run_id 参数及其关联值。将此属性设置为所需的参数值。
- property search
树拓扑搜索操作选项。
可以是以下之一
NNI:默认,速度快
SPR:比 NNI 慢一些
BEST:NNI 和 SPR 搜索的最佳结果
这控制添加 -s 参数及其关联值。将此属性设置为所需的参数值。
- property sequential
将交错格式(默认)更改为顺序格式。
此属性控制添加 -q 开关,将此属性视为布尔值。
- property ts_tv_ratio
转换/颠换比率。(仅限 DNA 序列。)
可以是固定正值(例如:4.0)或 e 以获取最大似然估计。
这控制添加 -t 参数及其关联值。将此属性设置为所需的参数值。
- class Bio.Phylo.Applications.RaxmlCommandline(cmd='raxmlHPC', **kwargs)
-
树推理程序 RAxML 的命令行包装器。
必需的参数是‘sequences’ (-s)、‘model’ (-m) 和 ‘name’ (-n)。参数 ‘parsimony_seed’ (-p) 也必须为 RAxML 设置,但如果您没有指定它,此包装器会为您将种子设置为 10000。
参考文献
Stamatakis A. RAxML-VI-HPC:具有数千个分类群和混合模型的最大似然系统发育分析。生物信息学 2006,22(21):2688-2690。
主页:http://sco.h-its.org/exelixis/software.html
例子
>>> from Bio.Phylo.Applications import RaxmlCommandline >>> raxml_cline = RaxmlCommandline(sequences="Tests/Phylip/interlaced2.phy", ... model="PROTCATWAG", name="interlaced2") >>> print(raxml_cline) raxmlHPC -m PROTCATWAG -n interlaced2 -p 10000 -s Tests/Phylip/interlaced2.phy
您通常会使用 raxml_cline() 或通过 Python 子进程模块来运行命令行,如 Biopython 教程中所述。
- __init__(cmd='raxmlHPC', **kwargs)
初始化类。
- property parsimony_seed
简约推断的随机数种子。这使您可以重现结果,并将帮助开发人员调试程序。此选项在并行 MPI 版本中没有效果。
这控制添加 -p 参数及其关联值。将此属性设置为所需的参数值。
- property algorithm
选择算法
a:在一次程序运行中进行快速引导分析并搜索最佳评分的 ML 树。
b:根据 ‘-z’ 指定的文件中的多个树(例如,形成引导),在使用 ‘-t’ 提供的树上绘制二分信息。(例如,形成引导)
c:检查 RAxML 是否可以正确读取比对。
d:新的快速爬山(默认)。
e:仅在 GAMMA/GAMMAI 下针对给定输入树优化模型+分支长度。
g:计算一个或多个通过 ‘-z’ 传递的树的每个位点对数似然,并将它们写入可以被 CONSEL 读取的文件。
h:计算最佳树(通过 ‘-t’ 传递)与通过 ‘-z’ 传递的一堆其他树之间的对数似然检验(SH-检验)。
i:执行非常彻底的引导,在 GAMMA 下对最终引导树进行细化,并使用更详尽的算法。
j:从原始比对文件生成一堆引导比对文件。
m:比较分别通过 ‘-t’ 和 ‘-z’ 传递的两堆树之间的二分。这将返回在两个树文件中找到的所有二分的皮尔逊相关性。将打印一个名为 RAxML_bipartitionFrequencies.outputFileName 的文件,其中包含两个集合的成对二分频率。
n:计算在 GAMMA 或 GAMMA+P-Invar 下,通过 ‘-z’ 提供的树文件中包含的所有树的对数似然得分。
o:旧的,速度较慢的快速爬山。
p:对新的序列执行纯逐步 MP 添加到不完整的起始树。
s:将多基因分区比对拆分为各个子比对。
t:对一个固定的起始树进行随机树搜索。
w:对通过 ‘-z’ 传递的一堆树计算 ELW 检验。
x:计算成对 ML 距离,ML 模型参数将在 MP 起始树或通过 ‘-t’ 传递的用户定义的树上进行估计,仅限于 GAMMA 基于速率异质性的模型。
这控制着 -f 参数及其关联值的添加。将此属性设置为所需的参数值。
- property binary_constraint
二元约束树的文件名。此树不需要是完整的,即包含所有分类群。
这控制添加 -r 参数及其关联值。将此属性设置为所需的参数值。
- property bipartition_filename
包含多个树的文件名,例如来自引导运行,该文件将用于将二分值绘制到使用 ‘-t’ 提供的树上。它也可以与 ‘-f g’ 结合使用来计算每个位点的对数似然,以及读取一堆用于其他几个选项的树(‘-f h’,‘-f m’,‘-f n’)。
这控制添加 -z 参数及其关联值。将此属性设置为所需的参数值。
- property bootstrap_branch_lengths
打印带有分支长度的引导树。引导将运行更长时间,因为模型参数将在每次运行结束时进行优化。与 CATMIX/PROTMIX 或 GAMMA/GAMMAI 一起使用。
此属性控制添加 -k 开关,将此属性视为布尔值。
- property bootstrap_seed
用于引导的随机种子。
这控制着 -b 参数及其关联值的添加。将此属性设置为所需的参数值。
- property checkpoints
写入检查点(中间树拓扑)。
此属性控制添加 -j 开关,将此属性视为布尔值。
- property cluster_threshold
序列相似性聚类的阈值。RAxML 然后将比对打印到名为 sequenceFileName.reducedBy.threshold 的文件中,该文件仅包含 <= 指定阈值的序列,该阈值必须介于 0.0 和 1.0 之间。RAxML 使用 QT 聚类算法来执行此任务。此外,将写入一个名为 RAxML_reducedList.outputFileName 的文件,其中包含聚类信息。
这控制添加 -l 参数及其关联值。将此属性设置为所需的参数值。
- property cluster_threshold_fast
与 ‘-l’ 相同的功能,但使用更不详尽因此更快的聚类算法。这适用于包含 20,000-30,000 多个序列的非常大的数据集。
这控制添加 -L 参数及其关联值。将此属性设置为所需的参数值。
- property epsilon
针对 MIX/MIXI 或 GAMMA/GAMMAI 下的树拓扑的最终优化,以对数似然单位设置模型优化精度。默认:对于不使用不变位点比例估计的模型为 0.1;对于使用不变位点比例估计的模型为 0.001。
这控制添加 -e 参数及其关联值。将此属性设置为所需的参数值。
- property exclude_filename
一个排除文件名,包含您希望排除的比对位置的规范。格式类似于 Nexus,该文件应包含类似于 ‘100-200 300-400’ 的条目;要排除单个列,请写 ‘100-100’。如果您使用混合模型,则将写入相应调整的模型文件。
这控制添加 -E 参数及其关联值。将此属性设置为所需的参数值。
- property grouping_constraint
多分支约束树的文件名。此树不需要是完整的,即包含所有分类群。
这控制添加 -g 参数及其关联值。将此属性设置为所需的参数值。
- property model
核苷酸或氨基酸替换模型
核苷酸
GTRCAT:GTR + 替换率优化 + 位点特定进化率优化,这些进化率被归类为 numberOfCategories 个不同的速率类别,以提高计算效率,如果您使用 ‘-#’ 或 ‘-N’ 进行多次分析,但没有引导程序,则该程序将使用 GTRMIX 代替
GTRGAMMA:GTR + 替换率优化 + GAMMA 速率异质性模型(alpha 参数将被估计)
GTRMIX : 在 GTRCAT 模型下推断树,然后在 GTRGAMMA 模型下评估最终的树拓扑结构。
GTRCAT_GAMMA : 推断具有位点特异性进化速率的树。但是,这里的速率使用 4 个离散的 GAMMA 速率进行分类。在 GTRGAMMA 模型下评估最终的树拓扑结构。
GTRGAMMAI : 与 GTRGAMMA 相同,但估计不变位点的比例。
GTRMIXI : 与 GTRMIX 相同,但估计不变位点的比例。
GTRCAT_GAMMAI : 与 GTRCAT_GAMMA 相同,但估计不变位点的比例。
氨基酸
PROTCATmatrixName[F] : 指定的 AA 矩阵 + 替换率优化 + 位点特异性进化速率优化,这些速率被分类为 numberOfCategories 个不同的速率类别,以便在进行使用 '-#' 或 '-N' 但不进行引导的多个分析时提高计算效率,程序将使用 PROTMIX… 代替。
PROTGAMMAmatrixName[F] : 指定的 AA 矩阵 + 替换率优化 + 速率异质性的 GAMMA 模型(将估计 alpha 参数)。
PROTMIXmatrixName[F] : 在指定的 AA 矩阵 + CAT 模型下推断树,然后在指定的 AA 矩阵 + GAMMA 模型下评估最终的树拓扑结构。
PROTCAT_GAMMAmatrixName[F] : 在指定的 AA 矩阵和位点特异性进化速率下推断树。但是,这里的速率使用 4 个离散的 GAMMA 速率进行分类。在指定的 AA 矩阵 + GAMMA 模型下评估最终的树拓扑结构。
PROTGAMMAImatrixName[F] : 与 PROTGAMMAmatrixName[F] 相同,但估计不变位点的比例。
PROTMIXImatrixName[F] : 与 PROTMIXmatrixName[F] 相同,但估计不变位点的比例。
PROTCAT_GAMMAImatrixName[F] : 与 PROTCAT_GAMMAmatrixName[F] 相同,但估计不变位点的比例。
可用的 AA 替换模型:DAYHOFF、DCMUT、JTT、MTREV、WAG、RTREV、CPREV、VT、BLOSUM62、MTMAM、GTR 使用可选的 'F' 附加项,您可以指定是否要使用经验基础频率 请注意,对于混合模型,您还可以指定混合模型文件中每个基因的 AA 模型(有关详细信息,请参阅手册)。
这控制着 -m 参数及其关联值的添加。将此属性设置为所需的参数值。
- property name
输出文件中使用的名称。
这控制着 -n 参数及其关联值的添加。将此属性设置为所需的参数值。
- property num_bootstrap_searches
每个复制的多次引导搜索次数。使用此选项可以为每个复制获得更好的 ML 树。默认值:每个引导复制进行 1 次 ML 搜索。
这控制着 -u 参数及其关联值的添加。将此属性设置为所需的参数值。
- property num_categories
RAxML 在进化模型设置为 GTRCAT 或 GTRMIX 时使用的不同速率类别数。单个每位点速率被分类为这些速率类别,以加速计算。默认值:25。
这控制着 -c 参数及其关联值的添加。将此属性设置为所需的参数值。
- property num_replicates
在不同起始树上进行的备用运行次数。与 '-b' 选项结合使用时,将调用多次引导分析。默认值:1 次单一分析。请注意,'-N' 已被添加为备用选项,因为 '-#' 有时会与某些 MPI 作业提交系统出现问题,因为 '-#' 通常用于开始注释。
这控制着添加 '-N' 参数及其相关值。将此属性设置为所需的参数值。
- property outgroup
单个外群或外群的逗号分隔列表的名称,例如 '-o Rat' 或 '-o Rat,Mouse'。如果多个外群不是单系群,则列表中的第一个名称将被选为外群。不要在分类群名称之间留空格!
这控制着 -o 参数及其关联值的添加。将此属性设置为所需的参数值。
- property parsimony
仅计算简约起始树,然后退出。
此属性控制着添加 '-y' 开关,将此属性视为一个布尔值。
- property partition_branch_lengths
打开估计每个分区的分支长度。仅在与 'partition_filename' ('-q') 结合使用时有效。每个分区的分支长度将被打印到单独的文件中。使用相应的分区长度计算分支长度的加权平均值。
此属性控制着添加 '-M' 开关,将此属性视为一个布尔值。
- property partition_filename
包含将模型分配给多个替换模型的比对分区的分配的文件名。有关此文件的语法,请参阅 RAxML 手册。
这控制着添加 '-q' 参数及其相关值。将此属性设置为所需的参数值。
- property protein_model
用户定义的 AA(蛋白质)替换模型的文件名。此文件必须包含 420 个条目,前 400 个是 AA 替换率(这必须是一个对称矩阵),最后 20 个是经验基础频率。
这控制着添加 '-P' 参数及其相关值。将此属性设置为所需的参数值。
- property random_starting_tree
从随机起始树开始 ML 优化。
此属性控制着添加 '-d' 开关,将此属性视为一个布尔值。
- property rapid_bootstrap_seed
快速引导的随机种子。
这控制着添加 '-x' 参数及其相关值。将此属性设置为所需的参数值。
- property rearrangements
随后应用拓扑变化阶段的初始重新排列设置。
这控制着 -i 参数及其关联值的添加。将此属性设置为所需的参数值。
- property sequences
比对数据文件的名称,以 PHYLIP 格式。
这控制添加 -s 参数及其关联值。将此属性设置为所需的参数值。
- property starting_tree
用户起始树的文件名,以 Newick 格式。
这控制添加 -t 参数及其关联值。将此属性设置为所需的参数值。
- property threads
要运行的线程数。仅限 PTHREADS 版本!确保将其设置为机器上 CPU 数量的最多值,否则性能会大幅下降!
这控制着添加 '-T' 参数及其相关值。将此属性设置为所需的参数值。
- property version
显示版本信息。
此属性控制着添加 '-v' 开关,将此属性视为一个布尔值。
- property weight_filename
为比对的每一列分配单个权重的列权重文件的名称。这些权重必须是整数,用任何类型和数量的空格分隔,放在单独的文件中。
这控制着 -a 参数及其关联值的添加。将此属性设置为所需的参数值。
- property working_dir
RAxML 将在其上写入输出文件的目录的名称。默认值:当前目录。
这控制着添加 '-w' 参数及其相关值。将此属性设置为所需的参数值。
- class Bio.Phylo.Applications.FastTreeCommandline(cmd='fasttree', **kwargs)
-
FastTree 的命令行包装器。
只有
input
和out
参数是必须的。从终端命令行使用
fasttree.exe -help
或fasttree.exe -expert
以获取有关使用选项的更多解释。主页:http://www.microbesonline.org/fasttree/
参考文献
Price, M.N., Dehal, P.S. 和 Arkin, A.P. (2010) FastTree 2 – 用于大型比对的近似最大似然树。PLoS ONE,5(3):e9490。 https://doi.org/10.1371/journal.pone.0009490.
例子
这是 Windows 上的示例
import _Fasttree fasttree_exe = r"C:\FasttreeWin32\fasttree.exe" cmd = _Fasttree.FastTreeCommandline(fasttree_exe, ... input=r'C:\Input\ExampleAlignment.fsa', ... out=r'C:\Output\ExampleTree.tree') print(cmd) out, err = cmd() print(out) print(err)
- __init__(cmd='fasttree', **kwargs)
初始化类。
- property bionj
连接选项:与 BIONJ 中的加权连接相同。
FastTree 还将在 NNI 期间对连接进行加权。
此属性控制着添加 '-bionj' 开关,将此属性视为一个布尔值。
- property boot
指定用于支持值的重采样次数。
支持值选项:默认情况下,FastTree 通过对位点似然值进行 1,000 次重采样和 Shimodaira Hasegawa 检验来计算局部支持值。如果您指定 -nome,它将改为计算最小进化自举支持。在这两种情况下,支持值都是介于 0 到 1 之间的比例。
使用 -nosupport 关闭支持值,或使用 -boot 100 只使用 100 次重采样。
这控制着 -boot 参数及其相关值的添加。将此属性设置为所需的参数值。
- property cat
最大似然模型选项。
指定位点速率类别的数量(默认值为 20)。
这控制着 -cat 参数及其相关值的添加。将此属性设置为所需的参数值。
- property close
修改最佳命中列表的 close 启发式方法。
最佳命中启发式方法:默认情况下,FastTree 使用最佳命中列表来加快搜索速度 -close 0.75 – 修改 close 启发式方法,越低越保守。
这控制着 -close 参数及其相关值的添加。将此属性设置为所需的参数值。
- property constraintWeight
约束在拓扑搜索中的权重强度。
约束拓扑搜索选项:-constraintWeight – 如何对约束进行加权。值为 1 表示对违反约束的树长进行 1 的惩罚。默认值:100.0。
这控制着 -constraintWeight 参数及其相关值的添加。将此属性设置为所需的参数值。
- property constraints
指定用于约束拓扑搜索的对齐文件。
约束拓扑搜索选项:-constraints alignmentfile – 对齐文件,其中包含 0、1 和 - 的值。并非所有序列都需要存在。一列 0 和 1 定义了一个受约束的分裂。一些约束可能会被违反(请参阅标准错误中的“违反约束:”)。
这控制着 -constraints 参数及其相关值的添加。将此属性设置为所需的参数值。
- property expert
显示专家级帮助。
此属性控制着 -expert 开关的添加,将此属性视为一个布尔值。
- property fastest
仅搜索可见集(每个节点的最佳命中)。
搜索最佳连接:默认情况下,FastTree 将快速邻接法的“可见集”与松弛邻接法中的局部爬山算法相结合 -fastest – 仅搜索可见集(每个节点的最佳命中)。与原始快速邻接法不同,-fastest 在连接 A 和 B 后更新 visible(C),如果 join(AB,C) 比 join(C,visible(C)) 更好。-fastest 还以非常懒惰的方式更新外部距离,-fastest 也会设置 -2nd。使用 -fastest -no2nd 来避免这种情况。
此属性控制着 -fastest 开关的添加,将此属性视为一个布尔值。
- property gamma
报告离散伽马模型下的似然值。
最大似然模型选项:-gamma – 在使用 CAT 模型优化分支长度的最终轮之后,报告相同类别数的离散伽马模型下的似然值。FastTree 使用相同的分支长度,但会优化伽马形状参数和长度的尺度。最终树将具有重新缩放的长度。与 -log 一起使用,这也会生成用于 CONSEL 的每个位点似然值,请参阅 GammaLogToPaup.pl 和 FastTree 网站上的文档。
此属性控制着 -gamma 开关的添加,将此属性视为一个布尔值。
- property gtr
最大似然模型选项。
使用广义可逆时间模型,而不是(默认)Jukes-Cantor(仅适用于核苷酸)。
此属性控制着 -gtr 开关的添加,将此属性视为一个布尔值。
- property gtrfreq
-gtrfreq A C G T
这控制着 -gtrfreq 参数及其相关值的添加。将此属性设置为所需的参数值。
- property gtrrates
-gtrrates ac ag at cg ct gt
这控制着 -gtrrates 参数及其相关值的添加。将此属性设置为所需的参数值。
- property help
显示帮助。
此属性控制着 -help 开关的添加,将此属性视为一个布尔值。
- property input
输入 <输入文件>
需要一个以 fasta 或 phylip 格式保存的序列比对输入文件。默认情况下,FastTree 期望蛋白质比对,使用 -nt 表示核苷酸。
这控制着 input 参数及其相关值的添加。将此属性设置为所需的参数值。
- property intree
-intree newickfile – 从 newickfile 中读取起始树。
起始树中的任何分支长度都会被忽略。-intree 与 -n 一起使用,将为每个比对读取单独的起始树。
这控制着 -intree 参数及其相关值的添加。将此属性设置为所需的参数值。
- property intree1
intree1 newickfile – 为每个比对读取相同的起始树。
这控制着 -intree1 参数及其相关值的添加。将此属性设置为所需的参数值。
- property log
创建数据日志文件,例如中间树和每个位点的速率。
-log logfile – 保存中间树,以便您可以提取树并重新启动长时间运行的作业(如果它们崩溃)。-log 还会报告每个位点的速率(1 表示最慢的类别)。
这控制着 -log 参数及其相关值的添加。将此属性设置为所需的参数值。
- property makematrix
-makematrix [alignment]
这控制着 -makematrix 参数及其相关值的添加。将此属性设置为所需的参数值。
- property matrix
为核苷酸或氨基酸距离指定一个矩阵。
距离:默认值:对于蛋白质序列,使用对数校正距离和从 BLOSUM45 派生的氨基酸差异矩阵;对于核苷酸序列,使用 Jukes-Cantor 距离。要指定不同的矩阵,请使用 -matrix FilePrefix 或 -nomatrix。
这控制着 -matrix 参数及其相关值的添加。将此属性设置为所需的参数值。
- property mlacc
在每个 NNI 处优化分支的选项。
拓扑优化:默认情况下,FastTree 尝试通过最多 4*log2(N) 轮最小进化最近邻交换 (NNI) 来改进树,其中 N 是唯一序列的数量,2 轮子树剪枝重新嫁接 (SPR) 移动(也是最小进化),以及最多 2*log(N) 轮最大似然 NNI。使用 -nni 设置最小进化 NNI 的轮数,使用 -spr 设置 SPR 的轮数。使用 -mlacc 2 或 -mlacc 3 在每个 NNI 处始终优化所有 5 个分支,并在 2 或 3 轮中优化所有 5 个分支。
这控制着 -mlacc 参数及其相关值的添加。将此属性设置为所需的参数值。
- property mllen
在固定拓扑上优化分支长度。
拓扑优化:默认情况下,FastTree 尝试通过最多 4*log2(N) 轮最小进化最近邻交换 (NNI) 来改进树,其中 N 是唯一序列的数量,2 轮子树剪枝重新嫁接 (SPR) 移动(也是最小进化),以及最多 2*log(N) 轮最大似然 NNI。使用 -nni 设置最小进化 NNI 的轮数,使用 -spr 设置 SPR 的轮数。使用 -mllen 在没有 ML NNI 的情况下优化分支长度。使用 -mllen -nome 与 -intree 一起使用,在固定拓扑上优化分支长度。
此属性控制着 -mllen 开关的添加,将此属性视为一个布尔值。
- property mlnni
设置最大似然 NNI 的轮数。
拓扑优化:默认情况下,FastTree 尝试通过最多 4*log2(N) 轮最小进化最近邻交换 (NNI) 来改进树,其中 N 是唯一序列的数量,2 轮子树剪枝重新嫁接 (SPR) 移动(也是最小进化),以及最多 2*log(N) 轮最大似然 NNI。使用 -nni 设置最小进化 NNI 的轮数,使用 -spr 设置 SPR 的轮数。使用 -mlnni 设置最大似然 NNI 的轮数。
这控制着 -mlnni 参数及其相关值的添加。将此属性设置为所需的参数值。
- property n
-n – 读取 N 个多序列比对。
这仅适用于 phylip 交错格式。例如,您可以将其与 phylip 的 seqboot 的输出一起使用。如果您使用 -n,FastTree 将在标准输出中每行写入一棵树。
这控制着 -n 参数及其关联值的添加。将此属性设置为所需的参数值。
- property nj
加入选项:常规(未加权)邻接法(默认)
此属性控制 -nj 开关的添加,将此属性视为布尔值。
- property nni
设置最小进化最近邻交换的轮数
拓扑结构细化:默认情况下,FastTree 尝试使用最多 4*log2(N) 轮最小进化最近邻交换 (NNI) 来改进树,其中 N 是唯一序列的数量,2 轮子树剪枝重新嫁接 (SPR) 移动(也最小。进化),以及最多 2*log(N) 轮最大似然 NNI。使用 -nni 设置最小。evo. NNIs 的轮数。
这控制 -nni 参数及其关联值的添加。将此属性设置为所需的参数值。
- property no2nd
关闭二级最佳命中启发式算法。
最佳命中启发式算法:默认情况下,FastTree 使用最佳命中列表来加速搜索。使用 -notop(或 -slow)关闭此功能,并将所有叶节点彼此比较,并将所有新加入的节点彼此比较
-2nd 或 -no2nd 打开或关闭二级最佳命中启发式算法 这减少了内存使用量和运行时间,但可能会导致树质量略微下降。(默认情况下,-fastest 打开 -2nd。)
此属性控制 -no2nd 开关的添加,将此属性视为布尔值。
- property nocat
最大似然模型选项:无 CAT 模型(仅 1 类)
此属性控制 -nocat 开关的添加,将此属性视为布尔值。
- property nomatrix
指定不应该使用矩阵来计算核苷酸或氨基酸距离
距离:默认值:对于蛋白质序列,使用对数校正距离和从 BLOSUM45 派生的氨基酸差异矩阵;对于核苷酸序列,使用 Jukes-Cantor 距离。要指定不同的矩阵,请使用 -matrix FilePrefix 或 -nomatrix。
此属性控制 -nomatrix 开关的添加,将此属性视为布尔值。
- property nome
将支持值计算更改为最小进化自举法。
拓扑结构细化:默认情况下,FastTree 尝试使用最多 4*log2(N) 轮最小进化最近邻交换 (NNI) 来改进树,其中 N 是唯一序列的数量,2 轮子树剪枝重新嫁接 (SPR) 移动(也最小。进化),以及最多 2*log(N) 轮最大似然 NNI。使用 -nni 设置最小。evo. NNIs 的轮数,以及 -spr 设置 SPR 的轮数。使用 -mllen 在没有 ML NNI 的情况下优化分支长度。使用 -mllen -nome 与 -intree 在固定拓扑结构上优化分支长度
支持值选项:默认情况下,FastTree 通过重新采样位点似然 1,000 次和 Shimodaira Hasegawa 测试来计算局部支持值。如果您指定 -nome,它将计算最小进化自举支持。在这两种情况下,支持值都是介于 0 到 1 之间的比例。
此属性控制 -nome 开关的添加,将此属性视为布尔值。
- property noml
停用最小进化 NNI 和 SPR。
拓扑结构细化:默认情况下,FastTree 尝试使用最多 4*log2(N) 轮最小进化最近邻交换 (NNI) 来改进树,其中 N 是唯一序列的数量,2 轮子树剪枝重新嫁接 (SPR) 移动(也最小。进化),以及最多 2*log(N) 轮最大似然 NNI。使用 -nni 设置最小。evo. NNIs 的轮数,以及 -spr 设置 SPR 的轮数。使用 -noml 关闭最小进化 NNI 和 SPR(如果使用进一步的 NNI 细化近似最大似然树,则很有用)。
此属性控制 -noml 开关的添加,将此属性视为布尔值。
- property nopr
-nopr – 不将进度指示器写入 stderr。
此属性控制 -nopr 开关的添加,将此属性视为布尔值。
- property nosupport
关闭支持值。
支持值选项:默认情况下,FastTree 通过对位点似然值进行 1,000 次重采样和 Shimodaira Hasegawa 检验来计算局部支持值。如果您指定 -nome,它将改为计算最小进化自举支持。在这两种情况下,支持值都是介于 0 到 1 之间的比例。
使用 -nosupport 关闭支持值,或使用 -boot 100 只使用 100 次重采样。
此属性控制 -nosupport 开关的添加,将此属性视为布尔值。
- property notop
关闭最佳命中列表以加速搜索
最佳命中启发式算法:默认情况下,FastTree 使用最佳命中列表来加速搜索。使用 -notop(或 -slow)关闭此功能,并将所有叶节点彼此比较,并将所有新加入的节点彼此比较。
此属性控制 -notop 开关的添加,将此属性视为布尔值。
- property nt
默认情况下,FastTree 期望蛋白质比对,使用 -nt 针对核苷酸
此属性控制 -nt 开关的添加,将此属性视为布尔值。
- property out
输入 <输出文件>
需要指定 Newick Tree 输出文件的路径。
这控制 -out 参数及其关联值的添加。将此属性设置为所需的参数值。
- property pseudo
-pseudo [权重] – 伪计数用于序列距离估计。
使用伪计数来估计重叠很少或没有重叠的序列之间的距离。(默认情况下关闭。)如果分析的比对有重叠很少或没有重叠的序列,则建议使用。如果未指定权重,则为 1.0
这控制 -pseudo 参数及其关联值的添加。将此属性设置为所需的参数值。
- property quiet
-quiet – 在正常操作期间不写入标准错误
(没有进度指示器,没有选项摘要,没有似然值等)
此属性控制 -quiet 开关的添加,将此属性视为布尔值。
- property quote
-quote – 在输出中添加引号以引用序列名称。
在输出中引用序列名称,并在其中允许空格、逗号、括号和冒号,但不允许 ‘ 字符(仅 fasta 文件)。
此属性控制 -quote 开关的添加,将此属性视为布尔值。
- property rawdist
关闭或调整 AA 或 NT 距离中的对数校正。
使用 -rawdist 关闭对数校正或在 AA 或 NT 距离中使用 %不同而不是 Jukes-Cantor
距离:默认值:对于蛋白质序列,使用对数校正距离和从 BLOSUM45 派生的氨基酸差异矩阵;对于核苷酸序列,使用 Jukes-Cantor 距离。要指定不同的矩阵,请使用 -matrix FilePrefix 或 -nomatrix。
此属性控制 -rawdist 开关的添加,将此属性视为布尔值。
- property refresh
用于加入的节点与其他节点比较的条件的参数
最佳命中启发式算法:默认情况下,FastTree 使用最佳命中列表来加速搜索 -refresh 0.8 – 如果加入节点的最佳命中列表小于所需长度的 80%,或者最佳命中列表的年龄大于或等于 log2(m),则将加入节点与所有其他节点比较。
这控制 -refresh 参数及其关联值的添加。将此属性设置为所需的参数值。
- property second
打开二级最佳命中启发式算法。
最佳命中启发式算法:默认情况下,FastTree 使用最佳命中列表来加速搜索。使用 -notop(或 -slow)关闭此功能,并将所有叶节点彼此比较,并将所有新加入的节点彼此比较
-2nd 或 -no2nd 打开或关闭二级最佳命中启发式算法 这减少了内存使用量和运行时间,但可能会导致树质量略微下降。(默认情况下,-fastest 打开 -2nd。)
此属性控制 -2nd 开关的添加,将此属性视为布尔值。
- property seed
使用 -seed 初始化随机数生成器。
支持值选项:默认情况下,FastTree 通过重新采样位点似然 1,000 次和 Shimodaira Hasegawa 测试来计算局部支持值。如果您指定 -nome,它将计算最小进化自举支持。在这两种情况下,支持值都是介于 0 到 1 之间的比例。
这控制 -seed 参数及其关联值的添加。将此属性设置为所需的参数值。
- property slow
使用穷举搜索。
搜索最佳加入:默认情况下,FastTree 将快速邻接法中的“可见集”与局部爬山算法相结合,就像松弛邻接法一样 -slow – 穷举搜索(如 NJ 或 BIONJ,但间隙处理不同) -slow 对于 1,250 个蛋白质需要半小时,而不是 8 秒
此属性控制 -slow 开关的添加,将此属性视为布尔值。
- property slownni
关闭启发式算法以避免使用 NNI 的恒定子树。
拓扑结构细化:默认情况下,FastTree 尝试使用最多 4*log2(N) 轮最小进化最近邻交换 (NNI) 来改进树,其中 N 是唯一序列的数量,2 轮子树剪枝重新嫁接 (SPR) 移动(也最小。进化),以及最多 2*log(N) 轮最大似然 NNI。使用 -nni 设置最小。evo. NNIs 的轮数,以及 -spr 设置 SPR 的轮数。使用 -slownni 关闭启发式算法以避免恒定子树(影响 ML 和 ME NNI)。
此属性控制是否添加 -slownni 开关,将其视为布尔值。
- property spr
设置子树剪枝嫁接移动的轮数
拓扑优化:默认情况下,FastTree 尝试通过最多 4*log2(N) 轮最小进化最近邻互换 (NNI) 来改进树,其中 N 是唯一序列的数量,2 轮子树剪枝嫁接 (SPR) 移动(也是最小进化),以及最多 2*log(N) 轮最大似然 NNI。使用 -nni 设置最小进化 NNI 的轮数,并使用 -spr 设置 SPR 的轮数。
这控制着 -spr 参数及其关联值的添加。将此属性设置为所需的 аргумент 值。
- property sprlength
设置拓扑优化中最大 SPR 移动长度(默认值为 10)。
拓扑优化:默认情况下,FastTree 尝试通过最多 4*log2(N) 轮最小进化最近邻互换 (NNI) 来改进树,其中 N 是唯一序列的数量,2 轮子树剪枝嫁接 (SPR) 移动(也是最小进化),以及最多 2*log(N) 轮最大似然 NNI。使用 -nni 设置最小进化 NNI 的轮数,并使用 -spr 设置 SPR 的轮数。
这控制着 -sprlength 参数及其关联值的添加。将此属性设置为所需的 аргумент 值。
- property top
最佳命中列表,用于加速搜索
最佳命中启发式算法:默认情况下,FastTree 使用最佳命中列表来加速搜索。使用 -notop(或 -slow)关闭此功能,并将所有叶节点彼此比较,并将所有新加入的节点彼此比较。
此属性控制是否添加 -top 开关,将其视为布尔值。
- property topm
更改最佳命中计算方法
最佳命中启发式:默认情况下,FastTree 使用最佳命中列表来加速搜索 -topm 1.0 – 将最佳命中列表大小设置为 parameter*sqrt(N) FastTree 从“接近”邻居的最佳 2*m 个命中中估计叶子的最佳 m 个命中,其中接近定义为 d(seed,close) < 0.75 * d(seed, hit of rank 2*m),并在合并过程中更新最佳命中。
这控制着 -topm 参数及其关联值的添加。将此属性设置为所需的 аргумент 值。
- property wag
最大似然模型选项。
使用 Whelan-And-Goldman 2001 模型代替 (默认) Jones-Taylor-Thorton 1992 模型 (仅限氨基酸)
此属性控制是否添加 -wag 开关,将其视为布尔值。