参数说明

参数名

可选/必选

描述

MPICH命令参数说明

-f <hostfile>

可选

Hostfile节点列表文件。单机场景下无需配置此文件;多机场景下,需要配置此文件。

-n <number>

必选

需要启动的NPU总数,即节点数量 * 每个节点上参与训练的NPU个数。

集合通信性能测试命令支持的参数

-p <npus>或--npus <npus>

可选

单个计算节点上参与训练的NPU个数。默认为当前节点的NPU总数。

-b <minbytes>或--minbytes <minbytes>

测试数据大小的起始值,即最小值。默认值:64M,单位:K、M、G。

-e <maxbytes>或--maxbytes <maxbytes>

可选

测试数据大小的结束值,即最大值。默认值:64M,单位:K、M、G。

-i <incsize>或--stepbytes <incsize>

可选

数据增量增量步长方式,单位Bytes。

-f <incfactor>或--stepfactor <incfactor>

可选

数据增量乘法因子

-o <operator>或 --op <operator>

可选

Reduce相关执行命令的操作类型,包含:sum、prod、max、min,默认值为sum。

-r <root>或--root <root>

可选

执行命令为broadcast_test、reduce_test、scatter_test时,需要通过此参数指定根节点的Device ID。取值范围:[0,实际Device数量-1]。默认值为:0。

-d <datatype>或--datatype <datatype>

可选

HCCL执行命令支持的数据类型,默认值为fp32。支持数据类型:int8、int16、int32、int64、fp16、fp32、bfp16,其中"prod"操作不支持int16、bfp16数据类型

-z <0/1>或--zero_copy <0/1>

可选

是否开启零拷贝功能。

性能测试参数

-n <iters_count>或--iters <iters_count>

可选

迭代次数,默认值为20。

-w <warmup_iters_count>或--warmup_iters <warmup_iters_count>

可选

预热迭代次数,此参数不参与性能统计,仅影响HCCL Test工具的执行耗时,默认值:5

结果校验参数

-c <0/1>或--check <0/1>

可选

是否开启集合通信操作结果正确性校验。0:不开启校验,1:开启校验。默认值:1。