OhMyCalc

推理延迟计算器

通过分析计算限制和内存限制组件来估计 ML 模型的推理延迟。

如何使用推理延迟计算器

  1. 输入模型大小(以百万个参数为单位)。
  2. 设置批量大小和序列长度。
  3. 指定 GPU TFLOPS 和内存带宽。
  4. 单击“计算”进行延迟分析。

使用场景

公式

延迟 = max(计算、内存);

常见问题

这个计算器的准确度如何?
结果基于标准行业公式,适合初步估计。
使用什么单位?
除非另有说明,否则使用标准 IT 单位(请求/秒、毫秒、%、美元)。
免费吗?
是的,所有计算器都是完全免费的。