Calculadora de latência de inferência
Estime a latência de inferência para modelos de ML analisando componentes vinculados à computação e à memória.
Como usar a calculadora de latência de inferência
- Insira o tamanho do modelo em milhões de parâmetros.
- Defina o tamanho do lote e o comprimento da sequência.
- Especifique GPU TFLOPS e largura de banda de memória.
- Clique em Calcular para análise de latência.
Casos de Uso
- •Otimização do serviço de modelo
- •Seleção de hardware para inferência
- •Planejamento de SLA de latência
Fórmula
Latência = max(Computação, Memória);
Perguntas Frequentes
Quão precisa é esta calculadora?
Os resultados são baseados em fórmulas padrão da indústria e são adequados para estimativas preliminares.
Quais unidades são usadas?
Unidades de TI padrão (solicitações/seg, ms, %, USD) são usadas, salvo indicação em contrário.
É grátis?
Sim, todas as calculadoras são totalmente gratuitas.