Inferenz-Latenz-Rechner

Schätzen Sie die Inferenzlatenz für ML-Modelle durch die Analyse rechen- und speichergebundener Komponenten.

Modellparameter (Millionen)

Chargengröße

Sequenzlänge (Tokens)

GPU-TFLOPS

Speicherbandbreite (GB/s)

So verwenden Sie den Inferenzlatenzrechner

Latenz = max(Compute, Speicher); Berechnen = 2·Params·Batch·Seq / TFLOPS

Wie genau ist dieser Rechner?

Die Ergebnisse basieren auf branchenüblichen Formeln und eignen sich für vorläufige Schätzungen.

Welche Einheiten werden verwendet?

Sofern nicht anders angegeben, werden Standard-IT-Einheiten (Anfragen/Sek., ms, %, USD) verwendet.

Ist es kostenlos?

Ja, alle Rechner sind völlig kostenlos.