OhMyCalc

Inferenz-Latenz-Rechner

Schätzen Sie die Inferenzlatenz für ML-Modelle durch die Analyse rechen- und speichergebundener Komponenten.

So verwenden Sie den Inferenzlatenzrechner

  1. Geben Sie die Modellgröße in Millionen von Parametern ein.
  2. Legen Sie die Chargengröße und die Sequenzlänge fest.
  3. Geben Sie GPU-TFLOPS und Speicherbandbreite an.
  4. Klicken Sie für die Latenzanalyse auf Berechnen.

Anwendungsfälle

Formel

Latenz = max(Compute, Speicher); Berechnen = 2·Params·Batch·Seq / TFLOPS

Häufig gestellte Fragen

Wie genau ist dieser Rechner?
Die Ergebnisse basieren auf branchenüblichen Formeln und eignen sich für vorläufige Schätzungen.
Welche Einheiten werden verwendet?
Sofern nicht anders angegeben, werden Standard-IT-Einheiten (Anfragen/Sek., ms, %, USD) verwendet.
Ist es kostenlos?
Ja, alle Rechner sind völlig kostenlos.