References

Events

ai-PULSE:

Tests

Accès gratuit d'une version bêta (api generative AI).

Tuto:

Benchmark managed inference (1xH100)

  • Conditions:

    • 1 GPU H100
    • LLaMA 3.1-70B-Instruct et toujours avec
    • 1024 tokens.
  • Résultats:

alt text

  • Notes:
    • Output Token Throughput (graphique en rouge): La vitesse de génération progresse régulièrement avec la concurrence, atteignant environ 45 tokens/seconde en pic.
    • Median TTFT (graphique en bleu): Le temps pour recevoir le premier token reste plus faible au début (environ 200 ms) et augmente graduellement jusqu'à 300 ms avec la charge.
    • Median TPOT (graphique en vert): Le temps par token reste très stable autour de 30-35 ms.
    • Median ITL (graphique en violet): La latence inter-token montre une légère hausse mais reste maîtrisée autour de 0.04 ms.