api

fastapi

README.md

ray

README.md

README.md

bi

README.md

clouds

aws

README.md

gcp

README.md

ovh

README.md

scaleway

README.md

README.md

frontend

README.md

generativeai

agents

agentarium

README.md

autogen

README.md

slm

README.md

README.md

evaluations

README.md

genai-model-providers

anthropic

README.md

mistralai

README.md

README.md

guardrails

README.md

hallunications

README.md

inference

README.md

llm

README.md

mcp

README.md

optimization

README.md

post-training

finetuning

README.md

README.md

rag

evaluations

README.md

README.md

structure-outputs

README.md

tools

README.md

unified-interface

aisuite

README.md

litellm

README.md

README.md

vlm-ocr

README.md

README.md

git

README.md

mlops

zenml

README.md

README.md

predictiveai

sklearn

README.md

skops

examples

model-cards-examples

2025021415

README_plot_california_housing.md README_plot_tabular_regression.md README_plot_text_classification.md

README.md

skore

README.md

skrub

README.md

README.md

python

uv

README.md

README.md

rust

README.md

trustworthyai

airisk

README.md

principles

README.md

strategy

README.md

README.md

References

Events

ai-PULSE:

Morning Keynotes: https://ow.ly/MQHP50U5299
Master Stage: https://ow.ly/bt0f50U5298
Central Room: https://ow.ly/6ljG50U5297

Tests

Accès gratuit d'une version bêta (api generative AI).

Tuto:

Créer un compte sur la console pour y accéder: https://www.scaleway.com/en/docs/console/account/how-to/create-an-account/
Tester Generative APIs ici: https://console.scaleway.com/generative-api/models
Consultezr le Guide d’utilisation ici: https://www.scaleway.com/en/docs/ai-data/generative-apis/quickstart/

Benchmark managed inference (1xH100)

Conditions:
- 1 GPU H100
- LLaMA 3.1-70B-Instruct et toujours avec
- 1024 tokens.
Résultats:

alt text

Notes:
- Output Token Throughput (graphique en rouge): La vitesse de génération progresse régulièrement avec la concurrence, atteignant environ 45 tokens/seconde en pic.
- Median TTFT (graphique en bleu): Le temps pour recevoir le premier token reste plus faible au début (environ 200 ms) et augmente graduellement jusqu'à 300 ms avec la charge.
- Median TPOT (graphique en vert): Le temps par token reste très stable autour de 30-35 ms.
- Median ITL (graphique en violet): La latence inter-token montre une légère hausse mais reste maîtrisée autour de 0.04 ms.