Ein praxisnaher Benchmark vergleicht die drei führenden Inferenz-Engines für große Sprachmodelle auf einer Nvidia H200 GPU. Durchsatz, Latenz, Stabilität — alle Ergebnisse auf einen Blick.
Referenz-Engine mit PagedAttention für speichereffizientes KV-Cache-Management. Robustes Scheduling und stabile Performance über diverse Workloads.
Optimiert für wiederkehrende Workload-Strukturen. RadixAttention ermöglicht effizientes Caching gemeinsamer Promptpräfixe — theoretisch ideal für Agenten & RAG.
Vorkonfigurierte Enterprise-Laufzeitumgebung. Nutzt je nach Modell TensorRT-LLM oder bestehende Engines wie vLLM/SGLang als Backend.
| Modell | Typ | Größe | Präzision | Kategorie |
|---|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-32B | Dense | 62 GB | BF16 | Dense-Small |
| Llama-3.3-70B-Instruct | Dense | 68 GB | FP8 | Dense-Large |
| Mixtral-8×7B-Instruct | MoE | 87 GB | BF16 | Sparse-Small |
| gpt-oss-120b | MoE | 67 GB | MXFP4 | Sparse-Large |
~50 Token. Identischer Prompt. Maximales Prefix-Caching. Referenz-Szenario für Bestleistung.
~2.500 Token. Identischer Prompt. Kombiniert Prefix-Caching mit langer Prefill-Phase.
~50 Token. Verschiedene Prompts. Testet reinen Decode-Durchsatz ohne Caching-Vorteil.
~2.500 Token. Verschiedene Prompts. Härteste Workload — Prefill ohne Caching dominiert.
~1.500 Token Systemprompt + kurze variable Queries. Simuliert typische RAG-Anwendungen.
Wachsende Konversationshistorie. Simuliert Chat-Anwendungen mit inkrementellem Prefix-Caching.
| A1 | A2 | B1 | B2 | C | D | |
|---|---|---|---|---|---|---|
| vLLM | 100% |
94% |
99% |
23% |
89% |
82% |
| SGLang | 100% |
72% |
90% |
25% |
67% |
76% |
| NIM | 100% |
35% |
99% |
24% |
37% |
83% |
↑ vLLM behält über alle Szenarien die geringsten Performance-Einbußen. NIM verliert bei A2 und C am stärksten.
In der Praxis dominieren oft konservative Batchgrößen von 8–10. Der Benchmark zeigt jedoch, dass der Serverdurchsatz häufig bis Batch 256 weiter steigt — bei gpt-oss-120b etwa +116% von Batch 64 auf 256 (vLLM, Szenario A1). Doch der höhere Durchsatz erkauft sich Stabilitätsprobleme: Bei Batch 128+ traten vor allem bei Llama 70B Verbindungsabbrüche auf. vLLM zeigte hier die höchste Stabilität.
Bei kurzen Prompts (A1, B1, D) zeigt NIM extrem niedrige P50-Werte (~0,01 ms) bei P99-Werten im Sekundenbereich. Dies deutet auf gebündelte Token-Auslieferung in Bursts hin, nicht auf unregelmäßiges Streaming. Für TTS, Dialogsysteme oder Live-Untertitel kann dies problematisch sein.
vLLM dominiert den Vergleich mit dem höchsten Durchsatz, der besten Skalierung unter Last und dem konsistentesten Streamingverhalten.
Höchster Serverdurchsatz in fast allen Konfigurationen. Stabilste Verbindungen bei hoher Last. Niedrigste Jitter-Rate (1.5–3.5). Standardwahl für den Produktionsbetrieb.
Theoretische Radix-/Prefix-Caching-Vorteile kaum belegt. vLLM hat offenbar aufgeholt. Vereinzelte Stärken bei gpt-oss-120b und Mixtral unter geringer Last.
Größte Durchsatzgewinne nur in Grenzfällen (Llama 70B, B2, hohe Batch). Nutzt teils vLLM als Backend. Vorsprünge eher durch aggressive HW-Konfiguration als durch überlegene Engine.
Höchster Durchsatz, beste Stabilität, niedrigster Jitter. Für produktive Mehrbenutzersysteme aktuell die beste Wahl.
Mixture-of-Experts-Modelle skalieren bei hoher Batchgröße weiter, während dichte Modelle (Llama 70B) früher ein Plateau erreichen.
In der Praxis oft nur Batch 8–10, aber der Durchsatz steigt häufig bis Batch 256. Bei kleinen Batches bleibt GPU-Kapazität ungenutzt.
Nicht nur die Promptlänge, sondern die Wiederverwendbarkeit des Präfixes bestimmt den Durchsatz. A2 (identisch) > C (teil-identisch) > B2 (divers).
Die propagierten Vorteile durch RadixAttention sind in der Praxis kaum messbar. vLLM hat in diesem Bereich offenbar aufgeholt.
Hohe Batchgrößen maximieren den GPU-Durchsatz, bringen aber Verbindungsabbrüche. In Chat-Systemen wiegt jeder Fehler schwer.