iX Magazin · Benchmark 2026

Inferenz-Engines
vLLM · SGLang · NIM

Ein praxisnaher Benchmark vergleicht die drei führenden Inferenz-Engines für große Sprachmodelle auf einer Nvidia H200 GPU. Durchsatz, Latenz, Stabilität — alle Ergebnisse auf einen Blick.

4Modelle getestet
6Testszenarien
12Konfigurationen
~213 €Gesamtkosten
Drei Engines, ein Ziel
Jede Engine verfolgt einen eigenen Ansatz bei Scheduling, Speicherverwaltung und Optimierung. Der Benchmark testet sie unter identischen Bedingungen.
vL

vLLM

Open Source · v0.12.0

Referenz-Engine mit PagedAttention für speichereffizientes KV-Cache-Management. Robustes Scheduling und stabile Performance über diverse Workloads.

★ BENCHMARK-SIEGER — Höchster Durchsatz, beste Stabilität
SG

SGLang

Open Source · v0.5.5

Optimiert für wiederkehrende Workload-Strukturen. RadixAttention ermöglicht effizientes Caching gemeinsamer Promptpräfixe — theoretisch ideal für Agenten & RAG.

△ NUR 8% DER VERGLEICHE VORN
NI

NVIDIA NIM

Enterprise · TensorRT-LLM

Vorkonfigurierte Enterprise-Laufzeitumgebung. Nutzt je nach Modell TensorRT-LLM oder bestehende Engines wie vLLM/SGLang als Backend.

◇ PUNKTUELLE STÄRKEN IN EXTREMFÄLLEN
Hardware & Setup
Alle Benchmarks liefen auf einer einzelnen Nvidia H200-SXM-GPU (RunPod), um Scheduling und KV-Cache-Management isoliert bewerten zu können.
H200 SXM
GPU
141 GB
HBM3e Speicher
0.9
GPU Memory Utilization
256
Max Num Seqs
Getestete Modelle
Dense- und Mixture-of-Experts-Modelle verschiedener Größen
Modell Typ Größe Präzision Kategorie
DeepSeek-R1-Distill-Qwen-32B Dense 62 GB BF16 Dense-Small
Llama-3.3-70B-Instruct Dense 68 GB FP8 Dense-Large
Mixtral-8×7B-Instruct MoE 87 GB BF16 Sparse-Small
gpt-oss-120b MoE 67 GB MXFP4 Sparse-Large
6 Szenarien, vom Best Case zum Worst Case
Von identischen kurzen Prompts bis hin zu langen diversen Eingaben ohne Caching-Vorteil — die Szenarien decken realistische Produktionsmuster ab.
A1

Gleicher Prompt, kurz

~50 Token. Identischer Prompt. Maximales Prefix-Caching. Referenz-Szenario für Bestleistung.

A2

Gleicher Prompt, lang

~2.500 Token. Identischer Prompt. Kombiniert Prefix-Caching mit langer Prefill-Phase.

B1

Diverse Prompts, kurz

~50 Token. Verschiedene Prompts. Testet reinen Decode-Durchsatz ohne Caching-Vorteil.

B2

Diverse Prompts, lang

~2.500 Token. Verschiedene Prompts. Härteste Workload — Prefill ohne Caching dominiert.

C

RAG / Agent

~1.500 Token Systemprompt + kurze variable Queries. Simuliert typische RAG-Anwendungen.

D

Mehrstufiger Dialog

Wachsende Konversationshistorie. Simuliert Chat-Anwendungen mit inkrementellem Prefix-Caching.

Richtwerte für Chat-Workloads
< 500 ms
Time to First Token
Verzögerungen unter 500ms werden als reaktionsschnell wahrgenommen. Ab ~1s entsteht spürbare Wartezeit.
> 15 tok/s
Tokenrate
Menschliche Lesegeschwindigkeit: ~5 tok/s. 15–30 tok/s ermöglichen flüssiges Streaming. TTS/Code: 50–80 tok/s.
< 100 ms
ITL p99
Gleichmäßige Tokenabstände verhindern ruckelnde Ausgabe. Stärkere Spikes sind visuell wahrnehmbar.
Relative Performance zu A1 Batch 128
Wie stark bremsen komplexe Workloads die Engines aus? A1 = 100% (Best Case). B2 ist die härteste Herausforderung.
vLLM
SGLang
NIM
A1 A2 B1 B2 C D
vLLM
100%
94%
99%
23%
89%
82%
SGLang
100%
72%
90%
25%
67%
76%
NIM
100%
35%
99%
24%
37%
83%

↑ vLLM behält über alle Szenarien die geringsten Performance-Einbußen. NIM verliert bei A2 und C am stärksten.

Server-Durchsatz bei Batch 256
Aggregierter Serverdurchsatz in tok/s — der zentrale Leistungsindikator für Batch-Workloads.
vLLM
SGLang
NIM
Szenario A1 — Best Case (gleicher kurzer Prompt)
Batch 256 · tok/s
MoE gpt-oss-120b
vLLM
7455
SGLang
7354
NIM
5972
MoE Mixtral 8×7B
vLLM
7706
SGLang
6455
NIM
7255
Dense Qwen 2.5 32B
vLLM
6389
SGLang
5452
NIM
6098
Dense Llama 3.3 70B
vLLM
4553
SGLang
3614
NIM
2135
Szenario B2 — Worst Case (diverse lange Prompts)
Batch 256 · tok/s
MoE gpt-oss-120b
vLLM
2794
SGLang
2068
NIM
1989
MoE Mixtral 8×7B
vLLM
675
SGLang
643
NIM
595
Dense Qwen 2.5 32B
vLLM
1054
SGLang
1032
NIM
1038
Dense Llama 3.3 70B
vLLM
368
SGLang
199
NIM
611

⚡ Überraschung: Skalierung bei hohen Batchgrößen

In der Praxis dominieren oft konservative Batchgrößen von 8–10. Der Benchmark zeigt jedoch, dass der Serverdurchsatz häufig bis Batch 256 weiter steigt — bei gpt-oss-120b etwa +116% von Batch 64 auf 256 (vLLM, Szenario A1). Doch der höhere Durchsatz erkauft sich Stabilitätsprobleme: Bei Batch 128+ traten vor allem bei Llama 70B Verbindungsabbrüche auf. vLLM zeigte hier die höchste Stabilität.

Jitter-Rate (P99/P50 ITL)
Wert nahe 1.0 = gleichmäßiger Textfluss. Über 2.0 = spürbare Unregelmäßigkeiten. Der Wert misst, wie ruckelfrei das Token-Streaming beim Endnutzer ankommt.
vLLM
1.5–3.5
Konsistentestes Streaming
SGLang
1.5–9.0
Instabil bei hoher Last (>64 User)
NIM
2.0–6.0*
Burst-Auslieferung bei Llama 70B
← Gleichmäßig (1.0) Ruckelnd (9.0+) →

NIM-Anomalie bei Llama 3.3 70B

Bei kurzen Prompts (A1, B1, D) zeigt NIM extrem niedrige P50-Werte (~0,01 ms) bei P99-Werten im Sekundenbereich. Dies deutet auf gebündelte Token-Auslieferung in Bursts hin, nicht auf unregelmäßiges Streaming. Für TTS, Dialogsysteme oder Live-Untertitel kann dies problematisch sein.

Das Fazit
✦ Gesamtsieger: vLLM

vLLM dominiert den Vergleich mit dem höchsten Durchsatz, der besten Skalierung unter Last und dem konsistentesten Streamingverhalten.

#1

vLLM

Dominiert die Mehrheit der Vergleiche

Höchster Serverdurchsatz in fast allen Konfigurationen. Stabilste Verbindungen bei hoher Last. Niedrigste Jitter-Rate (1.5–3.5). Standardwahl für den Produktionsbetrieb.

#2

SGLang

In nur 8% der Vergleiche vorn

Theoretische Radix-/Prefix-Caching-Vorteile kaum belegt. vLLM hat offenbar aufgeholt. Vereinzelte Stärken bei gpt-oss-120b und Mixtral unter geringer Last.

#3

NIM

Punktuell stark in Extremfällen

Größte Durchsatzgewinne nur in Grenzfällen (Llama 70B, B2, hohe Batch). Nutzt teils vLLM als Backend. Vorsprünge eher durch aggressive HW-Konfiguration als durch überlegene Engine.

Die wichtigsten Erkenntnisse
🏆

vLLM als sichere Standardwahl

Höchster Durchsatz, beste Stabilität, niedrigster Jitter. Für produktive Mehrbenutzersysteme aktuell die beste Wahl.

📊

MoE-Modelle skalieren besser

Mixture-of-Experts-Modelle skalieren bei hoher Batchgröße weiter, während dichte Modelle (Llama 70B) früher ein Plateau erreichen.

⚙️

Batch-Potenzial wird verschenkt

In der Praxis oft nur Batch 8–10, aber der Durchsatz steigt häufig bis Batch 256. Bei kleinen Batches bleibt GPU-Kapazität ungenutzt.

🔄

Caching bestimmt die Performance

Nicht nur die Promptlänge, sondern die Wiederverwendbarkeit des Präfixes bestimmt den Durchsatz. A2 (identisch) > C (teil-identisch) > B2 (divers).

📉

SGLang enttäuscht

Die propagierten Vorteile durch RadixAttention sind in der Praxis kaum messbar. vLLM hat in diesem Bereich offenbar aufgeholt.

⚠️

Stabilität vs. Durchsatz

Hohe Batchgrößen maximieren den GPU-Durchsatz, bringen aber Verbindungsabbrüche. In Chat-Systemen wiegt jeder Fehler schwer.