KI-Benchmark: Inferenz-Engines im Vergleich

Die Kandidaten

Drei Engines, ein Ziel

Jede Engine verfolgt einen eigenen Ansatz bei Scheduling, Speicherverwaltung und Optimierung. Der Benchmark testet sie unter identischen Bedingungen.

vL

vLLM

Open Source · v0.12.0

Referenz-Engine mit PagedAttention für speichereffizientes KV-Cache-Management. Robustes Scheduling und stabile Performance über diverse Workloads.

★ BENCHMARK-SIEGER — Höchster Durchsatz, beste Stabilität

SG

SGLang

Open Source · v0.5.5

Optimiert für wiederkehrende Workload-Strukturen. RadixAttention ermöglicht effizientes Caching gemeinsamer Promptpräfixe — theoretisch ideal für Agenten & RAG.

△ NUR 8% DER VERGLEICHE VORN

NI

NVIDIA NIM

Enterprise · TensorRT-LLM

Vorkonfigurierte Enterprise-Laufzeitumgebung. Nutzt je nach Modell TensorRT-LLM oder bestehende Engines wie vLLM/SGLang als Backend.

◇ PUNKTUELLE STÄRKEN IN EXTREMFÄLLEN

Testumgebung

Hardware & Setup

Alle Benchmarks liefen auf einer einzelnen Nvidia H200-SXM-GPU (RunPod), um Scheduling und KV-Cache-Management isoliert bewerten zu können.

H200 SXM

GPU

141 GB

HBM3e Speicher

0.9

GPU Memory Utilization

256

Max Num Seqs

Getestete Modelle

Dense- und Mixture-of-Experts-Modelle verschiedener Größen

Modell	Typ	Größe	Präzision	Kategorie
DeepSeek-R1-Distill-Qwen-32B	Dense	62 GB	BF16	Dense-Small
Llama-3.3-70B-Instruct	Dense	68 GB	FP8	Dense-Large
Mixtral-8×7B-Instruct	MoE	87 GB	BF16	Sparse-Small
gpt-oss-120b	MoE	67 GB	MXFP4	Sparse-Large

Testszenarien

6 Szenarien, vom Best Case zum Worst Case

Von identischen kurzen Prompts bis hin zu langen diversen Eingaben ohne Caching-Vorteil — die Szenarien decken realistische Produktionsmuster ab.

A1

Gleicher Prompt, kurz

~50 Token. Identischer Prompt. Maximales Prefix-Caching. Referenz-Szenario für Bestleistung.

A2

Gleicher Prompt, lang

~2.500 Token. Identischer Prompt. Kombiniert Prefix-Caching mit langer Prefill-Phase.

B1

Diverse Prompts, kurz

~50 Token. Verschiedene Prompts. Testet reinen Decode-Durchsatz ohne Caching-Vorteil.

B2

Diverse Prompts, lang

~2.500 Token. Verschiedene Prompts. Härteste Workload — Prefill ohne Caching dominiert.

C

RAG / Agent

~1.500 Token Systemprompt + kurze variable Queries. Simuliert typische RAG-Anwendungen.

D

Mehrstufiger Dialog

Wachsende Konversationshistorie. Simuliert Chat-Anwendungen mit inkrementellem Prefix-Caching.

Zielwerte

Richtwerte für Chat-Workloads

< 500 ms

Time to First Token

Verzögerungen unter 500ms werden als reaktionsschnell wahrgenommen. Ab ~1s entsteht spürbare Wartezeit.

> 15 tok/s

Tokenrate

Menschliche Lesegeschwindigkeit: ~5 tok/s. 15–30 tok/s ermöglichen flüssiges Streaming. TTS/Code: 50–80 tok/s.

< 100 ms

ITL p99

Gleichmäßige Tokenabstände verhindern ruckelnde Ausgabe. Stärkere Spikes sind visuell wahrnehmbar.

Kernergebnis

Relative Performance zu A1 Batch 128

Wie stark bremsen komplexe Workloads die Engines aus? A1 = 100% (Best Case). B2 ist die härteste Herausforderung.

vLLM

SGLang

NIM

	A1	A2	B1	B2	C	D
vLLM	100%	94%	99%	23%	89%	82%
SGLang	100%	72%	90%	25%	67%	76%
NIM	100%	35%	99%	24%	37%	83%

↑ vLLM behält über alle Szenarien die geringsten Performance-Einbußen. NIM verliert bei A2 und C am stärksten.

Durchsatz

Server-Durchsatz bei Batch 256

Aggregierter Serverdurchsatz in tok/s — der zentrale Leistungsindikator für Batch-Workloads.

vLLM

SGLang

NIM

Szenario A1 — Best Case (gleicher kurzer Prompt)

Batch 256 · tok/s

MoE gpt-oss-120b

vLLM

7455

SGLang

7354

NIM

5972

MoE Mixtral 8×7B

vLLM

7706

SGLang

6455

NIM

7255

Dense Qwen 2.5 32B

vLLM

6389

SGLang

5452

NIM

6098

Dense Llama 3.3 70B

vLLM

4553

SGLang

3614

NIM

2135

Szenario B2 — Worst Case (diverse lange Prompts)

Batch 256 · tok/s

MoE gpt-oss-120b

vLLM

2794

SGLang

2068

NIM

1989

MoE Mixtral 8×7B

vLLM

675

SGLang

643

NIM

595

Dense Qwen 2.5 32B

vLLM

1054

SGLang

1032

NIM

1038

Dense Llama 3.3 70B

vLLM

368

SGLang

199

NIM

611

⚡ Überraschung: Skalierung bei hohen Batchgrößen

In der Praxis dominieren oft konservative Batchgrößen von 8–10. Der Benchmark zeigt jedoch, dass der Serverdurchsatz häufig bis Batch 256 weiter steigt — bei gpt-oss-120b etwa +116% von Batch 64 auf 256 (vLLM, Szenario A1). Doch der höhere Durchsatz erkauft sich Stabilitätsprobleme: Bei Batch 128+ traten vor allem bei Llama 70B Verbindungsabbrüche auf. vLLM zeigte hier die höchste Stabilität.

Streaming-Qualität

Jitter-Rate (P99/P50 ITL)

Wert nahe 1.0 = gleichmäßiger Textfluss. Über 2.0 = spürbare Unregelmäßigkeiten. Der Wert misst, wie ruckelfrei das Token-Streaming beim Endnutzer ankommt.

vLLM

1.5–3.5

Konsistentestes Streaming

SGLang

1.5–9.0

Instabil bei hoher Last (>64 User)

NIM

2.0–6.0*

Burst-Auslieferung bei Llama 70B

← Gleichmäßig (1.0) Ruckelnd (9.0+) →

NIM-Anomalie bei Llama 3.3 70B

Bei kurzen Prompts (A1, B1, D) zeigt NIM extrem niedrige P50-Werte (~0,01 ms) bei P99-Werten im Sekundenbereich. Dies deutet auf gebündelte Token-Auslieferung in Bursts hin, nicht auf unregelmäßiges Streaming. Für TTS, Dialogsysteme oder Live-Untertitel kann dies problematisch sein.

Ergebnis

Das Fazit

✦ Gesamtsieger: vLLM

vLLM dominiert den Vergleich mit dem höchsten Durchsatz, der besten Skalierung unter Last und dem konsistentesten Streamingverhalten.

#1

vLLM

Dominiert die Mehrheit der Vergleiche

Höchster Serverdurchsatz in fast allen Konfigurationen. Stabilste Verbindungen bei hoher Last. Niedrigste Jitter-Rate (1.5–3.5). Standardwahl für den Produktionsbetrieb.

#2

SGLang

In nur 8% der Vergleiche vorn

Theoretische Radix-/Prefix-Caching-Vorteile kaum belegt. vLLM hat offenbar aufgeholt. Vereinzelte Stärken bei gpt-oss-120b und Mixtral unter geringer Last.

#3

NIM

Punktuell stark in Extremfällen

Größte Durchsatzgewinne nur in Grenzfällen (Llama 70B, B2, hohe Batch). Nutzt teils vLLM als Backend. Vorsprünge eher durch aggressive HW-Konfiguration als durch überlegene Engine.

Kernaussagen

Die wichtigsten Erkenntnisse

🏆

vLLM als sichere Standardwahl

Höchster Durchsatz, beste Stabilität, niedrigster Jitter. Für produktive Mehrbenutzersysteme aktuell die beste Wahl.

📊

MoE-Modelle skalieren besser

Mixture-of-Experts-Modelle skalieren bei hoher Batchgröße weiter, während dichte Modelle (Llama 70B) früher ein Plateau erreichen.

⚙️

Batch-Potenzial wird verschenkt

In der Praxis oft nur Batch 8–10, aber der Durchsatz steigt häufig bis Batch 256. Bei kleinen Batches bleibt GPU-Kapazität ungenutzt.

🔄

Caching bestimmt die Performance

Nicht nur die Promptlänge, sondern die Wiederverwendbarkeit des Präfixes bestimmt den Durchsatz. A2 (identisch) > C (teil-identisch) > B2 (divers).

📉

SGLang enttäuscht

Die propagierten Vorteile durch RadixAttention sind in der Praxis kaum messbar. vLLM hat in diesem Bereich offenbar aufgeholt.

⚠️

Stabilität vs. Durchsatz

Hohe Batchgrößen maximieren den GPU-Durchsatz, bringen aber Verbindungsabbrüche. In Chat-Systemen wiegt jeder Fehler schwer.

Inferenz-Engines vLLM · SGLang · NIM

vLLM

SGLang

NVIDIA NIM

Gleicher Prompt, kurz

Gleicher Prompt, lang

Diverse Prompts, kurz

Diverse Prompts, lang

RAG / Agent

Mehrstufiger Dialog

⚡ Überraschung: Skalierung bei hohen Batchgrößen

NIM-Anomalie bei Llama 3.3 70B

vLLM

SGLang

NIM

vLLM als sichere Standardwahl

MoE-Modelle skalieren besser

Batch-Potenzial wird verschenkt

Caching bestimmt die Performance

SGLang enttäuscht

Stabilität vs. Durchsatz

Inferenz-Engines
vLLM · SGLang · NIM