Server und virtuelle Maschinen

Linux Scheduler CFS: Funktionsweise und Alternativen im Server-Hosting

Der Linux Scheduler CFS steuert, wie Server-Kerne ihre Zeit an Prozesse vergeben, und beeinflusst damit direkt Latenz, Durchsatz und Fairness im Server-Hosting. In diesem Leitfaden erkläre ich die Funktionsweise, die Tuning-Hebel und sinnvolle Alternativen wie ULE, BFS und EEVDF für Hosting mit Webservern.

Zentrale Punkte

Fairness und vruntime bestimmen, welcher Task die CPU bekommt.
Cgroups regeln Quotas und cpu.shares für Kundenisolierung.
Kernel-Tuning über sched_latency_ns und Granularität.
Alternativen wie BFS, ULE, EEVDF für spezielle Workloads.
Praxis: Core-Affinity, I/O-Planer und Tests kombinieren.

Wie CFS im Hosting-Alltag arbeitet

Beim Completely Fair Scheduler entscheidet eine virtuelle Laufzeit, welche Task als Nächstes läuft, wodurch eine faire und vorhersehbare Zuteilung entsteht. Jede Task bekommt CPU-Zeit proportional zum nice-Wert, sodass ein niedriger nice-Wert mehr Anteile erhält. In Hosting-Umgebungen trennen viele kleine Webanfragen, Cronjobs und Backups die CPU untereinander auf, ohne dass ein Prozess alles belegt. Interaktive Workloads wie NGINX-Requests profitieren von häufigen, kurzen Zeitscheiben, während Batch-Aufgaben längere Blöcke erhalten. So bleiben Antwortzeiten für Nutzer verlässlich, auch wenn parallel viele Sites Anfragen verarbeiten.

Ich nutze Cgroups, um Kunden und Dienste zu begrenzen, denn cpu.shares und cpu.max sorgen für klare Anteilssummen und harte Limits. Ein Standardwert von 1024 shares für “normal” und 512 für “weniger wichtig” verteilt die Kerne nachvollziehbar. Mit cpu.max setze ich zum Beispiel 50ms in einer 100ms-Periode, was effektiv 50% CPU-Anteil entspricht. Für Hosting-Workloads mit variabler Last bietet dieses Set-up planbare Reserven. Details zum Prinzip finde ich kompakt erklärt unter faire CPU-Verteilung.

CFS-Mechanik verständlich erklärt

Im Kern verwaltet CFS alle laufbereiten Tasks in einem Rot-Schwarz-Baum, sortiert nach vruntime und mit effizienter Auswahl der kleinsten virtuellen Laufzeit. Diese Task läuft als Nächstes und erhöht dabei ihre vruntime proportional zur verbrauchten CPU-Zeit sowie gewichtet über den nice-Wert. Damit entsteht ein fließendes Gleichgewicht ohne harte Queues, das besonders bei gemischten Workloads saubere Ergebnisse liefert. Auf Mehrkernsystemen verschiebt der Scheduler Tasks zwischen Runqueues, achtet aber auf Cache-Lokalität über Core-Affinity. So verbindet CFS Lastverteilung mit möglichst wenigen teuren Migrationen.

Für das Feintuning stellen Parameter wie sched_latency_ns und sched_min_granularity_ns die Weichen für Latenz und Durchsatz. Kleinere Latenzwerte begünstigen kurze, interaktive Jobs, größere Werte stärken Batch-Jobs. In Tests mit Tools wie stress-ng und fio prüfe ich die Wirkung auf Antwortzeiten und CPU-Auslastung. Mit wachsender Task-Zahl steigt der Verwaltungsaufwand des Baums, was sich als Peak-Latenzen zeigen kann. Richtig gesetzte Quotas und Grenzen halten diese Effekte in Hosting-Umgebungen jedoch im Zaum.

Stärken von CFS im Server-Hosting

Die größte Stärke liegt in der Fairness, die gleichmäßig und nachvollziehbar Ressourcen verteilt. Für Shared-Umgebungen bedeutet das: Kein Kunde verdrängt dauerhaft andere, weil Quotas und shares die Gewichte klar definieren. Interaktive Dienste erhalten schnelle Reaktionszeiten, während Backups ohne Hektik laufen dürfen. Die Priorisierung über nice-Werte ergänzt dieses Bild und lässt mir Raum für Abstimmung je nach Rolle eines Dienstes. Durch Load-Balancing über alle Kerne nutze ich die vorhandene Rechenleistung gut aus, ohne Jeff-Momenten einzelner Threads zu viel Raum zu geben.

Praktisch zeigt sich die Stärke, wenn Webserver-Spitzen anstehen und viele kurze Requests eintreffen, denn CFS vergibt häufige Slots an diese artigen Tasks. Dabei helfen saubere Cgroups, um harte Obergrenzen pro Kunde oder Container zu setzen. Messungen auf Durchschnitten und Perzentilen zeigen verlässliche Antwortzeiten, was sich im Tagesgeschäft bezahlt macht. Für Anwendungsstapel mit vielen Komponenten bewährt sich dieser Ansatz besonders. Genau hier punktet die Mischung aus planbarer Fairness und ausreichend Flexibilität.

Grenzen und typische Stolpersteine

Bei extrem vielen gleichzeitigen Tasks wächst der Overhead der Baumoperationen, was bei Spitzen die Latenz treiben kann. In Hosting-Set-ups mit vielen sehr kurzen Anfragen kommt es mitunter zu häufigen Kontextwechseln. So ein “thrashendes” Verhalten senkt die Effizienz, wenn granularity-Werte unglücklich gewählt sind. Weniger, dafür längere Zeitscheiben können helfen, sofern Interaktivität erhalten bleibt. CFS reagiert sensibel auf falsche Quotas, weshalb ich Limits konsequent mit Lasttests überprüfe.

Auch affinitätsfreudige Workloads leiden, wenn Tasks zu oft zwischen Cores springen. Ein sauberes Affinity-Konzept hält Caches warm und reduziert Migrationskosten. Zudem binde ich laute Batch-Jobs gern an eigene Kerne, damit Webanfragen auf ihren Kernen ruhig laufen. Für latenzkritische Dienste lohnt es sich, niedrige nice-Werte und eine fein abgestimmte Latenz zu setzen. Am Ende zählt, dass Messungen die gewählten Parameter bestätigen.

Alternativen im Vergleich: ULE, BFS und EEVDF

Für spezielle Workloads schaue ich mir Alternativen an, um Latenz oder Skalierung anders zu gewichten. ULE nutzt einfachere Queues und punktet mit wenig Verwaltungsaufwand, BFS priorisiert Reaktionsfreude und glänzt bei wenigen Tasks, und EEVDF kombiniert faire Verteilung mit Deadlines. Gerade EEVDF verspricht kürzere Wartezeiten bei interaktiven Lasten, weil der Scheduler die “früheste zulässige Deadline” stärker beachtet. Für sehr große Serverfelder zählt am Ende, welche Mischung aus Effizienz und Planbarkeit im eigenen Stack wirklich gewinnt. Ein strukturierter Blick auf Stärken, Schwächen und Einsatzfelder hilft bei der Auswahl.

Scheduler	Komplexität	Stärken im Hosting	Schwächen	Geeignet für
CFS	Hoch	Faire Verteilung, Cgroups	Latenz-Spitzen	Shared Hosting, gemischte Lasten
ULE	Niedrig	Einfache Queues, geringe Last	Weniger Isolation	VMs, HPC-ähnliche Muster
BFS	Mittel	Interaktivität, Tempo	Schwache Skalierung	Desktops, kleine Server
EEVDF	Mittel	Niedrige Latenz, Deadlines	Noch wenig Praxis	Moderne Hosting-Stacks

Kernel-Tuning: praktische Schritte für CFS

Für CFS schalte ich oft sched_autogroup_enabled=0, damit keine impliziten Gruppen das Bild verzerren und die Lastverteilung klar bleibt. Mit sched_latency_ns starte ich gern bei 20ms, was interaktive Dienste begünstigt, und passe sched_min_granularity_ns an, um Kontextwechsel zu zähmen. Werte hängen vom Profil ab: Viele kurze Webanfragen brauchen andere Feineinstellungen als Backup-Fenster. Ich teste Änderungen seriell und messe Perzentile, statt nur Durchschnitte zu betrachten. Das sichert, dass nicht nur Mittelwerte hübsch aussehen, sondern auch die langen Warteschlangen schrumpfen.

Wer tiefer an sysctl-Parametern dreht, findet einen guten Einstieg hier: sysctl-Tuning. Ergänzend stimme ich IRQ-Verteilung, CPU-Governor und Energieprofile ab, damit die CPU nicht dauernd in sparsame Zustände kippt. Für latenzgetriebene Stacks nutze ich Performance-Governor, während reine Batch-Kisten mit ausgeglichener Steuerung leben. Ich trenne Test- und Produktionsphasen klar, um keine Überraschungen auszuliefern. Nach jedem Schritt prüfe ich Logs und Metriken, bevor ich weiter drehe.

Cgroups und Quotas sinnvoll einsetzen

Mit cpu.shares ordne ich relative Gewichte zu, während cpu.max harte Grenzen setzt. Ein Kunde mit 512 shares bekommt halb so viel Rechenzeit wie ein Kunde mit 1024, wenn beide gleichzeitig Last erzeugen. Per cpu.max begrenze ich Spitzen sauber, zum Beispiel 50ms in 100ms. Für dedizierte Jobs lohnt sich cpuset.cpus, damit ein Service feste Kerne nutzt und der Cache warm bleibt. In Summe ergibt das eine belastbare Trennung zwischen Kunden und Diensten.

Ich dokumentiere jede Änderung und gleiche sie mit den Service-Leveln ab, die ich erreichen will. Ohne Messwerte führen shares schnell zu Fehlinterpretationen, deshalb begleite ich Anpassungen stets mit Load-Tests. Bei Containern schlage ich realistische Quotas vor, die Peaks verkraften, aber den Host nicht ausbremsen. Wichtig bleibt ein planbares Fehlerbudget, damit spürbare Latenzspitzen aufgedeckt werden. Wer das konsequent macht, verhindert Überraschungen zu Stoßzeiten.

Praxis: Webserver und Datenbanken unter CFS

Event-getriebene Webserver reduzieren Kontextwechsel und harmonieren mit CFS, was spürbar konstante Antwortzeiten und bessere Skalierung erzeugt. In Tests sehe ich, dass NGINX bei gleicher Hardware höhere Request-Raten mit weniger Jitter hält. Datenbanken reagieren positiv auf Core-Affinity, wenn Hintergrundjobs aus den Hot-Kernen fernbleiben. Einfache Regeln helfen: Web auf Kerne A–B, Batch auf C–D und DB auf E–F. So hält der Stack die Pipeline sauber und die Caches warm.

Viele kleine PHP-FPM-Worker verursachen bei aggressiver Granularität zu viele Umschaltungen. Ich erhöhe dann die minimale Zeitscheibe und prüfe, ob Antwortzeiten stabil bleiben. Gleichzeitig drossele ich Chatty-Logs, damit I/O nicht zur Bremse wird. CFS liefert hier die Grundlage, aber die Spitze der Performance entsteht durch Feinabstimmung am gesamten Stack. So greifen alle Rädchen ineinander, ohne dem Host den Atem zu nehmen.

Speicher-I/O und CPU-Scheduling: das Zusammenspiel

CPU-Scheduler und I/O-Planer beeinflussen sich gegenseitig, weshalb ein stimmiges Setup spürbare Vorteile bei Latenz bringt. Für NVMe nutze ich meist Noop oder mq-deadline, während auf HDDs mq-deadline lange Warteschlangen besser bedient. Wenn die CPU pünktlich Zeit vergibt, der I/O-Pfad aber stockt, kippt die Gesamtwirkung. Daher prüfe ich die I/O-Planer parallel zu CFS-Parametern. Einen Überblick zu Noop, mq-deadline und BFQ greife ich hier auf: I/O-Planer im Vergleich.

Für Datenbank-Hosts passe ich Queue-Tiefen und Read-Ahead an, damit CFS-geplante Slots nicht an blockierendem I/O verpuffen. Webserver-Kisten mit vielen kleinen Dateien profitieren von geringer Latenz im I/O-Stack. In Virtualisierungsszenarien setze ich auf konsistente Planer auf Host und Gast, um unpredictable Patterns zu vermeiden. So spielt der CPU-Scheduler mit dem Storage-Subsystem zusammen. Am Ende zählt die stimmige Kette von der Anfrage bis zur Antwort.

SMP-Balancing, Core-Affinity und NUMA

Ich leite Threads auf feste Kerne, damit Caches warm und Migrationskosten klein bleiben. Für NUMA-Hosts pinne ich Speicher und CPU gemeinsam, weil entfernte Speicherzugriffe die Latenz anheben. CFS balanciert Last zwischen Runqueues, doch bewusste Affinity-Regeln holen oft mehr heraus. Dienste mit häufigem Cache-Zugriff profitieren von stabilen Kerngruppen. Batch-Jobs dürfen wandern, sofern sie nicht die Hot-Kerne stören.

In der Praxis setze ich cpuset.cpus und numactl-Optionen, teste dann Request-Zeiten und CPU-Miss-Raten. Je weniger unnötige Migrationen, desto besser fällt die Reaktionszeit aus. Ich bewerte zudem die Interrupt-Verteilung, damit harte IRQ-Spitzen nicht einen Kern verstopfen. So erziele ich eine ruhige Taktung der wichtigen Threads. Diese Ruhe zahlt in der gesamten Stack-Performance ein.

Group Scheduling: nice, Gewichtung und Hierarchien

Ein häufiger Stolperstein im Hosting ist die Wechselwirkung zwischen nice-Prioritäten und Cgroup-Gewichten. CFS verteilt zuerst fair zwischen Gruppen, dann innerhalb der Gruppe zwischen Tasks. Das bedeutet: Ein Prozess mit nice -5 kann trotzdem weniger CPU bekommen als ein anderer mit nice 0, wenn seine Gruppe (Kunde/Container) ein niedrigeres Gewicht trägt. Für konsistente Ergebnisse lege ich daher zunächst die Gruppen-Gewichte fest und nutze nice nur zur Feinkorrektur innerhalb eines Services.

Praktisch arbeite ich mit wenigen klaren Stufen (z. B. 512/1024/2048 shares für “low/normal/high”) und dokumentiere, welche Services in welcher Gruppe laufen. So bleibt die Fairness in der Hierarchie nachvollziehbar. Wer viel mit kurzlebigen Prozessen (z. B. CGI/CLI-Jobs) arbeitet, profitiert zudem von cgroup-basierter Steuerung, weil flüchtige Tasks sonst ungewollt am Gruppenkorsett vorbeikommen. Ich überprüfe regelmäßig mit Laufzeitmetriken, ob die interne Aufteilung noch zum Lastprofil passt.

Container und Orchestrierung: Requests, Limits und Throttling

In Container-Umgebungen mappt ein “Request” typischerweise auf relatives Gewicht (shares/weight), ein “Limit” auf das Quota (cpu.max). Das Zusammenspiel entscheidet über Throttling: Ist das Quota zu knapp, wird die Container-CPU innerhalb der Periode ausgebremst – sichtbar an p95/p99-Latenzsprengeln. Ich halte daher Quotas so, dass normale Bursts in die Periode passen und die Services selten hart gedrosselt werden. Wo verfügbar, nutze ich eine Burst-Reserve (z. B. cpu.max.burst), um kurze Spitzen ohne Verwerfungen abzufedern.

Wichtig ist, Requests nicht zu niedrig anzusetzen: Zu geringe Gewichte führen bei Konkurrenz dazu, dass interaktive Services hinter Batch-Lärm zurückfallen. Ich kalibriere Requests anhand der gemessenen Grundlast und sichere Limits so, dass Fehlerbudgets in Peak-Zeiten gehalten werden. Bei Multi-Tenant-Knoten plane ich zusätzlich Pufferkerne ein, um Lastspitzen einzelner Container nicht auf die Nachbarn durchschlagen zu lassen.

Messmethoden und Troubleshooting im Scheduler-Kontext

Ich bewerte CFS-Tuning nie blind, sondern messe zielgerichtet. Für den Überblick nutze ich:

Runqueue-Länge pro CPU (Load vs. aktive Kerne),
Kontextwechsel pro Sekunde und Threadanzahl,
CPU-Steal und SoftIRQ-Anteile,
Perzentile von Antwortzeiten (p50/p95/p99),
Verteilung von vruntime bzw. Scheduling-Latenzen.

Treten Latenzspitzen auf, suche ich erst nach Throttling (Quota erschöpft), danach nach Migrationen (Cache-Kälte) und schließlich nach I/O-Blockaden (Queue-Tiefe, Storage-Sättigung). Ich schaue auf Wakeup-Muster: Häufiges kurzes Aufwachen vieler Worker deutet auf zu feine Granularität oder Chatty-I/O hin. Ein erhöhter Anteil von ksoftirqd auf einem Kern weist auf Hot-IRQ-Queues hin – in dem Fall verteile ich IRQs und aktiviere RPS/XPS, damit Netzwerklast breiter gefächert wird.

Echtzeitklassen, Preemption und Tick-Steuerung

Neben CFS existieren die Echtzeitklassen SCHED_FIFO/RR. Sie übersteuern CFS: Ein fehlerhaft konfigurierter RT-Thread kann dem System sprichwörtlich die Luft nehmen. Ich vergebe RT-Prio daher nur sehr gezielt (z. B. für Audio/Telemetrie) und definiere klare Watchdogs. Für Hosting genügt meist CFS mit sauberen Gewichten.

Zur Preemption: Die Wahl des Preemption-Modells (z. B. “voluntary” vs. “full/dynamic preempt”) verschiebt das Latenz-Durchsatz-Verhältnis. Für Web-Stacks bevorzuge ich mehr Preemption, für reine Batch-Hosts weniger. Tick-Optimierungen (nohz-Modi) können Jitter senken, sollten aber mit Bedacht eingesetzt werden. Auf isolierten Kernen kombiniere ich gelegentlich nohz_full und Affinity, damit Hot-Threads möglichst ungestört laufen – wichtig ist, dass System- und IRQ-Last dann nicht versehentlich auf diese Kerne wandern.

Virtualisierung: KVM, vCPU-Pinning und Steal-Time

Im Hypervisor-Umfeld bestimmt der Host-Scheduler, wann vCPUs laufen können. Überbuchungen erzeugen Steal-Time in den Gästen, die wie “unsichtbare Latenz” wirkt. Für latenzkritische Tenants pinne ich vCPUs auf physische Kerne und halte das Overcommit moderat. Außerdem trenne ich Emulator-Threads (IO-Threads, vhost) von den Hot-Kernen der Gäste, damit sie sich nicht gegenseitig behindern.

Ich vermeide doppelte Drosselung: Wenn der Gast bereits cpu.max nutzt, setze ich auf dem Host keine zusätzlichen harten Quotas auf denselben Workload. Die Frequenzsteuerung bleibt Aufgabe des Hosts; Gäste profitieren indirekt, wenn der Host-Governor sauber mit der tatsächlichen Auslastung skaliert. Für gleichmäßige Latenzen halte ich Stabilität über reine Maximalfrequenz-Runs hinaus für wichtiger als Peak-GHz auf dem Papier.

AutoNUMA, Speicher-Lokalisierung und THP

NUMA kann Performance-Gewinn oder -Falle sein. AutoNUMA hilft oft, kann aber bei stark wandernden Threads zusätzlichen Overhead erzeugen. In Hosting-Stacks mit klaren Service-Grenzen pinne ich CPU und Speicher (cpuset.cpus und cpuset.mems) gemeinsam. So bleiben Hot-Daten lokal, und CFS muss weniger Migrationen kompensieren.

Große Seiten (THP) senken TLB-Pressure, passen aber nicht zu jedem Profil. Für Datenbanken kann “madvise” sinnvoller sein als ein pauschales “always”. Blockierende Page-Faults treffen interaktive Latenz hart; ich plane daher Puffer (Page-Cache, Shared-Buffer) so, dass CFS-Slots produktiv genutzt werden und nicht auf I/O oder MMU-Events warten. Messbar wird das über Page-Fault-Raten und Miss-Kurven der Caches.

Netzwerkpfad: IRQ-Steuerung, RPS/XPS und Busy-Polling

Viele Web-Workloads sind NIC-dominiert. Ich verteile IRQ-Queues der Netzwerkkarte über mehrere Kerne und halte sie affin zu den Worker-Threads, damit Wakeups lokal bleiben. RPS/XPS hilft, weiche Hotspots aufzulösen, wenn einzelne RX-/TX-Queues zu viel Last tragen. Wird ksoftirqd sichtbar heiß, ist das ein Hinweis auf überlaufende SoftIRQs – dann entzerre ich Flüsse und erhöhe bei Bedarf die Budget-Parameter, ohne Fairness zu verlieren.

Optionales Busy-Polling kann in sehr speziellen Low-Latency-Set-ups Sinn ergeben, kostet aber CPU-Zeit. Ich nutze es selten und nur, wenn ich per Messung belegen kann, dass p99 signifikant fällt, ohne den Host insgesamt zu stressen. Im Normalfall liefern saubere IRQ-Affinity, Cgroups und CFS-Granularität das bessere Kosten-Nutzen-Verhältnis.

Ausblick: Von CFS zu EEVDF und Userspace-Ansätzen

EEVDF erweitert faire Verteilung um Deadlines, was spürbar kürzere und planbarere Antworten verspricht. Gerade unter interaktiven Latenzzielen kann das den Ausschlag geben. Ich beobachte Kernel-Versionen genau und teste EEVDF getrennt, bevor ich umstelle. Parallel gewinnt Userspace-Scheduling per eBPF-Muster an Fahrt, das je nach Workload zusätzliche Steuerung erlauben kann. Für Hosting-Infrastrukturen bleibt CFS relevant, doch EEVDF wird sich zügig etablieren.

Wichtig bleibt ein klarer Migrationspfad: Tests, Rollout auf ausgewählten Hosts, dann Ausweitung. Nur so bleiben Perzentile und Fehlerraten kontrollierbar. Ich halte Benchmarks nahe an der Realität, inklusive Burst-Phasen und langsamen Backends. Erst danach greife ich in Live-Umgebungen ein. So lässt sich Fortschritt ohne böse Überraschungen erreichen.

Kurz zusammengefasst

Der Linux Scheduler CFS liefert faire Verteilung, solide Integrationen und gute Kontrolle über Cgroups. Mit passenden sysctl-Parametern, sauberer Affinity und realistischen Quotas halte ich Latenzen klein und Durchsatz hoch. Für spezielle Muster bieten ULE, BFS oder EEVDF zusätzliche Hebel. Ich messe, vergleiche und rolle Änderungen stufenweise aus, um Risiken zu begrenzen. So bleibt Hosting berechenbar – und die Performance dort, wo sie hingehört.