Server og virtuelle maskiner

Server Interrupt Coalescing og netværksoptimering: Ultimativ guide

webhosting
15. april 2026
8:34 om morgenen

Sammenlægning af afbrydelser samler flere indgående pakker i et enkelt hardware-interrupt, hvilket reducerer CPU-belastningen og øger gennemstrømningen. Jeg viser, hvordan man indstiller timings, tærskler og NIC-funktioner som RSS og RSC for at minimere latency, jitter og Gennemstrømning afhængigt af arbejdsbyrden.

Centrale punkter

OversigtDe følgende kerneaspekter vil guide dig på en struktureret måde gennem teknologi, tuning og praksis.

CPU-aflæsningFærre afbrydelser, højere kapacitet.
Afvejning af ventetidMillisekunder mod stabilitet og pps.
NIC-tuningRSS-, RSC-, MTU- og BIOS-energiprofiler.
Opsætning af OSethtool, RSC/RSS, førerkøer.
Overvågningpps, afbrydelser/s, p99-latency.

Interrupt coalescing kort forklaret

Sammensmeltning betyder, at netværkskortet indsamler indgående pakker og kun udløser et interrupt, når der er arbejde nok, eller en timer udløber. På denne måde reducerer jeg antallet af afbrydelser betydeligt og flytter dele af Pakkebehandling i NIC'et, hvilket reducerer belastningen på CPU'en. På Windows-servere hjælper Receive Segment Coalescing (RSC) ved at kombinere flere segmenter i større blokke og reducere behandlingsomkostningerne. På Linux styrer jeg aggregeringen via rx-usecs (tid) og rx-frames (pakker) afhængigt af flowets karakteristika og den ønskede latenstid. Denne tilgang reducerer overhead, holder kerner fri og stabiliserer throughput med tung trafik. Det bevidste kompromis er stadig vigtigt: Hvert resumé tilføjer en lille ventetid, som jeg begrænser kraftigt for latency-kritiske flows.

Mekanik: Timing, FIFO og tærskler

NIC'er holder indgående frames i en FIFO-kø og udløser afbrydelser efter to kriterier: efter x modtagne frames eller efter y mikrosekunder. Jeg sætter små tidsvinduer for tjenester med lav latenstid og øger dem for strømme med høj gennemstrømning og store bursts. En kø pr. modtagerkø forbedrer paralleliseringen, mens afbrydelsesmoderation reducerer kerneændringer og gør bedre brug af cachen. Men for høje rx-usecs tilføjer forsinkelse; for lave værdier genererer interruptstorme og presser cachen. Gennemstrømning. Jeg afbalancerer derfor timeout og pakkegrænse i henhold til MTU, rammestørrelse og andelen af små pakker.

Adaptiv moderation og burst-detektion

Adaptiv sammensmeltning tilpasser dynamisk tids- og pakkevinduer til den aktuelle belastning. Jeg bruger det, når belastningsprofilerne svinger meget: Ved en lav pps-hastighed forbliver vinduerne små (lav latenstid); når pps-hastigheden stiger, udvides de (hvilket reducerer belastningen på CPU'en). Fordelen afhænger af driveren: Nogle NIC'er registrerer bursts og øger rx-usecs med kort varsel, andre arbejder med faste niveauer. Jeg tjekker Stabilitet af p99-latency med tilpasning aktiveret; urolige kurver indikerer alt for aggressive spring. For deterministiske tjenester foretrækker jeg at indstille statiske, fint udvalgte tærskler, mens jeg tillader adaptive tilstande i bulk-drift, så længe der ikke er nogen udfald på ringen.

Gennemstrømning versus ventetid: det kontrollerbare kompromis

Forsinkelse falder, når jeg deaktiverer coalescing, men CPU'en arbejder så betydeligt mere og skalerer mindre godt under belastning. Til filoverførsler, streaming eller replikering accepterer jeg en vis forsinkelse, da det øger stabiliteten og nettodurchstrømningen. Til VoIP, spil i realtid eller HFT foretrækker jeg minimal forsinkelse og slår moderation fra. Jeg tjekker også TCP overbelastningskontrol, fordi algoritmer som CUBIC eller BBR har stor indflydelse på opførslen i tilfælde af pakketab, RTT og bursts. Med finjusterede timere, RSS og passende TCP-parametre kan kompromis målbar optimering.

Transmissionssammensmeltning, TSO/GSO/GRO og LRO

Ud over RX er TX-koalescens spiller en rolle: tx-usecs og tx-frames bundter udgående pakker, hvilket sparer kontekstskift og stabiliserer sendingsgennemstrømningen. Jeg bruger moderate tx-usecs til at udjævne masseforsendelser, men holder dem små, hvis korte svar (f.eks. HTTP API'er) skal sendes hurtigt. Offloads som TSO/GSO forstørre segmenter før transmission og reducere antallet af pakker, mens GRO/LRO flette segmenter på RX-siden. Jeg validerer, om GRO/LRO harmonerer med mine middleboxes; for visse firewalls eller capture-krav reducerer jeg LRO for at holde pakkegrænserne synlige. Alt i alt kombinerer jeg TX-coalescing og offloads på en sådan måde, at PPS reduceres, og kernen bruger mindre SoftIRQ-tid uden at forlænge svartiderne unødigt.

NIC-tuning til hosting af servere

RSS (Receive-Side Scaling) fordeler indgående flows over flere kerner og forhindrer, at en enkelt kerne bliver en bremse. Jeg aktiverer RSS og indstiller nok modtagekøer, så CPU'er med flere kerner arbejder effektivt. RSC reducerer også belastningen ved at flette mindre segmenter sammen, hvilket reducerer antallet af pakker i stakken. Til hosting-arbejdsbelastninger kombinerer jeg coalescing med ren MTU-valg, DSCP/QoS-prioritering og CPU-effektprofiler i BIOS, hvor C-states og deep sleep-tilstande ikke øger latenstiden. Jeg tester kombinationerne under spidsbelastninger og tjekker, om IRQ-affinitet og kø-pinning bevarer cache-lokaliteten. Det er sådan, jeg bringer nic tuning hosting og afbryde det samlende netværk.

NUMA, MSI-X og flowstyring

På multi-socket-værter er jeg opmærksom på NUMAMedlemskab: Jeg fastgør modtagekøer til kerner, der er tæt på PCIe-slottet, og placerer tilknyttede arbejdstråde på den samme NUMA-node. MSI-XAfbrydelser tilbyder flere vektorer; jeg bruger så mange som muligt, så hver RX/TX-kø har sin egen afbrydelse, og lock retention reduceres. Derudover hjælper RPS/RFS/XPS, for at dirigere strømme til de „rigtige“ kerner og kontrollere send-tildeling. Jeg måler L1/L2 miss rates og observerer, om trafikken på tværs af kernerne stiger; hvis det er tilfældet, omfordeler jeg køer eller reducerer antallet af køer for at øge lokaliteten.

Parametre og deres effekt (tabel)

Parametre som rx-usecs, rx-frames, RSS-køer og RSC afgør, om jeg foretrækker at minimere latency eller stabilisere throughput. Jeg starter med konservative værdier, måler p99-latency og interrupts pr. sekund og øger derefter forsigtigt tidsvinduerne. Små skridt gør det lettere at tilskrive effekter og forhindre fejlfortolkninger. Hvis bursts dominerer, øger jeg rx-frames en smule og tjekker jitterfordelingen. For blandede arbejdsbelastninger varierer jeg for hver VLAN- eller NIC-profil, så Strømme med forskellige mål optimeres hver for sig.

Parametre	Effekt	Risiko	Velegnet til
rx-usecs (tid)	CPU-Lettelse gennem forsinkelsesvindue	Mere ventetid for korte flows	Høj gennemstrømning, sikkerhedskopiering, replikering
rx-rammer (pakker)	Kombinerer små pakker til én Afbrydelse sammen	Cue-fyldning til udbrud	Mange små pakker, webtrafik
RSS-køer	Skaleret behandling over flere Kerner	Forkert pinning øger trafikken på tværs af kernerne	Multi-core hosts med 10-100 Gbit/s
RSC/RSS aktiv	Mindre pakkebelastning i Stak	Uegnet til ultra-lav latenstid	Hosting, virtualisering, lagring

fortolkningHvis korte flows dominerer, outsourcer jeg effekten til rx-usecs minimum; for masseoverførsler sætter jeg højere værdier og drager fordel af en faldende interrupt rate. Jeg tjekker p95/p99 latency og PPS efter hvert trin for at undgå fejlkonfigurationer. Efterhånden som belastningen stiger, overvåger jeg bløde IRQ-tider og kontekstskift for at sikre, at CPU-tiden flyder derhen, hvor den virkelig gør gavn. Et rent IRQ-affinitetslayout forhindrer vandrende afbrydelser mellem kerner og sparer Cache-hit.

Øvelse: Windows Server og Linux

VinduerI Enhedshåndtering åbner jeg egenskaberne for netkortet, vælger „Avanceret“ og justerer interruptmoderation, RSS og RSC, hvis det er nødvendigt; for hard low-latency sætter jeg moderation til „Deaktiveret“. Jeg indstiller strømprofilerne til høj ydeevne, så C-states ikke øger svartiden. LinuxJeg bruger ethtool til at justere rx-usecs/rx-frames og bruger ethtool -S til at tjekke IRQ- og fejltællerne; irqbalance eller eksplicit affinity pinning tildeler køer til kernerne. For meget små pakker eksperimenterer jeg med GRO/LRO og tjekker, om det er bruger- eller kernestien, der er flaskehalsen. Jeg går mere i dybden med dette emne i min guide til Optimer CPU-afbrydelser, som beskriver målbare trin og modkontroller.

Virtualisering og cloud: SR-IOV, vSwitch og vRSS

I virtualiserede miljøer er Sti af pakkerne den optimale indstilling. Med SR-IOV VF'er omgår vSwitch-overheadet; jeg sætter coalescing op direkte på PF/VF'en og sørger for, at gæsten og værten har lignende politikker. I vSwitch-scenarier (Hyper-V, Open vSwitch) er der yderligere køer og planlæggere involveret; vRSS fordeler belastningen i VM'en på flere vCPU'er. Jeg måler, om coalescingen sker i værten eller i VM'en, og forhindrer dobbeltmoderation med for store vinduer. For NFV/DPDK-arbejdsbelastninger flyttes arbejdet til userspace; jeg justerer polling-budgetterne der og holder kernel coalescing konservativ for ikke at forfalske målingerne.

Måling af ydeevne og telemetri

Måling sikrer enhver optimering, så jeg sporer pps, bytes/s, interrupts/s, SoftIRQ-tider, drops og kø-længde. Jeg sammenligner p50/p95/p99-latency og er opmærksom på burst-adfærd, fordi gennemsnitsværdier maskerer skarpe outliers. For HTTP/2/3 måler jeg forbindelsestæthed, forespørgselshastighed og CPU-tid pr. forespørgsel for at kunne genkende bivirkningerne ved sammenlægning. Storage-noder har gavn af, at jeg ser på iowait, IRQ-belastning og netværkslatens sammen, fordi flaskehalse har en tendens til at flytte sig mellem staklagene. Dashboards med hændelser og implementeringstider hjælper med klart at tildele tuningstrin og stoppe regressioner med det samme.

Tidskritiske protokoller og hardware-tidsstempler

For protokoller med præcis tidsmåling (f.eks. PTP), tjekker jeg, om coalescing påvirker tidsstemplets nøjagtighed. Nogle NIC'er tilbyder hardware-tidsstempler, der indstilles før coalescing - ideelt for målenøjagtigheden. I sådanne tilfælde deaktiverer jeg LRO/GRO og reducerer rx-usecs til et minimum, så latency-varianter ikke forstyrrer tidssynkroniseringen. For deterministiske netværk (TSN) holder jeg energibesparende tilstande flade, indstiller QoS strengt og bekræfter, at ingen køer genererer overløb, der bringer urets stabilitet i fare.

Profiler for arbejdsbelastning: Hvornår skal de aktiveres, hvornår ikke?

Høj gennemstrømningBackups, CDN-oprindelse, objektlagring og VM-replikation har stor gavn af coalescing, fordi CPU'en forstyrres mindre. Webhosting med mange små anmodninger har brug for moderate værdier, kombineret med RSS og god cache-lokalitet. Virtuelle miljøer vinder, når jeg indstiller smarte standardværdier pr. vNIC og isolerer støjende naboer. Til VoIP, spil eller telemetri i realtid deaktiverer jeg moderation eller indstiller meget stramme timere. Målinger i henhold til trafikprofilen er obligatoriske, fordi 10 Gbit/s bulktrafik opfører sig anderledes end 1 Gbit/s API-trafik.

Ringstørrelser, buffere og drop-adfærd

Ud over timere Ringstørrelser (RX/TX-beskrivelser) for at sikre pålidelighed under bursts. Jeg øger RX-descriptors moderat, når korte peaks forårsager drops, og er opmærksom på hukommelsesfodaftryk og cache-fitness. Ringe, der er for store, skjuler problemer, men forlænger ventetiden i pipelinen. Jeg overvåger „rx_no_buffer“, „dropped“ og „overruns“ i statistiktællere og sammenligner tærskler med typiske burst-længder. En fint afbalanceret kombination af rx-frames, rx-usecs og ringstørrelse forhindrer Udbrud føre til tab eller jitter-toppe.

Jitter, pakketab og burst-håndtering

Jitter opstår, når coalescing-vinduet og burst-mønsteret interagerer ugunstigt; jeg kan genkende dette ved brede latenstidsfordelinger. Små timerspring udjævner ofte p99-kurven uden synligt at reducere gennemstrømningen. Hvis NIC'en falder under belastning, indstiller jeg mindre aggressive værdier og tjekker kø-dybden og driverniveauerne. For hjemmesider hjælper det at analysere Netværksjitter, for at gøre render blocking-anmodninger og TLS-håndtryk planlægbare. Endelig tjekker jeg, om QoS-politikkerne adskiller prioritetsklasser på en ren måde og dermed forhindrer kritiske Strømme foretrækker det.

Praktisk tjekliste til tuning

Start med baseline: Jeg registrerer latenstid, pps, afbrydelser/s og CPU-profil før hver ændring. Så aktiverer jeg RSS/RSC, indstiller moderate coalescing-værdier og måler p50/p95/p99 igen. Så øger jeg rx-usecs i små trin, indtil jitter eller p99-latency stiger, og ruller tilbage til det sidste gode punkt. Jeg tildeler køer til faste kerner og overvåger cache-misses; hvis trafikken på tværs af kernerne stiger, justerer jeg affiniteten. Jeg dokumenterer kort hver ændring og sammenligner belastningstoppe, så Stabilitet lider ikke i det skjulte.

Eksempel på startværdier i henhold til linkhastighed

1 Gbit/s: rx-usecs 25-50, rx-frames 8-16, tx-usecs 25-50; få RSS-køer (2-4), fokus på latenstid.
10 Gbit/s: rx-usecs 50-100, rx-frames 16-32, tx-usecs 50-100; 4-8 RSS-køer, GRO on, LRO selective.
25/40 Gbit/s: rx-usecs 75-150, rx-frames 32-64, tx-usecs 75-150; 8-16 cues, NUMA pinning strict, RSC/RSS active.
100 Gbit/s: rx-usecs 100-200, rx-frames 64-128, tx-usecs 100-200; 16-32 cues, udnyt MSI-X fuldt ud, øg ringstørrelserne moderat.

HintDette er konservative indgangspunkter. Jeg optimerer langs p99-latency og drops og overvejer pakkestørrelser (MTU 1500 vs. Jumbo), flowmix og CPU-topologi.

Omkostninger, energi og bæredygtighed

Energi falder, når jeg trykker på afbrydelsesfrekvensen, fordi CPU'en udfører færre kontekstskift og opvågninger. I datacentre løber det op på tværs af mange værter og reducerer mærkbart strøm- og køleomkostningerne. En opgradering til moderne 10/25/40/100G NIC'er med god moderation koster normalt et par hundrede euro, men tjener sig ofte hurtigt ind takket være lavere CPU-tid pr. byte. Jeg tager hensyn til, om licenser, drivervedligeholdelse og overvågning allerede er på plads for at holde driftsomkostningerne nede. For SLA-kritiske tjenester kan det betale sig med et konservativt vindue, som Jitter og sikrer brugeroplevelsen.

Fejlfinding og anti-mønstre

Vis målinger Afbryd storme, Jeg reducerer RSS-køer eller øger rx-usecs en smule. Ved „vaklende“ latenstidskurver deaktiverer jeg adaptiv moderation som en test. Hvis der sker udfald på trods af høje CPU-reserver, tjekker jeg ringstørrelser, firmwareversion og PCIe link state power management. En klassiker: meget høj coalescing + GRO/LRO active maskerer pakketab i p50, mens p99 lider - jeg rebalancerer derefter rx-frames og forkorter rx-usecs. Med værter med flere lejere forårsager „støjende naboer“ en ujævnt fordelt IRQ-belastning; jeg bruger hårde affinitetsmasker og QoS-klasser til at undgå kritiske IRQ'er. Strømme for at beskytte dem. Vigtigt: Udrul altid ændringer enkeltvis, og test dem mod identiske belastningsprofiler for klart at kunne adskille årsag og virkning.

Resumé: Hurtigere, glattere, mere forudsigelig

KerneidéInterrupt coalescing reducerer interferens, fordeler arbejdet mere intelligent og øger nettogennemstrømningen, så længe jeg indstiller timere og pakkegrænser på en målrettet måde. For tjenester med høj gennemstrømning vælger jeg mere generøse vinduer, for realtidstjenester minimerer eller deaktiverer jeg moderation. Jeg udnytter fuldt ud multi-core CPU'er med RSS, RSC, MTU-disciplin og ren IRQ-affinitet. Målinger med p95/p99, interrupts/s og SoftIRQ-tider sikrer enhver ændring og forhindrer fejlfortolkninger. Så min Netværk stille under belastning, reagerer hurtigt og leverer forudsigelige ventetider for hosting og applikationer.