Servrar och virtuella maskiner

Minnesfragmentering vid serverdrift: orsaker och lösningar

Minnesfragmentering i serverdrift innebär att stora, sammanhängande block inte längre är tillgängliga trots ledigt RAM-minne och att kritiska allokeringar misslyckas. Jag visar orsaker, typiska symptom och riktade motåtgärder så att Server på ett beräkningsbart sätt och allokeringarna kan göras på ett tillförlitligt sätt funktion.

Centrala punkter

Internt och extern Differentiera och specifikt ta itu med fragmentering.
Buddy-fördelare förstå: Order, uppdelningar, saknade sammanslagningar.
LängdskidåkareStäll in arbetsbelastningar, hypervisor-överhead och THP korrekt.
Diagnos med mätvärden för buddyinfo, vmstat och komprimering.
Fördelningsmönster förbättra: Pooler, förhandstilldelning, separata livstider.

Vad innebär minnesfragmentering i den dagliga serveranvändningen?

Jag kallar det för Minne Fragmentering är ett tillstånd där det lediga arbetsminnet bryts upp i många små luckor och stora förfrågningar inte längre får en sammanhängande yta. Intern fragmentering uppstår när ett allokerat block är större än det faktiska behovet och oanvända byte lämnas kvar i blocket, vilket kan leda till Effektivitet reduceras. Extern fragmentering uppstår när fria sektioner fördelas och inte längre samlas för att bilda ett stort område, även om det finns tillräckligt med ledigt RAM-minne totalt sett. Det är just här som stora buffertar, JIT-reservationer eller drivrutiner som gynnar sammanhängande minne misslyckas på grund av den till synes paradoxala bristen på stora block. I hostingmiljöer förvärras problemet av hög parallell belastning, långa drifttider och heterogena programvarustackar. Dynamik märkbar.

Hur Linux-buddy-allokering skapar fragmentering

Linux-kärnan hanterar det fysiska minnet via en Kompis-allokering, som organiserar sidor i storleksklasser (ordningar), med början på 4 KB. Om processer begär större områden delar kärnan upp stora block i buddies tills en lämplig storlek finns tillgänglig; vid frigöring försöker den återförena buddies. Olika längder på begäran, varierande livslängd och ojämn frigöring förhindrar dock återförening och uppmuntrar till extern Fragmentering. Med tiden töms lagret av stora ordrar, medan små ordrar sväller - /proc/buddyinfo visar då höga siffror i låga ordrar och nollor i höga ordrar. Från denna punkt och framåt ingriper komprimering och eventuellt OOM-beteendet oftare, vilket skapar latenser och ökar störningarna.

Orsaker i hosting- och virtualiseringsmiljöer

Långvariga arbetsbelastningar på webben och i databaser skapar ett varierande mönster av allokeringar som bryter upp stora block och möjliggör senare Sammanslagning förhindras. Ramverk och bibliotek som frigör minne sent eller på ett okoordinerat sätt lämnar luckor där endast små förfrågningar kan tillgodoses. Virtualisering lägger till sin egen overhead och flyttar allokeringar till gästen och hypervisorn, vilket innebär att externa Fragmentering skapas snabbare. Felaktigt inställda vm.min_free_kbytes-värden ökar trycket eftersom kärnan har för få buffertar för atomära allokeringar eller överreserverar dem. Mer transparens om Virtuellt minne hjälper mig att organisera interaktionen mellan gästallokering, THP, Huge Pages och hypervisor på ett snyggt sätt.

Effekter på prestanda och användarupplevelse

Om lagringstanken är uppdelad i många små öar, är Fördröjningar, eftersom kärnan komprimerar och skiftar oftare innan den kan hantera stora förfrågningar. Applikationer som kräver kontinuerliga områden - t.ex. databaser, cacher eller multimediapipelines - vacklar snabbare. Trots „gratis“ RAM misslyckas stora allokeringar och genererar felmeddelanden, omstarter eller hårda avbrott, vilket kan orsaka sessioner och Transaktioner försämrad. Bakgrundsaktiviteter som komprimering ökar CPU-belastningen och I/O-trycket, vilket gör att även annars lätta arbetsbelastningar verkar långsammare. I hostingscenarier yttrar sig detta i långa svarstider, sporadiska timeouts och sämre skalning under toppbelastningar.

Diagnostik: Från buddyinfo till komprimeringsmätningar

Jag kontrollerar först /proc/buddyinfo för att se vilka Beställningar vmstat och sar visar hur ofta kärnan komprimerar eller om OOM-vägen har blivit aktiv, vilket indikerar tryck från stora allokeringar. Jag använder perf och strace för att se om trådar väntar på direkt komprimering och därför fluktuerar svarstiderna, vilket märks i loggar och mätvärden. I miljöer med Windows-servrar visualiserar jag fragmenterade heaps med felsökningsverktyg för att kontrollera om det finns stora luckor och finjustera heap-parametrarna. justera. Jag mäter också det största lediga blocket, eftersom summan av lediga RAM-minnen inte är tillräcklig som diagnos.

Kernel- och VM-tuning i praktiken

Jag ställer in vm.min_free_kbytes måttligt högre, ofta i korridoren 5-10 % RAM, så att kärnan har stora, atomära Förfrågningar kan användas på ett tillförlitligt sätt. Jag aktiverar transparenta stora sidor med försiktighet: antingen on-demand eller via madvise, beroende på belastningsprofil och fragmenteringsrisk. Statiska stora sidor erbjuder förutsägbarhet, men kräver ordentlig planering för att inte orsaka problem någon annanstans. Flaskhalsar för att skapa ordning. Komprimering skapar ordning på kort sikt, men ersätter inte en strukturell lösning för permanenta, instabila mönster. Jag inkluderar NUMA-topologier i tuningen så att stora allokeringar förblir lokala och inte sprids över noderna.

Inställning	Mål	Förmån	Ledtråd
vm.min_fria_kbytes	Reserv för stora tilldelningar	Färre toppar för OOM/komprimering	Öka gradvis och mät värdet
THP (på/avråda)	Föredrar större sidor	Mindre fragmentering, bättre TLB-frekvens	Var uppmärksam på latenstider för arbetsbelastning
Stora sidor (statisk)	Reservera sammanhängande områden	Förutsägbara stora block	Planera kapaciteten i förväg
Komprimering	Samla ihop fria ytor	Tillfälligt större block	Ökar CPU/I&O på kort sikt
NUMA-Policy	Säker lokal tilldelning	Lägre latens, mindre korsande trafik	Konfigurera balansering

Lagringszoner, migreringstyper och varför „unmovable“ blockerar allt

Sidallokeringen fungerar inte bara med order, utan även med Zoner (DMA, DMA32, Normal, Flyttbar) och Migrera typer (FLYTTBAR, EJ FLYTTBAR, ÅTERVINNINGSBAR). Granulerna för detta är „pageblocks“. Så snart sidor som inte kan flyttas (t.ex. kärnstrukturer, sidor som drivrutiner har fäst) hamnar i ett pageblock, markerar kärnan detta block som svårt att flytta. Det är just dessa „kontaminerade“ block som hindrar Compaction från att kombinera fria områden till stora sammanhängande Områden former. Jag planerar därför medvetet kapacitet i ZONE_MOVABLE (där det är möjligt) och ser till att applikationsdata huvudsakligen allokeras som MOVABLE. Detta innebär att stora, sammanhängande reserver är mer sannolika att förbli tillgängliga. För arbetsbelastningar med höga DMA-krav använder jag riktade reservationer så att UNMOVABLE-sidor inte förstör den breda normalzonen.

Ren design av tilldelningsmönster

Jag grupperar lagringskrav enligt Livslängdkortlivade objekt i pooler, långlivade objekt i separata regioner så att utgåvor inte river upp allt över hela linjen. Jag grupperar frekventa storlekar i fasta pooler för att minska orderfluktuationer och avlasta buddy-allokatorn. Jag förplanerar stora buffertar i början istället för att begära dem mitt i trafiken, vilket undviker belastningstoppar när man drar ihop sig. Jag anpassar alignment-begäranden till verkliga behov, eftersom överdrivna alignments slösar utrymme och uppmuntrar till interna Fragmentering. I build- och deploy-pipelines testar jag lagringsvägar med belastningsscenarier innan trafiken kommer live.

Val av allokator i användarutrymmet: glibc, jemalloc, tcmalloc

Inte all fragmentering är ett kärnproblem. Det är Användarutrymme-allokatorn har ett stort inflytande på det mönster som buddy-allokatorn ser i slutet. glibc malloc använder arenor per tråd; på många kärnor kan detta leda till hög intern fragmentering. Jag begränsar antalet arenor och trimmar mer aggressivt så att oanvända områden flyter tillbaka till operativsystemet snabbare. Alternativ som jemalloc eller tcmalloc erbjuder finare storleksklasser och mer konsekventa delningsmönster, vilket märkbart kan minska den externa fragmenteringen. Den avgörande faktorn är: Jag mäter under produktionsbelastning eftersom varje allokeringsprogram har olika kompromisser när det gäller latens, genomströmning och minnesavtryck. För tjänster med hög genomströmning och enhetliga objektstorlekar ger dedikerade arenor eller slab-liknande pooler ofta den mest stabila prestandan. Fördröjningar.

Åtgärder på applikationssidan: Java, PHP, cacheminnen och databaser

I Java använder jag Arenor eller regionallokering och väljer GC-profiler som gynnar stora, sammanhängande reservationer istället för att ständigt bryta upp heapen i småbitar. Jag balanserar Xms/Xmx så att heapen inte ständigt växer och krymper, eftersom denna pumpning uppmuntrar till hål. För PHP- och MySQL-stackar använder jag fasta minnespooler, begränsar överdimensionerade objekt och optimerar buffertstorlekar i syfte att uppnå konsekventa allokeringsmönster. PHP/MySQL-optimering. Jag organiserar cachelagringssystem (t.ex. objekt- eller sidcacher) för enhetliga chunkstorlekar så att releaser inte lämnar stora luckor. Om inget annat hjälper planerar jag kontrollerade omstarter i underhållsfönster i stället för att riskera oplanerade OOM-händelser som kan leda till att hela systemet kraschar. Tjänster för att avbryta.

Container- och Kubernetes-rutiner

Containrar ändrar inte funktionaliteten hos Kompis-allokatorer - de segmenterar bara vyer och gränser. Fragmentering förblir därför en värdfråga, men manifesterar sig i pods genom utvisningar, fluktuerande latenser eller THP-splittringskostnader. Jag uppnår stabilitet genom att:

Ställ in QoS-klasser (Guaranteed/Burstable) så att kritiska pods får fasta reserver och inte växer och krymper samtidigt.
minnesgränser på ett realistiskt sätt, så att trimning och återanvändning inte permanent bryter mot hårda Gränser kollidera.
THP/Hugepages är konsekvent värdomfattande och ger pods som behöver stora sidor statiskt reserverade pooler.
Använd uppvärmningsstrategier (pre-faulting, pre-allocation) så att stora block tas i anspråk tidigt och inte efterfrågas senare under belastning.

Jag övervakar containeriserade noder som bara metall: buddyinfo, komprimeringshändelser, OOM-dödar - men jag korrelerar också med pod-omstart och utvisningar för att skilja orsaken rent.

Virtualisering, NUMA och påverkan på hårdvaran

Bland hypervisorerna kontrollerar jag hur gästallokering, ballooning och värd-THP samverkar eftersom skiktning kan öka fragmenteringen och skapa stora Block gör den knapp. Jag observerar konsekvent NUMA-topologier: lokal allokering minskar latensen och förhindrar att stora förfrågningar distribueras över noder och därför blir mindre. Där det är meningsfullt kopplar jag arbetsbelastningar till NUMA-noder och observerar effekten på sidfel och TLB-träffar. För finare kontroll sätter jag riktlinjer för lagringsnoder och drar NUMA-balansering på ett målinriktat sätt. Jag inkluderar även uppdateringar av firmware och mikrokod så att jag kan utesluta oväntade biverkningar och säkerställa förutsägbarhet med stora Krav och önskemål ta emot.

Device driver, DMA och CMA

Förare som är fysiskt sammanhängande områden (t.ex. vissa DMA-motorer, multimedia, inspelningskort) förvärrar den externa fragmenteringen. Här planerar jag att använda CMA (Contiguous Memory Allocator) eller reservera stora block tidigt i startprocessen. Detta förhindrar att många små allokeringar „gnager“ på adressrymden innan drivrutinen får sina buffertar. Samtidigt isolerar jag pinned pages (t.ex. med hjälp av RDMA/DPDK) från det allmänna applikationsminnet så att deras UNMOVABLE-karaktär inte gör hela pageblock oanvändbara. Jag bör också kontrollera om IOMMU-konfigurationerna virtualiserar större, icke sammanhängande områden tillräckligt - annars behöver jag specifika reserver och tydliga tidsgränser. Fönster för dessa tilldelningar.

Driftsrutiner: smart användning av övervaknings- och underhållsfönster

Jag bäddar in ögonblicksbilder av buddyinfo, komprimeringsräknare och OOM-händelser i min Övervakning, för att se trender istället för enskilda händelser. Jag minskar rullande driftsättningar så att minnesfluktuationer koncentreras till tidsfönster och resten av veckan går smidigare. Under underhållsfönster utlöser jag manuellt komprimering vid behov, rensar upp i cacheminnet och startar om tjänster innan fragmenteringen orsakar produktiva problem. Jag korrelerar loggar och mätvärden med trafiktoppar för att känna igen återkommande mönster och justerar buffertarna därefter. Vid större förändringar testar jag först i staging så att jag inte upptäcker några överraskande förändringar. Biverkningar i skarp drift.

Runbook: När stora allokeringar misslyckas idag

Om det finns akuta felmeddelanden „order X allokering misslyckades“, arbetar jag i tydliga steg:

Lägesbild: Spara buddyinfo, kontrollera vmstat (allocstall/compact), sök i dmesg efter Compaction/OOM-poster. Uppskatta det största lediga blocket (högsta ordningen med >0).
Kortsiktig lättnad: Pausa icke-kritiska tjänster, stryp belastningen, rensa cacheminnen på ett målinriktat sätt. Utlösa komprimering manuellt och avaktivera THP Defrag tillfälligt om det orsakar skada.
Riktad avspärrning: Återuppbygga stora, sammanhängande buffertar i definierade tjänster (kontrollerad omstart) innan nästa topp inträffar.
Öka reserven: vm.min_free_kbytes och vattenstämpel noggrant för att säkra atomära tilldelningar under de närmaste timmarna; effekter snäva Monitor.
Permanent åtgärd: Korrigera allokeringsmönster, introducera pooler, flytta förallokering till början, kontrollera NUMA-lokalisering och justera THP/Huge Pages korrekt.

Mätbara variabler, SLO:er och larm

Jag mäter inte bara RAM-totaler, utan definierar också SLO:er för allokeringsbarhet: „högsta ordning med tillgänglighet“, „tid till framgångsrik stor allokering“, „procentuell stallprocent för komprimering“. Från detta härleder jag larm som slår till tidigt, innan användarna ser timeouts. Användbara nyckeltal inkluderar

Antal fria block i höga ordrar (t.ex. ≥ Order-9) per minut.
Frekvens och varaktighet av väntetider för direktkomprimering eller återvinning.
Andel sidor som kan fästas/inte fästas i förhållande till det totala minnet.
Framgångsgrad för stora tilldelningar i belastningstester och efter driftsättningar.

Jag kopplar dessa mätvärden till releasetider, trafiktoppar och konfigurationsändringar. På så sätt känner jag igen mönster enligt vilka jag proaktivt kan skala eller flytta fram tilldelningsfönstret.

Kapacitetsplanering och kostnadsmedvetenhet

Jag beräknar lagringsmarginalerna på ett sådant sätt att både Normal drift och underhållsfaser med ökade tilldelningar är ordentligt täckta. Istället för att uppgradera över hela linjen kontrollerar jag först provkorrigeringar, eftersom bra tuning ofta ger mer än extra RAM. När jag utökar kapaciteten planerar jag in reserver för THP/stora sidor så att stora sidor inte kolliderar med applikationstoppar. Konsolidering på färre men kraftfullare värdar kan minska fragmenteringen, förutsatt att jag ställer in NUMA och allokeringsprofiler på rätt sätt. Slutsatsen är att jag sparar kostnader i euro när jag minskar fragmenteringen eftersom jag minskar CPU-topparna och I/O-belastningen och använder licenserna mer effektivt. användning.

Kortfattat sammanfattat

Minnesfragmentering uppstår när många allokeringar av olika längd och storlek länkas samman. Områden och stora förfrågningar som sedan inte leder någon vart. Jag löser problemet på tre fronter: Kernel/VM-tuning (vm.min_free_kbytes, THP/Huge Pages), bättre allokeringsmönster (pooler, förallokering, separata livstider) och ren drifthantering (övervakning, schemalagd beskärning, NUMA-disciplin). Jag förlitar mig på /proc/buddyinfo, komprimeringsräknare och mätning av det största fria blocket för diagnostik, eftersom rena RAM-totaler är bedrägliga. Jag ägnar särskild uppmärksamhet åt virtualisering och hypervisorer så att gäst och värd inte motarbetar varandra och stora Block reserverade i ett tidigt skede. Kombinationen av dessa byggstenar ökar förutsägbarheten, förhindrar fel på grund av OOM och ger snabbare svar - särskilt när trafik och data växer.