Серверы и виртуальные машины

Буферы серверных сокетов в хостинге: оптимизация пропускной способности и задержки

Буферы сокетов в хостинге определяют, сколько данных временно хранит TCP-соединение между сервером приложений и клиентом и как быстро приходят ответы. Я покажу вам, как установить размер буфера таким образом, чтобы увеличить пропускную способность и уменьшить задержку без лишних затрат. RAM впустую.

Центральные пункты

Размер буфера Выравнивание в соответствии с пропускной способностью и RTT
стек TCP и контроль перегрузок
Измерение с помощью iperf/netperf перед каждым изменением
Параметры ядра Постепенно увеличивать
Безопасность через ограничения скорости и файлы SYN cookie

Что делают буферы сокетов в хостинге

Я вижу буферы сокетов как Отправить- и буферы приема, которые сглаживают потоки TCP и уменьшают количество повторных передач. Маленькие буферы заставляют TCP выполнять частые атаки и сегменты, что замедляет пропускную способность и увеличивает нагрузку на центральный процессор. Слишком большие буферы потребляют много Память и может задерживать акки, что приводит к пикам задержки. В центрах обработки данных со скоростью передачи данных 10 Гбит/с и более стандарт часто оказывается недостаточным, поскольку окно TCP остается слишком маленьким. Согласованное окно позволяет передавать большие потоки данных, что заметно ускоряет передачу больших файлов и ответов API.

Правильный размер: формула и практика

Я определяю размеры буферов с помощью простого соотношения Полоса пропускания × RTT ÷ 8; при скорости 10 Гбит/с и RTT 10 мс в итоге получается около 12,5 МБ на направление. На практике я начинаю с меньшего, около 1-4 МБ, а затем шаг за шагом проверяю, как ведут себя пропускная способность и RTT. Точные значения зависят от пути задержки, потерь пакетов и нагрузки, поэтому я проверяю каждое изменение с помощью нагрузочных тестов. Для постоянных настроек ядра я использую sysctl и сохраняю конфигурацию чисто документированной, см. мою краткую ссылку на Настройка sysctl в Linux. Таким образом, я нахожу точку, в которой увеличение буфера не приносит дополнительной пользы и я могу использовать Сладкое место встретиться.

Стеки TCP и управление перегрузками

Я сочетаю подходящие Алгоритмы КК с разумными значениями буфера, поскольку оба параметра вместе определяют управление окном. TCP CUBIC часто гармонирует с типичными задержками DC, в то время как BBR проявляет себя при более длительных RTT и незначительных потерях. Масштабирование окон более эффективно использует большие буферы, если только приложение само не заставляет использовать маленькие куски. Если вы хотите сравнить стек более глубоко, вы можете найти подробную справочную информацию об этом в моей ссылке на Управление перегрузками TCP. Это по-прежнему важно: Я никогда не меняю все регулировочные винты сразу, чтобы видеть влияние каждого из них. Параметры распознать чистоту.

Измерения: тестирование пропускной способности и задержки

Без измерений я остаюсь слепым, поэтому я использую iperf, netperf и журналы сервера для TTFB, RTT и ретрансляции. Я тестирую в режиме ожидания и под реальной нагрузкой, чтобы распознать всплески, очереди и джиттер. Более короткие RTT быстро становятся очевидными, если буферные акки не задерживаются искусственно, а сегментация падает. Помимо сети, я измеряю загрузку процессора, IRQ и контекстные переключения, потому что узкие места редко возникают только из-за буферов. Чистое сравнение "до" и "после" уменьшает количество догадок и в конечном итоге позволяет сэкономить немало средств. Время.

Параметры	Типичные значения по умолчанию	Начальные значения (пример)	Эффект в хостинге
net.core.rmem_max	212,992 B	16 777 216 Б (16 МБ)	Увеличивает Получить-Буфер для высокой пропускной способности
net.core.wmem_max	212,992 B	16 777 216 Б (16 МБ)	Расширяет Отправить-Буфер для больших кусков
net.ipv4.tcp_rmem	4096 87380 16777216	4096 262144 16777216	Динамическое управление окнами с Масштабирование
net.ipv4.tcp_wmem	4096 65536 16777216	4096 262144 16777216	Увеличение буфера передачи для серийной передачиТрафик
net.core.somaxconn	128	4096-16384	Уменьшает потери при атаках на соединение

Автонастройка и динамические окна

Я использую встроенную автонастройку стека Linux (включая tcp_moderate_rcvbuf) вместо глобального применения фиксированных размеров. Ядро динамически масштабирует буферы приема до tcp_rmem[2] и адаптирует их к потерям, RTT и доступной памяти. На стороне отправки TCP Small Queues (TSQ) ограничивает чрезмерно большие очереди для поддержания темпа и справедливости. Для меня важно установить достаточно высокие максимальные значения, но выбрать уровень по умолчанию, чтобы соединения не начинались с чрезмерно большими буферами. Я использую переопределения для каждого сокета только в тех случаях, когда приложение имеет четко определенные профили (например, видео на большие расстояния), чтобы автонастройка дополнительно оптимизировала широкую массу.

Планирование емкости: соединения и оперативная память

Большее количество буферов на сокет означает больше RAM-давление. Поэтому я планирую консервативно: для каждого активного соединения я рассчитываю буфер отправки+получения и накладные расходы на метаданные (SKB), которые в реальных условиях часто составляют 1,3-2× чистого размера буфера. При 100 тыс. одновременных сокетов и потребности в 1 МБ эффективного буфера на каждый, мы быстро говорим о >100 ГБ, что характеризует топологию NUMA и риски OOM. tcp_mem и net.core.optmem_max помогают установить глобальные верхние границы. В то же время я увеличиваю ulimit -n, слежу за /proc/net/sockstat и обращаю внимание на ограничения эфемерных портов и файловых дескрипторов. Это не позволяет оптимизированным буферам стать узким местом в памяти во время пиков нагрузки.

Серверы приложений и большие ответы

Я убедился, что NGINX/Apache и PHP-FPM не используются в крошечных куски потому что это запускает TCP без необходимости. Большие статические тела выигрывают от использования sendfile и разумного сжатия GZIP, пока загрузка процессора остается на уровне. Для API больший буфер отправки повышает вероятность быстрой передачи полных кадров по конвейеру. TTFB часто уменьшается, потому что ядро может предложить больше данных за один цикл, и приложение видит меньше времени ожидания. Я всегда проверяю tcp_nodelay и tcp_nopush в контексте рабочей нагрузки, чтобы минимизировать задержки и Пропускная способность гармонично сбалансированы.

Опции для каждого сокета в приложении

Для путей с задержкой я использую TCP_NODELAY, если небольшие, критичные по времени записи (например, ответы RPC) не должны ждать дальнейших данных. Для массовых передач в Linux я предпочитаю использовать TCP_CORK (эквивалент tcp_nopush), чтобы стек объединял сегменты до тех пор, пока не будет доступен значимый блок. Я использую TCP_NOTSENT_LOWAT для контроля количества неотправленных данных в ядре, при превышении которого приложение дросселирует дальнейшую запись - полезно для раннего срабатывания обратного давления. Я активирую QUICKACK только на короткое время после взаимодействия, чтобы заставить быстро выполнять ack-последовательности. Потоки WebSockets и gRPC выигрывают, когда я использую пакетную запись в приложении вместо отправки множества мини-кадров, которые излишне нагревают буфер и IRQ-тракт.

HTTP/2, HTTP/3 и потоковые модели

В HTTP/2 на TCP-соединении присутствует несколько потоков - это хорошо для head-of-line на уровне приложений, но HOL сохраняется в TCP в случае потерь. Большие буферы отправки с хорошим распределением времени помогают эффективно заполнять cwnd и устанавливать приоритеты без ухудшения задержки небольших потоков. Я слежу за тем, чтобы серверная приоритизация не приводила к голоданию небольших интерактивных потоков. HTTP/3/QUIC работает по UDP и имеет свои собственные буферные пути; однако основные принципы, такие как BDP-ориентированные окна, темп и восстановление потерь, остаются схожими. В смешанных стеках я слежу за буферами TCP и UDP, чтобы один протокол не вытеснил другой в памяти.

NUMA, THP и пути хранения данных

Я вывожу процессы на многосокетные машины NUMA-узлов, чтобы буферы выделялись локально и уменьшалась межузловая задержка. numactl помогает разместить рабочие устройства и обращения к памяти на одном узле. Я отключаю Transparent Huge Pages, если фрагментация или задержки становятся заметными. Согласованная политика работы с памятью не позволяет сетевым потокам обращаться к удаленным банкам, а кэшам - оставаться холодными. Это обеспечивает приложению надежный путь передачи данных с коротким Время выполнения.

Хранение, кэш страниц и ожидание ввода-вывода

Я сочетаю большие чистые буферы с NVMe-хранилище и много оперативной памяти, чтобы кэш страниц обеспечивал попадания. Я постоянно избегаю свопинга, потому что каждый своп увеличивает время отклика в разы. Я обращаю внимание на коэффициент загрязнения и интервалы между промывками, иначе записи накапливаются и блокируют нагрузку на чтение. Мониторинг с помощью sar, perf и Prometheus показывает, блокирует ли ожидание ввода-вывода или нагрузка на IRQ. Самый лучший сетевой буфер не принесет пользы, если хранилище замедляется под нагрузкой, а процессор в Подождите зависает.

Оптимизация сетевой карты и прерывания

Я установил сетевую карту на Прерывание-модерация, чтобы не отправлять все подряд на центральный процессор. Масштабирование на стороне приема распределяет потоки по ядрам, а RPS/RFS улучшает распределение процессора. Я использую GRO/LRO и разгрузку контрольных сумм специально, когда они снижают нагрузку на стек, не вызывая задержек. Если вы хотите углубиться в контексты IRQ, вы можете найти практические советы на сайте Коалесценция прерываний. Привязывая IRQ к нужным ядрам, я предотвращаю дорогостоящие Крест-NUMA прыгает.

Очереди, AQM и темп работы

Я предпочитаю современную дисциплину очередей на выходе с темпом, например fq или fq_codel, чтобы потоки обрабатывались справедливо, а всплески сглаживались. BBR особенно выигрывает, если ядро отправляет данные на основе темпа и не проталкивает большие куски в сетевую карту неконтролируемым образом. На путях с буферной прослойкой я использую активное управление очередью, чтобы поддерживать стабильную задержку даже под нагрузкой. ECN может помочь подать ранний сигнал о перегрузке; однако я проверяю, пропускают ли промежуточные устройства ECN без помех. Я также слежу за MTU и PMTU: Я использую tcp_mtu_probing, чтобы реагировать на черные дыры, а TSO/GSO/GRO разгружают путь процессора, не ухудшая динамику обхода.

Backlog, somaxconn и connection flood

Я увеличиваю somaxconn и бэки серверов приложений, чтобы короткие волны не приводили к ошибкам подключения, и Капли Кольца accept() и рабочие, управляемые событиями, поддерживают движение по пути принятия. Балансировщики на входе должны эффективно связывать проверки здоровья, чтобы они сами не становились узким местом. Что касается TLS, то я уделяю внимание повторному использованию сессий и современным шифрам, чтобы рукопожатия занимали меньше процессора. Благодаря этому очередь становится короче, и приложение может быстро обрабатывать каждый входящий поток. работать.

Передачи и жизненный цикл соединения

Я устанавливаю tcp_keepalive_time/-intvl/-probes так, чтобы мертвые соединения распознавались быстро, не сжигая лишнюю полосу пропускания. В высокодинамичных средах я сокращаю tcp_fin_timeout, чтобы ресурсы освобождались быстрее. Я защищаю TIME-WAIT, а не „оптимизирую“ его: хаки повторного использования редко приносят реальные преимущества, но они ставят под угрозу корректность. Для длинных потоков опроса и HTTP/2 я устанавливаю таймауты на стороне приложения, чтобы буферы не оставались на забытых сессиях. Это позволяет сохранить буферы доступными для активных потоков, а серверы остаются отзывчивыми.

Безопасность и устойчивость к DoS

Я никогда не должен рассматривать большие буферы в отдельности, потому что они увеличивают площадь атаки для DoS расширить. Ограничение скорости на уровне IP/пути и SYN-куки замедляют нежелательные наводнения. WAF должен выбирать глубину проверки в соответствии с трафиком, чтобы не создавать задержек. Лимиты Conntrack, ulimit и квоты на каждый IP защищают ресурсы от исчерпания. Это позволяет сохранить скорость работы сервера, даже если Буферы больше по размеру.

Контейнеры и виртуализация

В контейнерах я обращаю внимание на то, какие sysctls работают в пространстве имен: многие сетевые параметры являются общими для хоста, другие требуют определенных sysctls или привилегий для pod. В Kubernetes я устанавливаю разрешенные Sysctls и SecurityContexts или настраиваю узлы через DaemonSet. Лимиты Cgroups (память/CPU) не должны пересекаться с большими буферами сокетов, иначе есть риск OOM-киллов во время пиков нагрузки. В виртуальных машинах я проверяю соотношение virtio-net и SR-IOV/Accelerated-Networking, распределение IRQ и коалесцирование в гипервизоре. Время кражи и точность таймера влияют на темп работы; я выбираю стабильные источники синхронизации и измеряю джиттер в явном виде.

Оперативная наблюдаемость

В повседневной жизни я полагаюсь не только на графики пропускной способности. Я использую ss -m/-ti для просмотра буферов на сокет, чтения счетчиков /proc/net/sockstat и netstat/nstat, исправления ретрансмитов, OutOfOrder, RTO и падений при прослушивании. ethtool -S показывает мне ошибки сетевой карты и баланс очередей, ip -s связывает падения на выходе/ингрессе. Я использую perf, eBPF/bpftrace и ftrace для мониторинга tcp_retransmit_skb, орбит skb и горячих точек SoftIRQ. Я привязываю предупреждения к SLO, таким как P50/P95 TTFB, падения темпа, скорость ретрансляции и загрузка бэклога. Таким образом, я заранее замечаю, что якобы небольшое изменение буфера приводит к побочным эффектам.

Практическое руководство: Шаг за шагом

Я начинаю с анализа состояния: RTT, пропускная способность, ретрансляции и TTFB, и профили процессора и IRQ. Затем я устанавливаю rmem_max/wmem_max на 16 МБ, умеренно увеличиваю tcp_rmem/tcp_wmem и перезагружаю sysctl. Затем я запускаю нагрузочные тесты и оцениваю, использую ли я большую пропускную способность и остается ли RTT стабильным. Если необходимо, я увеличиваю пропускную способность с шагом 1-2 МБ и одновременно слежу за количеством памяти и сокетов. Наконец, я замораживаю хорошие значения, документирую изменения и планирую регулярные обновления. Отзывы, потому что схемы движения меняются.

Краткое резюме

Специально установленные буферы сокетов увеличивают Пропускная способность, уменьшить RTT и снизить нагрузку на процессор. Я определяю целевое значение на основе пропускной способности и RTT и проверяю каждый шаг с помощью нагрузочных тестов. Согласованный стек TCP, оптимизированные прерывания сетевой карты и быстрый путь к хранилищу завершают результат. Я использую sysctl, чтобы поддерживать параметры ядра в рабочем состоянии и видеть их с помощью протоколирования. Таким образом, я добиваюсь надежной быстрой доставки на хостинг, где пользователи ощущают заметно меньшее время загрузки и лучший пользовательский опыт. постоянная Опыт работы.

Текущие статьи

Глобальная сеть anycast DNS с подключенными центрами обработки данных

веб-хостинг

DNS resolver anycast сети в хостинг использования

Узнайте, как anycast DNS resolvers обеспечивают низкую задержку dns в хостинге и почему распределенный dns-хостинг повышает производительность и доступность современных веб-сайтов.

Май 26, 2026 Комментариев нет

Серверные стойки в центре обработки данных с визуализацией динамического распределения оперативной памяти

Серверы и виртуальные машины

Раздувание памяти сервера в средах виртуализации - наглядное объяснение

Узнайте, как работает раздувание памяти сервера, какие преимущества оно дает и как можно создать стабильную и высокопроизводительную среду виртуализации с ключевым словом memory ballooning vm.

Май 18, 2026 Комментариев нет

Центр обработки данных с серверами баз данных и разделенной кластерной архитектурой

Базы данных

Понимание согласованности репликации баз данных и Split-Brain в кластерах MySQL

Узнайте, как обеспечить согласованность репликации баз данных и избежать опасных сценариев "раздвоения мозга" в MySQL и кластерных установках.