サーバーと仮想マシン

ホスティングにおけるサーバーソケットバッファ：スループットとレイテンシーの最適化

ソケット・バッファ ホスティングのバッファサイズは、アプリサーバーとクライアント間のTCP接続が一時的に保存するデータ量と、応答が到着するまでの時間を決定します。スループットが向上し、レイテンシが減少するようにバッファサイズを設定する方法を、不要な RAM 無駄にする.

中心点

バッファサイズ 帯域幅とRTTに応じて整列する
TCPスタック および輻輳制御
測定各変更の前に iperf/netperf を使用する。
カーネルパラメータ 徐々に増やす
セキュリティ レート制限とSYNクッキーによる

ホスティングにおけるソケットバッファの役割

ソケットバッファは送信- バッファは、TCPフローをスムーズにし、再送を減らします。バッファが小さいと、TCPは頻繁にackやsegmentを行うことになり、スループットが低下し、CPUへの負荷も大きくなります。大きすぎるバッファは、多くの時間を消費します。 メモリ を遅延させ、待ち時間のピークを引き起こす可能性がある。10Gビット/秒以上のデータセンターでは、TCPウィンドウが小さすぎるため、標準では不十分なことが多い。ウィンドウを調和させることで、より大きなデータトレインが可能になり、大容量ファイルやAPIレスポンスの転送が大幅に高速化されます。.

適切なサイズ：公式と実践

単純な関係でバッファーの寸法を決める 帯域幅 × 10Gbit/s、10ms RTTの場合、1ディレクションあたり約12.5MBになる。実際には、1～4MB程度と少なめから始めて、スループットとRTTがどうなるかを段階的にチェックします。正確な値は、レイテンシー経路、パケットロス、作業負荷に依存するので、すべての変更を負荷テストで検証します。持続的なカーネルの調整にはsysctlを使い、コンフィギュレーションをきれいに文書化しています。 Linuxのsysctlチューニング. .だから、バッファを増やしても追加的な利点がない時点で、私は スイートスポット に会う。

TCPスタックと輻輳制御

適切なものを組み合わせる CCアルゴリズム どちらもウィンドウ制御を決定するためである。TCP CUBICは典型的なDCレイテンシと調和することが多いが、BBRはより長いRTTとわずかなロスで輝く。ウィンドウ・スケーリングは、アプリケーション自体が小さなチャンクを強制しない限り、より大きなバッファをより効率的に利用する。スタックをより深く比較したい場合は、以下のリファレンスに詳細な背景情報があります。 TCP輻輳制御. .重要なことに変わりはない：一度にすべての調整ネジを変えることはありません。 パラメータ をきれいに認識する。.

測定：スループットと待ち時間のテスト

だから、iperf、netperf、サーバーのログを使用している。 TTFB, RTTと再送信。私は、バースト、キューイング、ジッターを認識できるように、アイドル状態と実際の負荷下でテストしている。RTTの短縮は、バッファackが人為的に抑制され、セグメンテーションが低下していなければ、すぐに明らかになる。ネットワークに加え、CPU、IRQ負荷、コンテキストスイッチも測定する。ビフォーアフターを比較することで、当て推量を減らすことができ、最終的には多くの節約になります。時間.

推奨カーネル・パラメータと値

の上限は控えめにしている。 リーム とwmemを設定し、必要に応じて増加させ、メモリ消費量を監視する。私は通常、net.core.rmem_maxとwmem_maxを2桁MBの範囲に設定し、tcp_rmem/wmemは動的な最小値/デフォルト値/最大値を制御している。Somaxconnはバックログキューを増やし、接続の波による拒否を防ぐ。私はすべての変更を/etc/sysctl.confに書き込み、いつでもロールバックできるように制御された方法でリロードしている。次の表は、実用的な開始値とその値をまとめたものである。 影響力:

パラメータ	一般的なデフォルト	スタート値（例）	ホスティングにおける効果
net.core.rmem_max	212,992 B	16,777,216 b (16 mb)	を増加させる。受け取る-高帯域幅用バッファ
net.core.wmem_max	212,992 B	16,777,216 b (16 mb)	を拡張する。送信-ラージチャンク用バッファ
net.ipv4.tcp_rmem	4096 87380 16777216	4096 262144 16777216	ダイナミック・ウィンドウ・コントロールスケーリング
net.ipv4.tcp_wmem	4096 65536 16777216	4096 262144 16777216	バースト用送信バッファの増加トラフィック
net.core.somaxconn	128	4096-16384	接続攻撃時のドロップを低減

オートチューニングとダイナミック・ウィンドウ

私は、グローバルに固定サイズを強制する代わりに、Linuxスタックに組み込まれた自動チューニング（tcp_moderate_rcvbufを含む）を使用している。カーネルは受信バッファをtcp_rmem[2]まで動的にスケーリングし、損失、RTT、利用可能なメモリに適応させる。送信側では、TCP Small Queues (TSQ)がオーバーサイズのキューを制限し、ペーシングと公平性を維持します。最大値を十分に高く設定することが重要ですが、接続が過度に大きなバッファで開始されないように、デフォルトのレベルを選択することが重要です。私は、アプリケーションに明確に定義されたプロファイル（長距離ビデオなど）がある場合にのみ、ソケットごとのオーバーライドを使用します。.

容量計画：接続とRAM

ソケットあたりのバッファが多いということは RAM-プレッシャーだ。そのため、私は保守的な計画を立てている。アクティブな接続ごとに、送受信バッファとメタデータのオーバーヘッド（SKB）を計算するが、実際のところ、これは純粋なバッファサイズの1.3～2倍になることが多い。tcp_memとnet.core.optmem_maxは、グローバルな上限を設定するのに役立ちます。同時に、ulimit -nを増やし、/proc/net/sockstatを監視し、エフェメラル・ポートとファイル・ディスクリプタの制限に注意を払う。これによって、最適化されたバッファが負荷のピーク時にメモリのボトルネックになるのを防ぐことができる。.

アプリケーション・サーバーと大規模レスポンス

NGINX/ApacheとPHP-FPMがtinyで使用されていないことを確認します。 チャンク なぜなら、これは不必要にTCPをトリガーするからである。大きな静的ボディは、CPUの負荷が視野に入る限り、sendfileと賢明なGZIP圧縮の恩恵を受ける。APIの場合、より大きな送信バッファは、パイプラインを通して完全なフレームを素早くプッシュする機会を増やします。カーネルがラウンドトリップあたりにより多くのデータを提供でき、アプリが見る待ち時間が減るため、TTFBはしばしば減少する。tcp_nodelayとtcp_nopushをワークロードのコンテキストで常にチェックすることで、待ち時間を最小にし スループット 調和のとれたバランスを保っている。.

アプリのソケットごとのオプション

レイテンシー・パスでは、小さくてタイムクリティカルな書き込み（例えばRPCレスポンス）が、それ以上のデータを待つ必要がない場合は、TCP_NODELAYを使う。Linuxのバルク転送では、TCP_CORK（tcp_nopushに相当）を使用して、意味のあるブロックが利用可能になるまで、スタックがセグメントをバンドルするようにする。TCP_NOTSENT_LOWATを使用して、カーネル内で送信されないデータ量を制御し、それを超えるとアプリがそれ以上の書き込みをスロットルする。クイックアックシーケンスを強制するために、QUICKACKはインタラクションの後の短い時間だけ有効にしている。WebSocketとgRPCストリームは、バッファとIRQパスを不必要に加熱するミニフレームを大量に送信する代わりに、アプリケーションでライトバッチを使用することで恩恵を受ける。.

HTTP/2、HTTP/3とストリーミング・パターン

HTTP/2では、TCP接続上に複数のストリームが存在します。アプリレベルのヘッドオブラインには適していますが、HOLはロスが発生してもTCPに保持されます。より大きく、タイミングの良い送信バッファは、cwndを効率的に満たし、小さなストリームの待ち時間を劣化させることなく優先順位をつけるのに役立ちます。サーバーの優先順位付けが、小さなインタラクティブなストリームを飢えさせないようにする。HTTP/3/QUICはUDP上で実行され、独自のバッファパスを持っている。しかし、BDP指向のウィンドウ、ペーシング、損失回復などの基本原則は似ている。混合スタックでは、TCPとUDPのバッファを監視して、一方のプロトコルがもう一方のプロトコルをメモリ上で置き換えないようにする。.

NUMA、THP、ストレージパス

マルチソケット・マシンのプロセスをピン留めする NUMA-numactlはワーカーとメモリアクセスを同じノードに配置するのに役立つ。フラグメンテーションやレイテンシのバンプが目立つようなら、Transparent Huge Pagesを無効にする。一貫したメモリーポリシーは、ネットワークスレッドがリモートバンクにアクセスしたり、キャッシュがコールドのままになるのを防ぎます。これにより、アプリケーションは信頼性の高いデータ・パスを短時間で利用できるようになる。 ランタイム.

ストレージ、ページキャッシュ、I/Oウェイト

私は大きなネット・バッファと NVMe-ページキャッシュがヒットするように、ストレージと十分なRAM。スワップするたびに応答時間が飛躍的に長くなるので、スワップは一貫して避けている。ダーティレシオとフラッシュ間隔に注意を払っている。そうしないと、書き込みが蓄積して読み込み負荷をブロックしてしまうからだ。sar、perf、Prometheusでモニタリングすれば、I/O待ちやIRQ負荷がパスをブロックしているかどうかがわかる。最高のネットワークバッファも、ストレージが負荷で遅くなり、CPUが負荷で遅くなるのであれば、ほとんど意味がない。待つハングス.

NICの最適化と割り込み

ネットワークカードを 割り込み-すべてのものをCPUに送らないようにする。受信側スケーリングはフローをコアに分散し、RPS/RFSはCPU割り当てを改善する。GRO/LROとチェックサム・オフロードは、レイテンシーを発生させずにスタックの負荷を軽減する場合に特に使う。IRQコンテキストをより深く掘り下げたい場合は、以下のサイトで実用的なヒントを見つけることができる。割り込み合体. .IRQを正しいコアに固定することで、高価なIRQを防ぐことができる。 クロス-NUMAジャンプ。.

キュー、AQM、ペーシング

私は、フローが公平に扱われ、バーストが平滑化されるように、fq や fq_codel のような、ペーシングを伴う最新のイグレスキュー規律を好みます。特にBBRは、カーネルがペーシングに基づいて送信し、大きなチャンクを無秩序にNICにプッシュしない場合に恩恵を受ける。バッファブロートのあるパスでは、負荷がかかってもレイテンシを安定させるためにアクティブ・キュー・マネジメントを使います。ECNは早期の輻輳シグナルを出すのに役立つが、ミドルボックスがECNをきれいに通すかどうかをチェックする。MTUとPMTUにも注意している：tcp_mtu_probingを使ってブラックホールに対応し、TSO/GSO/GROはラウンドトリップ・ダイナミクスを汚すことなくCPUパスを緩和する。.

バックログ、ソマックスコン、コネクションフラッド

somaxconnとアプリサーバーのバックログを増やし、短波が接続エラーにつながらないようにする。 ドロップス accept()リングとイベントドリブンワーカーは受け入れ経路を動かし続ける。Ingressバランサーはヘルスチェックを効率的にバンドルし、それ自体がボトルネックにならないようにする。TLS側では、セッションの再利用と最新の暗号に注意を払い、ハンドシェイクのCPUコストを下げる。これにより、キューは短く保たれ、アプリケーションはすべての着信ストリームを迅速に処理できる。休む.

キープアライブとコネクション・ライフサイクル

tcp_keepalive_time/-intvl/-probesを設定して、不要な帯域幅を消費することなく、切れたコネクションを素早く認識できるようにしている。非常に動的な環境では、tcp_fin_timeoutを短くして、リソースがより早く解放されるようにする。TIME-WAITを „最適化 “するのではなく、TIME-WAITを保護する：再利用のハックが本当の利点をもたらすことはほとんどない。長時間のポーリングやHTTP/2のアイドル・ストリームでは、アプリケーション・サイドのタイムアウトを設定して、バッファが忘れられたセッションにパークされないようにしている。これにより、バッファはアクティブなフローに利用可能な状態に保たれ、サーバーは応答性を保つことができる。.

セキュリティとDoS耐性

というのも、より大きなバッファを単独で考えてはならないからだ。ドス拡大する。IP/パスレベルでのレート制限とSYNクッキーは、不要なフラッドを減速させる。WAFはトラフィックに合わせて検査深度を選択し、それ自体が遅延を発生させないようにする。Conntrackの制限、ulimit、IPごとのクォータは、リソースの枯渇を防ぐ。これにより、たとえ バッファ の方がサイズが大きい。.

コンテナと仮想化

コンテナでは、名前空間でどのsysctlsが動作するかに注意を払う。多くのネットワーク・パラメーターはホスト全体であり、他のパラメーターは特定のpod sysctlsや権限を必要とする。Kubernetesでは、permittedSysctlsとSecurityContextsを設定するか、DaemonSet経由でノードをチューニングする。Cgroupsの制限（メモリ/CPU）は、大きなソケットバッファにまたがって実行されてはならない。そうでなければ、負荷ピーク時にOOMキルのリスクがある。VMでは、virtio-netとSR-IOV/Accelerated-Networkingの比較、IRQの割り当て、ハイパーバイザー上の合体などをチェックする。スティールタイムとタイマーの精度はペーシングに影響します。私は安定したクロックソースを選択し、ジッターを明確に測定します。.

操作上の観測可能性

日常生活では、スループットグラフだけに頼っているわけではない。ss -m/-tiを使ってソケットごとのバッファを見たり、/proc/net/sockstatやnetstat/nstatのカウンターを読んだり、再送、OutOfOrder、RTO、リッスンドロップを修正したりする。perf、eBPF/bpftrace、ftraceを使って、tcp_retransmit_skb、skb軌道、SoftIRQホットスポットを監視している。P50/P95のTTFB、ペーシングドロップ、再送率、アクセプトバックログの利用率などのSLOにアラートを結びつけている。こうすることで、小さいと思われるバッファの変更が副作用を発生させた場合、早期に気づくことができる。.

実践ガイドステップバイステップ

私はまず、RTT、スループット、再送、スループットのステータス分析から始める。 TTFB, とCPUとIRQのプロファイルを設定した。その後、rmem_max/wmem_maxを16MBに設定し、tcp_rmem/tcp_wmemを適度に増やし、sysctlをリロードした。それから負荷テストを実行し、より多くの帯域幅を使用するかどうか、RTTが安定しているかどうかを評価する。必要であれば、1-2MBステップでスケールアップし、同時にメモリとソケット数を監視する。最後に、良い値をフリーズし、変更を文書化し、定期的なアップデートを計画する。 レビュー, 交通パターンが変わるからだ。.

簡単にまとめると

具体的には、ソケットバッファを設定することで スループット, RTTを減らし、CPUの負荷を減らす。私は帯域幅とRTTから目標値を決定し、負荷テストで各ステップを検証します。首尾一貫したTCPスタック、最適化されたNIC割り込み、高速なストレージ・パスがその結果を締めくくります。sysctlを使用して、カーネル・パラメーターを保守可能な状態に保ち、ロギングで見えるようにしています。このようにして、ホスティングにおける確実な高速配信を実現し、ユーザーはロード時間が著しく短縮され、ユーザー体験が向上します。不変パフォーマンスを経験する。.