サーバーと仮想マシン

タイムドリフトがサーバーの速度を低下させる原因 – NTP、Chrony、および時刻同期

エヌティーピー Chrony Hosting は、時計を迅速に調整し、ログの時間を整理し、認証の信頼性を維持することで、サーバーの速度を低下させるタイムドリフトを防止します。その方法をご紹介します。 クロニー, 、NTP と systemd-timesyncd の連携、ドリフトが発生する理由、ホスティング環境で障害やセキュリティリスクを回避するための設定についてご説明します。.

中心点

タイムドリフト：原因、結果、そしてミリ秒が重要な理由
NTP階層: 内部時刻ソースのためのストラタム設計
クロニー データセンターにおける vs. ntpd vs. systemd-timesyncd
NTS & ハードウェアタイムスタンプ：セキュリティと正確性
モニタリング & 持続的な一貫性のためのトラブルシューティング

サーバータイムドリフトの発生と影響

タイムドリフトは、 RTC ホストの動作がわずかに速すぎる、または遅すぎる場合、その誤差は日々蓄積されます。わずかな誤差でも矛盾が生じるのです。 タイムスタンプ, これにより、トランザクション、キャッシュ、レプリケーションに支障が生じます。証明書が突然「早すぎる」または「遅すぎる」と表示され、認証が失敗する場合があります。分散システムでは、イベントの順序が失われ、デバッグが困難になるか、不可能になります。ホスティング環境では、同期の欠如が障害の原因となることをよく目にしますが、これは堅牢な時間設計によって回避できます。.

NTPストラタムについて簡単に説明

仝 Stratum-モデルは、時間ソースを階層的に整理し、インターネットへの依存度を低減します。Stratum‑0 は 基準時計 GPS や無線など。ストラタム 1 サーバーはそれらに直接接続され、ストラタム 2 はストラタム 1 から情報を取得します。ホスティング環境では、すべてのノードに情報を提供し、外部負荷を軽減する内部ストラタム 3 サーバーの導入が有効です。これにより、各ノードをインターネットに送信することなく、ホストとコンテナに統一された時間を配布することができます。このアーキテクチャにより、一貫性のあるログ、適切な証明書ウィンドウ、および明確な順序で複製されたデータベースが可能になります。.

NTP、Chrony、それとも systemd-timesyncd？比較

をセットした。 クロニー 生産的なセットアップでは、より高速に調整され、不安定なネットワークでも正確に追従するため、採用されています。定番の ntpd 安定して動作しますが、時計が「正確になる」までに時間がかかります。systemd-timesyncd は軽量で、単純なホストには十分ですが、サーバーとしては使用できません。クラスタやホスティングでは、混合運用や副作用を避けるため、すべてのノードで統一的な実装を行うことをお勧めします。以下の表は、主な違いをまとめたものです。.

実装	強み	弱点	こんな人に向いている
クロニー	高速同期、パケット損失に対する耐性、サーバーモードとクライアントモード、優れたオフライン処理	より多くのオプションには、明確な設定が必要です。	生産性の高いサーバー、クラウド、VM、コンテナ
ntpd	長年にわたり実証済み、幅広い入手可能性	起動時に遅延、モバイルホストでは柔軟性が低い	レガシー環境、保守的な設定
systemd-timesyncd	スリム、SNTPクライアント、実質的に「ゼロ設定」„	サーバーモードなし、機能制限あり	小型サーバー、アプライアンス、シンプルな VM

ロールモデル：タイムクライアントと内部サーバーを明確に分離する

実際には、私は厳密に区別しています。 クライアント専用-ホストおよび内部 NTPサーバー. クライアントは定義されたソースのみに問い合わせを行い、NTPポート自体は提供しません。内部サーバーは複数のソースを集約し、品質を確認して、その環境内に時間を分配します。これにより、攻撃対象領域を縮小し、依存関係を短く抑えることができます。.

重要なのは、ポーリング間隔と設定をきちんと設定することだよ。信頼できる内部ソースには prefer 外部プロバイダをフォールバックとして保持しています。レイテンシの変動があるネットワークでは、時折 minpoll, より迅速に修正を測定するために、しかし maxpoll 安定性が達成されたら、ネットワークの負荷を低く抑えるために再び。.

Chronyの実践：ホスティングの設定

私は明確なものから始める。 chrony.conf, ドリフト、ストラタム、アクセスを定義します。最小限のベースには以下が含まれます。

driftfile /var/lib/chrony/drift ローカルストラタム8 マニュアル allow 192.168.0.0/16

仝 driftfile クロックの誤差を記録し、再起動後に修正を加速します。「local stratum 8」を使用すると、外部ソースが利用可能な場合、内部サーバーの優先度は低いままであります。「allow」は、どのネットワークが時刻を取得できるかを制御し、不正使用を防止します。このサービスを有効にするには、 systemctl start chronyd そして systemctl enable chronyd その後、ステータスとソースを確認してください。.

クライアント専用およびサーバープロファイル

純粋なクライアントでは、サーバーポートを無効にし、設定をシンプルに保ちます。

# クライアント専用プロファイルサーバー ntp-intern.example iburst prefer サーバー ntp-extern-1.example iburst サーバー ntp-extern-2.example iburst ポート 0 makestep 1.0 3 rtcsync leapsectz right/UTC

ポート 0 ホスト自身が時間を提案することを防ぎます。. makestep 1.0 3 最初の 3 回の測定では 1 秒以上の厳しい補正が許可されますが、その後は geslewt （穏やかに調整）。. rtcsync RTC を適切な間隔で同期させ、再起動が大きなジャンプなく開始されるようにします。.

内部 NTP サーバーでは、ソースを統合し、アクセスを細かく制御しています。

# 内部 NTP サーバー pool 0.pool.example iburst maxsources 4 サーバー ref1.example iburst prefer nts サーバー ref2.example iburst nts allow 10.0.0.0/8 allow 192.168.0.0/16 bindaddress 0.0.0.0 bindcmdaddress 127.0.0.1 cmdallow 127.0.0.1 driftfile /var/lib/chrony/drift makestep 0.5 5 ローカルストラタム8 leapsectz right/UTC

コマンドソケットをバインドします。 127.0.0.1 そして、ローカルでのみ許可する。. プール 複数の情報源を自動的に最新の状態に保ちます。. prefer 希望するプライマリソースを設定します。大規模なセットアップでは、私は bindaddress 特定の管理VLANに。.

ポーリング、ソースの品質と安定性

不安定なネットワークでは、最初は測定密度を高め、安定化後に高めに設定します。

サーバー ntp-extern-1.example iburst minpoll 6 maxpoll 10

と一緒に minsamples, maxsamples そして 最大距離 私は悪い情報源は早い段階で排除します。非同期パスや非対称ルーティングの場合は、 hwtimestamp 適切な NIC でジッターを低減する：

hwtimestamp eth0

セキュリティと正確性：NTS、ハードウェアタイムスタンプ、閏秒

私は NTP 接続を以下で保護しています。 NTS, 攻撃者が誤った時刻を送り込まないようにするためです。次のようなエントリ サーバー時間.cloudflare.com iburst nts 迅速なスタートを実現 iburst および暗号によるセキュリティ保護。ネットワークカードが対応している場合は、カーネルのレイテンシ変動を回避するためにハードウェアタイムスタンピングを有効にします。閏秒については、「leapsectz right/UTC」を使用して、サービスが急激な時間ジャンプを認識しないようにしています。この組み合わせにより、サービスの信頼性が維持され、敏感なアプリケーションでのエラーが防止されます。.

硬化とネットワーク設計

私は制限する UDP/123 規定のネットワークに厳密に、方向も 詳細に (クライアント → 内部サーバー) および 出発点 (サーバー → 外部ソース)。クライアントでは、私は ポート 0, それらが情報源として悪用されることがないよう、あらかじめ防止するためです。. allow/deny Chrony はさらにフィルタリングを行います。セグメント化されたネットワークでは、ワーカーへのレイテンシーが低いネットワークに内部サーバーを配置し、パスを確定的に保ちます（非対称ルートや過度なシェーピングは使用しません）。.

NTS は、専用ポートを介した初期鍵の合意を必要とします。私は、この宛先ポートを信頼できるプロバイダのみに許可しています。NTS が機能しなくなった場合、私は意図的なフォールバック動作（安全でないソースへの静かな切り替えではなく、厳重なアラーム）を定義しています。これにより、セキュリティの「静かな腐敗」を回避しています。.

リープセカンド戦略とスミアリング

環境ごとに決定します：従来のリープ処理（UTCと閏秒）または リープスマーリング, 、秒がウィンドウで平滑化されるものです。重要：混合しないでください。一部の情報源が平滑化され、他の情報源が平滑化されない場合、永続的なオフセットが発生します。重要なクラスタでは、全フリートを 1 つのラインに保ち、その選択を記録しています。Chrony は、 leapsectz; スムージングを行う場合は、すべてのノードに対して一貫して計画を立てる必要があります。.

モニタリングとトラブルシューティング：ドリフトを可視化する

ステータスとオフセットを timedatectl また、Chronyツールも同様です。 chronycソース そして トラッキング. RTC とシステム時刻の差は、最初は正常ですが、すぐに小さくなるはずです。長期的な監視のために、私はメトリックとアラームをモニタリングスタック. これにより、ユーザーが気付く前にトレンド、ピーク、異常値を認識することができます。オフセットが定義されたしきい値を超えた場合、アラートが自動的に作動します。.

指標とアラーム閾値

システムオフセット (トラッキングの最終/平均オフセット): 5 ミリ秒以上で警告、25 ミリ秒以上で Web/DB スタックにおいて重大な問題。.
根の分散: ソースの不確実性を示します。それが持続的に高まる場合、私はソースの変更で対応します。.
到達可能性 そして ジッター 出典：パケット損失と不安定性を早期に検出。.
Stratum: 予想外の層の上昇は、断熱材の劣化や熱源の損失を示しています。.

アドホック診断には、さらに以下も使用しています。

chronyc sourcestats -v chronyc ntpdata chronyc rtcdata chronyc アクティビティ

表示 活動 多くの無効なソースがあるため、ファイアウォール、MTU/フラグメンテーション、および非対称パスを確認します。再起動後に大きな変化がある場合は、 makestep 多くの場合、設置されていないか、狭すぎる敷居によって妨げられている。.

クラスタで一貫した時間を実現するためのベストプラクティス

私は、通常少なくとも3つの冗長な時間源を用意しておくべきだと思います。 サーバー, 1台が故障しても問題がないように。内部ストラタム3サーバーがフリートに供給し、それ自体が複数のストラタム2ソースから取得します。ntpd と Chrony の混在運用は、異なるアルゴリズムが予期せぬ オフセット 生成することができます。RTC は UTC で保存します。 timedatectl set-local-rtc 0, 夏時間の変更で予期せぬ事態が発生しないように。変更はすべて記録して、トラブル発生時に履歴をすぐに把握できるようにしています。.

Kubernetes とオーケストレーション

Kubernetes や同様のオーケストレーションでは、Chrony を ノード, 、個々のポッドではなく。コンテナはホストの時間を継承します。二重の修正はドリフトにつながります。etcd などのコンポーネントは、時間の誤差に敏感です。2 桁のミリ秒でも、選択のタイムアウトに影響を与える可能性があります。コントロールプレーンとワーカーが同じ内部ソースを使用していること、および leapsmear-Mix を使用しているポッド/ノードがないことを確認します。.

クラウドの特徴

多くのクラウドプロバイダーは 内部タイムサーバー 準備完了。私はこれをプライマリソース（低レイテンシ）として活用し、外部 NTS ソースをフォールバックとして補完しています。インスタンスの場合冬眠或いは ストップ 私は初期ステップを許可します makestep. Chrony がアクティブな場合は、二重補正を避けるため、エージェントによるホストからゲストへの時刻同期を無効にします。.

特別なシナリオ：VM、コンテナ、クラウド

VM では、ホストからゲストへの時間を注意しています。なぜなら、二重の訂正（ハイパーバイザーとゲスト）は混乱を招きます。コンテナはホストから時間を取得するため、メンテナンスは基盤に重点が置かれます。インスタンスが頻繁に起動する弾力性のある環境では、迅速な対応が効果を発揮します。収束 Chronyから。接続状態の悪いエッジロケーションでは、パケットロスや一時的なオフライン状態におけるChronyの挙動が有利に働きます。時間基準やレイテンシーに関するパフォーマンス分析には、この機能が非常に役立っています。応答時間分析.

パフォーマンスへの影響：データベース、ログ、および証明書

クリーンな時間は奇妙な時間を減らす デッドロック データベースでは、トランザクションの順序が一貫して保たれるためです。キャッシュは正しく無効化され、CRL および OCSP は実際の時間枠で機能します。実際には、オフセットが制御されている場合、多くの「ゴーストエラー」は解消されます。イベントを正しく相関させるため、私は中央集権的なログ分析同一の時刻源を使用。有効期限がシステム時刻と一致するため、証明書の信頼性が向上します。.

Chrony への途切れることのない移行パス

私は、この移行を段階的に行うことを計画しています。 サービス内容 いつでも時間を取得できます。まず、内部クロニサーバーを構築し、いくつかのステージングホストをそのサーバーに指向させます。ソースが安定して動作したら、段階的に本番ノードを切り替えます。移行中は、オフセットと待ち時間を測定して、差異を早期に発見します。すべてが安定したら、古い ntpd インスタンスを無効にし、古いデータを削除します。.

ロールバックと緊急時対応計画

私は ロールバック 準備：古い設定をバージョン管理し、必要に応じて ntpd または systemd-timesyncd に戻る手順を文書化します。緊急事態に備えて、簡単な実行手順書を作成します：サービスを一時停止し、, chronyd 停止、手動で時間を設定（必要な場合のみ）、サービスを再起動、ソースを確認、オフセットを監視。アプリケーションのジャンプを避けるため、手動による操作は最小限に抑えることが重要です。.

実施のためのチェックリスト

私は最初に明確な定義を行います。 時間源 そして、内部ストラタム3サーバーでターゲット階層を構築します。その後、すべてのホストに統一された構成を作成し、ステージングでテストし、文書化します。適切な場所で NTS を有効にし、適切なネットワークカードでハードウェアのタイムスタンプを確認します。その後、メトリックをアラームに組み込み、オフセットしきい値を設定します。最後に、時間エラーが深刻化する前に、定期的なチェックを計画します。.

ランブック：10 分間のヘルスチェック

何かが「おかしい」と感じたら、私は次のように対応します。

システムステータス: timedatectl (NTP 有効？RTC は UTC ？)
情報源: chronyc sources -v （リーチ、ストラタム、ジッター）
トラッキング: クロニック追跡 （オフセット、スキュー、ルート分散）
ネット: UDP/123 のファイアウォール/ACL を確認し、遅延/損失を測定する
ドリフト: chronyc sourcestats 数分間観察する
RTC: chronyc rtcdata, 、必要に応じて. rtcsync アクティベート
セキュリティ: NTS ステータスを確認、サイレントデグラデーションなし

費用と便益をユーロで考えた場合

誤った時計時間と費用がかかります。デプロイの失敗、サポートケース、SLA の減額などが積み重なります。社内の Chrony サーバーの設定とモニタリングは安価で、多くの場合、その費用は 3 桁のユーロ程度です。一方、回避できるダウンタイムは、4 桁から 5 桁の金額に簡単に達します。 ユーロ 危険にさらす。特に、多くのトランザクションが行われるクラスタでは、同期は日々その効果を発揮します。したがって、NTP/NTS および Chrony は、任意ではなく必須であると私は考えています。.

概要

タイムドリフト サーバーの速度を低下させ、ログを混乱させ、証明書の同期を乱します。Chrony、NTP、および内部ストラタム設計により、時計の同期とサービスの信頼性を維持しています。NTS はソースを保護し、ハードウェアのタイムスタンプはレイテンシーを平滑化し、正確な閏秒処理によりジャンプを防止します。メトリクスとアラームによるモニタリングにより、ユーザーが気付く前に偏差を検知します。 NTP Chrony ホスティングを適切に設定すると、一貫した時間枠、障害の減少、そしてユーロで測定可能なメリットが得られます。.