...

ヘッツナー・レスキュー・システムの開始 - サーバー管理者のためのステップ・バイ・ステップ・ガイド

ヘッツナー・レスキュー・システムをわずか数分で開始する方法と、その方法を紹介しよう。 SSH ログインして サーバー 的な方法で修復します。このガイドでは、ファイルシステムのチェック、バックアップ、再インストールなど、アクティベーションからリカバリまで、段階を追って説明します。

中心点

レスキュー・モードを開始し、迂回することなく作業を進めるには、次のような重要なポイントがある。

  • レスキュー開始ロボットまたはクラウドでアクティベーションを行い、再起動する。
  • SSHアクセスキーまたはパスワードとroot権限でログインする。
  • エラー分析fsck、ログ、パーティションをチェックする。
  • データバックアップrsync、tar、scpで高速バックアップ。
  • 新規設置フレッシュなシステム用のインストールイメージ。

レスキュー・システムの役割

レスキュー・システムは、独立したLinux環境を作業メモリーにロードし、すぐにアクセスできるようにしてくれる。 根っこの部分-たとえインストールされていても オペレーティングシステム は失敗します。欠陥のあるブートローダー、破損したパッケージ、欠陥のある設定とは無関係に起動する。これにより、ファイルシステムのチェック、データの復旧、ログの分析、サービスの再起動が可能になる。環境はスリムなままだが、診断と復旧のための重要なツールはすべて提供する。これによって、通常のシステムが完全にダウンしても、コントロールし続けることができる。

実用的なのは、レスキュー環境が意図的に揮発性であることだ。リブート後に変更が消えるので、安全にテストできる。必要であれば、一時的なツール(smartmontools、mdadm、lvm2、btrfs-progs、xfsprogsなど)を、生産的なシステムを変更せずにインストールする。カーネルのバージョンは最新で、NVMe、UEFI、GPT、ソフトウェアRAID(mdraid)、LVM、LUKS暗号化など、最新のハードウェアをサポートしています。これにより、複雑なストレージ・セットアップもカバーでき、まれなエラー・パターンも再現可能な方法で切り分けることができる。

必要条件とアクセス

これを始めるには、カスタマー・インターフェイスにアクセスする必要がある。 SSHキー または一時的な パスワード.を介して専用システムを便利に管理している。 ヘッツナーロボット一方、私はコンソールを使ってクラウド上のインスタンスをコントロールしている。どちらのインターフェースにも、レスキューモードを有効にするための明確なオプションが用意されている。私は事前に正しいサーバーIP、IPv6の可用性、必要であればリセットのための帯域外機能をチェックします。この準備により、ダウンタイムが大幅に短縮されます。

初めてSSHにログインするときは、新しいフィンガープリントを意識的に確認し、必要に応じてKnown Hostsのエントリーを更新して、その後の接続が警告で失敗しないようにしている。チームの場合は、救出作業専用に追加の鍵を保存し、完了後に再び削除する。一時的なパスワードしか利用できない場合は、ログイン後すぐに変更し、Key-Authに置き換える。

レスキューシステムの起動 - ステップ・バイ・ステップ

サーバーの詳細ウィンドウを開き、"Rescue "オプションを選択し、アーキテクチャを次のように設定した。 リナックスろくじゅうよん 現行システムのために、私は自分の SSHキー.状況に応じて、私はレスキューモードだけを起動して再起動を別々にトリガーするか、"Activate Rescue & Power Cycle "を使って直接再起動します。マシンがハングした場合は、インターフェイスからハードリセットを実行する。起動後、キーを入力していない場合、インターフェイスに一時的なルートパスワードが表示されます。サーバーが起動するとすぐにSSHに応答し、起動できる。

複雑な状況では、アクティベート、パワーサイクル、SSHログインのテスト、トラブルシューティングの開始という明確な順序を計画する。クラウドインスタンスは通常、すぐにレスキューモードに切り替わります。重要:修復に成功したら、マシンがローカルのハードドライブから再起動するように、レスキューモードを再びオフにする。

SSH接続と最初のチェック

を介して接続している。 SSH をもって ssh root@<サーバーIP そして、まずネットワーク、データキャリア、ログをチェックし、その概要を把握する。 ステータス.と一緒に a そして ピング 空席状況を確認する; journalctl --ページャーなし -xb またはマウントされたディスク上のログ・ファイルに最新のエラー・メッセージが表示される。コマンド エックスブロック, ブロックキッド そして fdisk -l レイアウトとファイルシステムを明確にする。RAIDには cat /proc/mdstat そして mdadm --detail に対応する。初期ハードウェアインジケータ smartctl -a と短い hdparm -Tt-テスト

LVM、RAID、LUKS、特殊ファイルシステム

多くのサーバーはLVM、ソフトウェアRAID、暗号化を使用しています。私はまず、関連するレイヤーをすべてアクティブにする:

  • マッドブレイド: mdadm --assemble --scan でステータスをチェックする。 cat /proc/mdstat.
  • ルクス暗号化されたボリュームを cryptsetup luksOpen /dev/.
  • LVMブイグスキャン そして vgchange -ay ボリューム・グループをアクティブにして、それを 対対数/ブイエス/きゅうせいぐん.

Btrfsでは、サブボリュームに注意を払い、次のようにマウントします。 -o subvol=@ それぞれ -o subvolid=5 をトップレベルに使用する。XFSは xfs_repair (マウントされたボリューム上ではありません)、Ext4 は古典的に fsck.ext4 -f は再編成されている。私は、以下のGUID/UUIDを基準にしている。 ブロックキッドなぜなら、NVMe (/dev/nvme0n1p1)であり、注文の変更によって変わる可能性がある。を修正します。 /etc/fstab.

ファイルシステムの修復とデータのバックアップ

修理する前に、重要なものをバックアップする。 データ をもって 同期, スキャン 或いは タール 外部ターゲットまたはローカルターゲット バックアップ-ディレクトリを使用します。チェックには ファスク マウントされていないパーティションにのみ適用されます。 fsck -f /dev/sda2不整合をきれいに修正するためだ。その後、システムを /mnt例えば マウント /dev/sda2 /mntのようなサブパスを付ける。 /proc, /シス そして /dev chrootしたいとき。のような個々の設定ファイルは /etc/fstab またはネットワーク設定をマウントされたシステムで直接行います。慎重に作業を進めることで、結果的な損害を防ぎ、ダウンタイムを最小限に抑えます。

信頼できるバックアップのために、私は反復可能なコマンドに頼っている: rsync -aHAX --info=progress2 権利、ハードリンク、ACL、xattrsを受け取る。ラインが弱い場合は、次のようにスロットルする。 -ブイリミット で圧縮を並列化する。 tar -I pigz.必要であれば、重要で欠陥のあるデータキャリアを、次のようなブロックでイメージ化する。 救助 論理的な作業をイメージに移行するためだ。私はBtrfsシステムを btrfs check --readonly そして btrfsスクラブを使用してサイレント・エラーを検出する。XFSでは不整合が発生した場合、オフマウント修復が必要になることが多い(xfs_repair私はいつも最初にパーティションをバックアップする。

UEFI/BIOS、GPT/MBR、ブートローダー修復

多くのブート問題は、ファームウェア、パーティションスキーム、ブートローダーの相互作用によって引き起こされます。サーバーが UEFI モードで起動するのか、レガシー BIOS モードで起動するのかをまずはっきりさせます (ls /sys/firmware/efi).UEFIではEFIパーティションをマウントします(典型的な /dev/sdX1 或いは /dev/nvme0n1p1に変更する。 /mnt/boot/efi.それから、私はシステムの中に入った:

マウント /dev/ /mnt
mount --bind /dev /mnt/dev
mount --bind /proc /mnt/proc
mount --bind /sys /mnt/sys
chroot /mnt /bin/bash

ブートローダーを適当に再インストールする(グラブインストール を正しいデバイスに)、コンフィギュレーションとinitramfsを再生成する: アップデート・グラブ そして update-initramfs -u -k all (ドラカットベースのシステムの場合 dracut -f).デバイスの順序が正しくない場合は、私は /etc/default/grub UUIDとチェック /etc/fstab を確認してください。GPT/MBRを変更するときは、BIOSブートパーティション(GRUB/BIOS用)か有効なEFIシステムパーティションが存在するかチェックします。

レスキューにおけるネットワークの落とし穴

ネットワークの問題は、サービスが "なくなった "原因であることが多い。レスキューでは、リンクの状態をチェックするんだ。IPリンク)、ルート(ip r)およびDNS解決(resolvectl ステータス それぞれ cat /etc/resolv.conf).私はIPv4とIPv6を別々にテストしている(ピン -4/ピン -6).ブリッジやボンディングのあるサーバーの場合、生産システムのインターフェイスの順番はレスキュー環境と異なることがある。私はMACアドレスをメモし、それらを正しくマッピングする。本番システムがNetplanを使用している場合、私はそのNetplanを検証する。 /etc/netplan/*.yaml そしてchrootの後に ネットプラン生成 そして ネットプラン適用 についてクラシック /etc/network/interfaces-セットアップでは、一貫性のあるインターフェイス名(予測可能な名前とそうでない名前)に注意しています。 エスゼロ).

オペレーティングシステムの再インストール

修理が意味を成さなくなった場合は、次のようにシステムをリセットする。 インストールイメージ まったく新しいものなので、貴重な時間を節約できる。 時間.このツールは、ディストリビューションの選択、パーティション設定、ブートローダーをガイドしてくれる。初回起動がスムーズに行えるように、自分の設定ファイルとSSHキーをインストールに含める。インストールが終わったら、通常通りサーバーを起動し、サービス、ファイアウォール、アップデートをチェックする。最後に、レスキューモードを削除して、次のブートが再びローカルのデータキャリアから行われるようにします。

新規インストールでは、後のデバイス順序の問題を排除するために、意図的にUUIDベースのマウントを使用しています。RAIDセットアップの場合は、最初からアレイを作成しておき、データをリストアする前にリビルド状況をチェックする。同じようなシステムを定期的にデプロイする場合は、定義済みのインストールイメージテンプレートと明確なパーティショニングロジック(ルート、別個のデータパーティション、スワップ、必要に応じてEFI)で作業します。最初のブートの後、パッケージソースとカーネルをアップデートし、セキュリティの自動更新を有効にして、基本的なハードニング手順を展開する。

安全性、タイムウィンドウ、再発

アクセスは SSH従って、私は一貫して、次のことを頼りにしている。 静的パスワードの代わりにレスキュー・モードは、起動後限られた時間だけ待機し、次の通常の再起動時にローカル・ブート・デバイスにフォールバックする。私は迅速に作業し、すべてのステップを文書化し、大規模な介入に備えて2つ目のセッションを開いておく。bashの履歴には機密データを書き込まず、使用後は一時ファイルを削除する。リカバリーに成功したら、再びインターフェイスでモードを解除します。

生産的なシステムを再アクティブ化した後、アクセスデータをローテーションし、一時的なレスキューキーを削除し、不要なルートパスワードをリセットし、新しく生成されたコンフィギュレーションをバックアップする。監査情報(誰がいつ何をしたか)を収集し、標準セットアップからの逸脱を文書化する。これにより、緊急措置が恒久的なものになるのを防ぎ、コンプライアンス要件を遵守している。

例WordPressサーバーの救出

レスキューモードで起動し、システムパーティションをマウントし、バックアップを取る。 データベース につき mysqldump そして、その wpコンテンツ-ディレクトリ タール 或いは 同期.その後、ファイルシステムをチェックし、ブートローダーをリセットし、間違ったPHPやNGINXの設定を修正します。パッケージが壊れている場合は、chrootを使って依存関係を再インストールする。それでも不十分なら、マシンを インストールイメージ そしてバックアップと設定をリストアする。最後に、フロントエンド、ログイン、cronjobsを検証する。

実際には、私はInnoDBの一貫性(MySQL/MariaDB)に注意を払っています。 エムエスキューエルディー を確保する。 /var/lib/mysql そして新しいインスタンスからダンプを実行します。キャッシュ(オブジェクト・キャッシュ、ページ・キャッシュ、OPCache)を選択的に空にし、ファイルのパーミッションを一貫して設定する(この場合、キャッシュの削除は必要ない)。find .-type d -exec chmod 755 {} ;, find .-type f -exec chmod 644 {} ;をチェックする。 オープン・ベース とアップロードディレクトリを削除します。プラグインディレクトリの名前を変更して、テストとして重要なプラグインを停止します。その後、PHP FPMプール、FastCGIタイムアウト、メモリ制限、NGINX/Apacheインクルードをチェックします。短い wp cron event run --due-now (WP-CLIが利用可能な場合)バックログを処理するのに役立ちます。

管理者のためのベストプラクティス

ディープ・インターベンションの前に、私は新しいものを作る。 バックアップ などのキーファイルを保護する。 /etcいつでも戻れるようにね。すべてのステップは短いログに記録され、後で監査や新しいインシデントに役立つ。生産的なシステムに再起動した後は、サービス、ログ、ネットワーク、モニタリングを徹底的にチェックする。繰り返し行うタスクについては、小さなスクリプト・セットを作成し、コマンド・シーケンスを標準化する。パフォーマンスの追加や新しいハードウェアを計画している場合は、適切なスクリプトを作成することができる。 ルートサーバーのレンタル とマイグレーション・ウィンドウ。

私はまた、責任とエスカレーション・パスが記載されたランブック・チェックリストも準備している。計画的な "ゲームデー"(目標とする障害のシミュレーション)は、緊急事態に備えてチームを訓練する。私は定期的にバックアップをリストアサンプルとしてテストしている。そして、「良い」状態と「故障している」状態の違いをすぐに認識できるように、システム構成をバージョン管理している。

クラウドと専用:プロセスの違い

クラウドでは、インスタンスのダイアログで直接ブートモードを変更し、シリアルコンソールを使って素早くチェックすることが多い。クラウドボリュームは他のインスタンスに簡単にアタッチすることができ、影響を受けるホストのダウンタイムなしにデータをバックアップする効率的な方法です。ベアメタルでは、特にSSD/NVMeモジュールを追加購入する場合、ドライブの物理的な順序にもっと注意を払う。どちらの世界でも:レスキューは一時的なツールです。

比較:レスキューシステムを持つプロバイダー

仕事の質の高さに加え、迅速なリカバリー ハードウェア もきれいに統合されている。 レスキュー-機能です。以下の表は、その機能と取り扱いの範囲をコンパクトにまとめたものである。可用性、アクセスのしやすさ、典型的な管理者のワークフローに基づいている。推奨」の評価は、典型的な障害に対する私の実用的な使い方を反映したものです。もちろん、重み付けは使用目的によって異なります。

プロバイダ レスキューシステムあり 使いやすさ パフォーマンス 推薦
webhoster.de 非常に良い 非常に高い テスト勝者
ヘッツナー 非常に良い 高い
ストラト 一部 グッド ミディアム
イオノス いいえ ミディアム ミディアム

チェックリスト緊急時の一連の流れ

  • レスキューの起動、再起動/電源サイクルの起動、SSHのテスト。
  • ハードウェア/ストレージを見る: スマートクトル, エックスブロック, ブロックキッド, エムディスタット, エルブイエム.
  • アレイ/LUKS/LVMを起動し、ファイルシステムを読み取り専用で検査する。
  • バックアップを作成し(rsync/tar)、次に ファスク/修理
  • システム /mnt マウント、バインドマウント、chroot。
  • ブートローダー/initramfsを修復し、ネットワーク設定をチェックする。
  • ブートのテスト、サービスの検証、モニタリング/アラームのチェック。
  • レスキューの停止、一時キーの削除、ドキュメントの更新。

FAQ ヘッツナー・レスキュー・システム

を使用できますか? データ システムが起動しなくなったらレスキューしますか?はい、レスキューモードでデータキャリアを直接読み込んで、重要なデータをバックアップしています。 フォルダ またはパーティション全体。

レスキュー・モードの有効期間は?アクティベート後、システムは限られた時間だけ利用可能で、次の定期的な再起動時にローカルシステムに切り替わります。 ボート-そのため、私はスピードアップを計画している。 手続き.

クラウドと専用サーバーの両方で使えますか?はい。 ヘッツナークラウド.

ブートローダーが破損した場合、どうすればいいのでしょうか?rootとおそらくEFIをマウントし、システムにchrootし、以下のコマンドを実行します。 グラブインストール, アップデート・グラブ そしてinitramfをリビルドし、再起動をテストする。

LVM/RAIDはどのように扱うのですか?まずmdraidをアセンブルし、LVMを起動させます。 vgchange -ay を実行し、ロジックボリュームをマウントする。修復はバックアップ後にのみ行われます。

個々のファイルだけを保存することはできますか?はい、読み取り専用でマウントし、設定やデータベース(ダンプ経由)、ディレクトリを選択的にコピーします。

コアメッセージ

を使用しています。 ヘッツナー レスキューシステム、私はブート問題、ファイルシステムエラー、破損した設定を確実に特定するクイックツールを持っている。このモードを有効にして、SSH経由でログインし、データをバックアップしてから、修復するか再インストールするかを決める。これで 時間 緊急時にダウンタイムを最小限に抑えることができます。これらのいくつかのステップを内面化すれば、困難な停止にも冷静に対処することができます。つまり、サーバーの運用を計画的に行い、再起動をコントロールすることができるのです。

現在の記事