職場で使用されている Dell の PowerEdge1950 の HDD が壊れた。 聞くところによると RAID1 が組まれていたそうだ。 スペック上は一応ホットスワップできるらしい。 HDD 交換してみたがアレ? 当方が知っている RAID1 や RAID5 の装置は、不良 HDD を引っこ抜いて新しい HDD を挿入すると、即座にリビルドが開始されて、アクセスランプがほぼ点灯状態になるが、今回はチラっと光って終わり。 アレ〜〜〜?
ネットで調べてみると、ホットスワップはできるみたいが、自動でリビルドするいう情報は見つけられなかった。 でもって、そもそも RAID1 になっているのか? なっていなかったら、どうやったら RAID1 として稼働させられるのか? 当方にとってのピッタリな情報は見つけられなかった。 そういう訳で、古いサーバで申し訳ないが、自分のための後でつかえるメモとしての情報だが、他にうれしい人がいるかもしれないので、ここで公表しておくことにする。 当然だが、当方の場合はこれでできたということで無保証であることは間違いない。
偶然だが、壊れていないがリプレースのために廃品になった PowerEdge1950 があり、それで再現実験を行ったので、 PowerEdge1950 の RAID1 がどういうものかわかったと思う(後述)。
当然だが、無保証である。 当方が試行錯誤を繰り返して、一応再現するっぽいところまできたので、ここに掲載するが、上手くいかなくて、データが消えても責任は取れないし、取るつもりもない。
PowerEdge1950 で RAID1 ができる構成になっていることが前提であり、ファームウェアのバージョンなどが違っていたりしたときには同じように動くかどうかはわからない。 画面の上部には次のようにでていた。 PERC 5/i Integrated BIOS Configuration Utility 1.04-019A
HDD の再構成は時速 150GB くらいだった。 もし HDD が 300GB なら二時間程度覚悟する必要がある。 HDD は SATA だ、スペックはよくわからないが SAS だともっと早いことが判明した。 また、作業は再起動して BIOS 画面で行うので、ダウンタイムが必ず発生し、上記の再構成の時間、 OS の起動時間(ディスクチェック等含む)が発生することも付記しておく。
画面をキャプチャすることができないので、デジカメで写真を撮っておいた。 ヒントになればいいかな。 画像をクリックすると拡大できる。
作業は慎重に行おう。 壊れたら、構築し直しだ。 できるならバックアップとっておこう。
壊れた HDD を引っこ抜いて、片肺だけで起動することを確認しておこう。 残った HDD だけで、電源投入して起動するなら間違いない。 当方のところの PowerEdge1950 はドライブとしては二基設置でき、左側は 0 、右側は 1 と表示されている。 残った HDD は、左右どちらでも、すなわちベイ番号 0,1 のいずれに設置した状態でも起動できた。 わかりやすくするために、ベイ番号 0 のほうに元となる正常 HDD を挿して作業した。 したがって残りのベイ番号 1 のほうには新しい HDD を挿入した。
電源を入れると DELL のロゴ画面がでて、しばらくすると文字が出始める。 そした Ctrl キーを押しながら R キーを叩いてちょっと待つ。
PowerEdge Expandable RAID Controller BIOS Copyright(c) 2006 LSI Logic Corporation Press <Ctrl>to Run Configuration Utility
黒い画面から下のようなターコイズな色風な画面になったらうまく構築画面に入れたときだ。
下のような黒い画面のままで、 Foregin configuration(s) found on adapter と出てきたときは、起動しないほうの HDD しか入っていなくて、起動できる HDD が入っていないことがわかる。
使うキーは画面下部にある F1,F2,F5,F12 と Ctrl+N , Ctrl+P 以外に Enter キーと Tab キー、そして矢印キーとしての、←↑↓→の四つのキーと、 Esc キーだ。
ツリー表示のときに [+] のところにフォーカスを当てて [→] を押下すると展開されることがわかるだろう。
下の画像では Physical Disks を展開すると 01:00 しかなくて、挿してあるのに 01:01 は missing となっている。
後から挿入した HDD について、何かをクリアしてやることによって、 RAID1 の再構築ができるようになる。 この作業をしないと rebuild できなかった。
Controller 0 にフォーカスして [Enter] し、メニューを出し、 Foreign Config 、 [→] して、 clear をフォーカスして [Enter] すると確認がでる。
ここで OK を選んで、 [Enter] する。 上部メニューが「 VD Mgmt PD Mgmt Ctrl Mgmt Foreign View 」という表示から一番右のメニューが消えて、「 VD Mgmt PD Mgmt Ctrl Mgmt 」に変わる。
Ctrl+P または Ctrl+N どちらでもいいので、何度か叩いて、画面上部のメニューの「 PD Mgmt 」を選択する。 すると Drive 01:01 の State が Ready になっていることが確認できる。
ここで [F2] を押下して、「 Make Global HS 」を選んで [Enter] する。 確認が出ないのでビックリだが、これで RAID1 の構築が始まる。 State は Rebuild となる。
上記の 3 の最初の作業ができていないと Drive 01:01 の State が Foreign になっていることでうまくいっていないことが確認できる。
あとは再構築が終わるのを待てばよい。 時速 150GB くらいだったので、もし 500GB の HDD を使っていたら三時間強を覚悟すべし。 進行状況は Ctrl+P または Ctrl+N で VD Mgmt 画面にして、 Physical Disks の内容確認( [→] で展開して見られる)で、おおよその終了時刻も確認できるだろう。 なお、 Drive 01:01 が 01:00 の上に出るときと下に出る時があって、法則性はよくわからない。 また、構築はこの画面を表示している必要はなく、始まったら、 [Ctrl]+[Del]+[Delete] でこの画面を抜けて OS 起動してもよかった。
構築が終わると最初の画面になる。 一応 Physical Disks を見ると Missing でもなく、何事もないように表示されている。
終わったら、 [Esc] を叩いて、構築画面を抜け、 [Ctrl]+[Del]+[Delete] で再起動してみよう。 うまくいっていれば、いつものように起動するハズだ。 ただし、 HDD のアクセスランプは 2 台の HDD 両方が明滅することが見て取れる。
非常にハマったが、再現実験をして確認もできることがわかった。 当方の探し方が悪かったのか見つけられなくて、自分で書いちゃった。
この PowerEdge1950 の RAID1 というのは自動再構築はなくて、稼働中に一方の HDD が壊れたら、壊れたほうの HDD を交換して、稼働をとめ、壊れていない HDD をもとにコピーして復旧するという方法だ。
これは無停止で連続稼働を狙ったモノではなく、システムが壊れて起動できなくなることを狙ったモノだろう。
いろいろ実験してみると再構築に入ったら [Ctrl]+[Del]+[Delete] で再起動をかけても問題ないことがわかった。
すなわち、構築が始まったらサーバを動かせるので、ダウンタイムは、最初の OS シャットダウン、この構築開始までの時間、そして OS 起動時間ということで 15 分以内でできるかもしれない。
ま、なんにせよ再びやらないで済むといいなぁ。
この文書をお読みの貴方が、どういう理由でこの文書にたどり着いたかはわからないが、当方と同じ目に合っていたとしたら、この文書が役に立つことを願う。 そして、困ったことが改善されることを願う。 Good Luck!
当方(SHIBATA Akira)は, 本サイトをご利用の際に起きるかもしれない不利益に対し, 一切責任を負いません.