故障時の対応
HP-UNIXに限らず、常時稼働している設備にはよく故障が発生します。
特にメカ的な稼働部分、測定系ではリレー関係、またワークステーションにおいてはハードディスクの故障が一番発生しやすく、かつ唐突に発生します。
このときに管理者としてつつがない処理ができないと、いつまでも設備は止まったままになります。
自分で対処するなり、外部メーカーを呼んで修理を行うなり、的確な判断と費用見積もり、生産状況を読む力等、同時にいくつもの事柄を考慮して対処しなければなりません。
フォールトトレランス
ハードディスクが故障したときに、予備のハードディスクを用意し、OSと稼働ソフトウェアを導入しておき、故障時に交換するだけで現場の人間で復旧対処できるようにする、など冗長な予備システムを用意しておき、信頼性を高める方式をフォールトトレランスと呼びます。
部品の選定は稼働に重要で壊れやすいもの、予備をもつコストを勘案して決定します。
HP-UNIXの場合でしたら迷わずハードディスクだと思います。
フェイルセーフ
故障したときに常に安全にその機能が作用することをいいます。
たとえばHP-UNIXで間違ったプログラムを走らせても測定器本体、測定対象に損害を与えないように必ずエラー処理の部分を記述する、コンプライアンスを記述する、
測定対象を故障させないように自動的に計測器の電源ダウンさせる、等。
エラー時の対応を施しておくことです。
MTBF、MTTR、稼働率
MTBFは平均故障間隔をさし、復旧~次の故障までの稼働時間の平均時間をとったものです。
当然これは長い方がよく、平均MTBF時間のアップがエンジニアの腕の見せ所です。
MTTRは平均修理時間のことで、故障してから復旧するまでの時間の平均をいいます。
入手困難なハードウェアの故障は交換までに時間がかかり、プログラムのハングアップ程度であれば数時間で復旧できるのが普通です。
よってMTTRを短くするために致命的なエラーを起こさないような事前準備が必要です。
稼働率は平均故障間隔を時間でわったもので、当然高い方が好まれます。
如何に稼働率を上げるか、下げないためにはどうするかを考えていく必要があります。