Software Design 2021年5月号 ルータ実践活用「NextHop」 Special座談会「ネットワークエンジニアで飯を食う」お読みいただけましたか?~ネットワークエンジニアとして生き残るためのヒントを得よう~

Software Design 2021年5月号が2021年4月16日に発売されました。ルータ実践活用「NextHop」 Special座談会「ネットワークエンジニアで飯を食う」   、お読みいただけましたでしょうか?対談記事内では、エンジニアとしてどう成長していったのか、エンジニアとして飯を食うためにこだわっていることを中心にお話させていただきました。

また、これからネットワークエンジニアになろうとしている若者へのメッセージもありますが、誌面スペースの都合上割愛せざるを得なかったメッセージについて、ヤマハルーターの仕様を交えながら、ここで少し補足したいと思います。

素直に「助けてください」と言えるエンジニアになろう

どんなにあなたが新人エンジニアであろうと、お客様はあなたをプロとして扱います。つまり、対価を支払うのだから対価のぶんの成果を求めますよ、という扱いなのです。優れたエンジニアはきっと誰の助けも借りずスマートにアウトプットを行うでしょう。しかし、「出来ないことはない」イコール「優れたエンジニアである」ではないのです。

しかし、あなたも私も、お客様でさえ「完璧」な人はいません。技術的な引き出しは多いに越したことはありませんが、どんなベテランエンジニアであってもわからないことや未知の現象に出くわすことは珍しくないのです。そんなとき、素直に「助けてください」と言えるエンジニアになってください。これには

  • 早めにアラートをあげることで手戻りにかかるコストを減らし、対応時間のリードタイムを短くできる
  • 自分がどこで詰まっているのかを言語化できると円滑なコミュニケーションが取れる

という2つの目的があります。

手ぶらで助けを求めてはいけません

さて、ネットワーク障害などであなたのスキルを超えた対応が求められるとき、上司やリーダーに助けを求めることがあるでしょう。このとき、たった1つの守るべきルールは

手ぶらで助けを求めてはいけない

です。それでは、あなたが助けを求めるときに何を持っていけばよいのでしょう?最低限

  • 発生事実のサマリとログ
  • 求められているゴール
  • あなた自身がどこまで対応可能で、どこからが困っていることなのかの情報

これらの情報と、感謝の心を言葉にして伝えることを忘れずに添えて助けを求めましょう。

発生事実のサマリとログを整理しよう

障害発生に慣れていないと気持ちが焦りがちで、何をどうエスカレーションしたらよいかがわからずに、いわゆる「頭が真っ白になる」こともあるでしょう。私も最初はそうでした。しかし、障害報告の「型」を覚えることで、あなた自身の心の負担も軽くなり、また、関係各所に正確な情報を伝えることができます。5w1hのすべてをリストアップするのは難しくとも

  • いつ
  • どこで
  • 何がおきたのか

の3点セットと、可能であれば当該機器のログをセットで揃えましょう。ここでいう「可能であれば」は決してログ取得が任意という意味ではなく、当該機器にSSHからもコンソールからもログインできない限り、ログは取得しましょうということを意味しています。ログは口ほどにモノを言います。ヤマハルーターは、 restart コマンドや TFTP によるファームウェアのバージョンアップなどで電源を入れたままルーターが再起動した場合でも、電源を切らない限りはログは保存されますので、ルーターにアクセスできる限りは真っ先にログ取得を行うことを心がけましょう。

求められているゴールを理解しよう

障害被疑部位の復旧確認はもちろんのこと、サービス全体としてどこまで復旧していればよいのかを理解しましょう。障害影響範囲がどこまでなのか、いつまでに復旧しないと業務影響がどれほど発生するのかを常に意識することが肝要です。

あなたができること、助けてほしいことを明確にしよう

まず、あなたがこれまで試したこととその結果、そしてこれから試行しようとしていることを整理しましょう。初手からあなたがやるべきことを整理せずに「助けてください」というのは丸投げです

少なくとも、あなたが理解していることはもちろん、何をどう助けてほしいのか、あるいは何がわからないのかを言語化することは、どんな業務を行ううえで最も大切なことなのです。

LANマップをドリルダウンすると障害被疑部位を可視化することができます。また、全体障害のように見える事象であっても、すべての機器がダウンしているのか、一箇所の障害が全体に影響を及ぼしているのかを切り分けることで、解決までのリードタイムを短縮し、不明点も絞り込むことができるのです。

こうしたトラブル対応は一朝一夕にベストプラクティスを得ることはできませんが、あなたが乗り越えた壁は必ず自身の血肉となります。また、普段からログを確認したり、ルーターのWEB GUIやコマンドラインから状態を確認したりする習慣をつけることで、通常時と障害発生時の差分を直感的に理解することが可能になります。