トラブルしゅーたーず #05に参加

概要

トラしゅに参加して来た。この勉強会には、休日にまでわざわざトラブルシュートをしに来るMが集まる。

今回はWeb系SI会社の社員として、顧客ECサイトで発生したトラブルに対応するという内容。詳しい概要はここ。私はチーム3に参加。

私のやったこと、できたこと

  • 初期段階での進行
  • ホワイトボード書き
  • Google drive の Documents で対応メモ作成

反省点

  • 役割分担できず。初対面で各々のスキルを正確に判断することは無理なので、とりあえず以下ぐらいに分けるといいのかな?
  • 私が中途半端に最初だけ仕切ってしまった。
  • 手が空いてしまった人がいたかも。
  • 全体での情報共有 → Google drive に気付き事項を書くドキュメントを作れば良いかも?
  • 不具合発生の初期対応。サーバーとメンテナンスメッセージの準備は行ったが、切り替え方法がわからず結局切り替えできなかった。
  • ホワイトボード、共用画面の活用
  • 報告会より前に1次報告を忘れていた。
  • 報告書に影響範囲を書いていなかった。

感じた点、学んだ点

トラブルシューティング

  • 所属チームは優勝。しかしTV放映の高負荷を乗り切った実感がなかったため、もやっとする感じに。
  • 過去からの贈り物はatコマンドだった。cronしか確認してないよ…。
  • タイムテーブル作成とかどうだろう。
  • 原因究明より、現状確認と正常な状態の把握&暫定対応が必要。
  • 仮想マシンなら、不具合の起こったインスタンスのクローンを作成してそれをいじり回す、という手段はいいね。

山◯君オペ

  • やったことは何かしらドキュメントに残す。
  • daemonはstartする前にinit書くとか。

懇親会

  • 本番機はもとより開発機でも、オペレーションのログは必ず取る。自分の身を守るため。ログが無ければ自分がやっていないことの証明ができない。
    • putty、Tera Term はログ機能を設定する。
    • sshコマンドなら、次のコマンドが活用できるかも。
      • tee
      • script
    • 対象が Windows Server なら PowerShell 入れて、オペレーションはコマンドで行う。
    • GUIでやるならムービー撮る。
  • 世の中、パケットキャプチャしてフラグチェックしてる人がいる。
  • ファイル内容を見る前にバイナリヘッダを確認する人がいる。

次回目標

  • 役割分担決める。
  • 情報共有。チームで取り組む。
  • 初期対応。(メンテナンス画面、ユーザー報告)

報告書一覧