トラブルしゅーたーず #05に参加
概要
トラしゅに参加して来た。この勉強会には、休日にまでわざわざトラブルシュートをしに来るMが集まる。
今回はWeb系SI会社の社員として、顧客ECサイトで発生したトラブルに対応するという内容。詳しい概要はここ。私はチーム3に参加。
私のやったこと、できたこと
反省点
- 役割分担できず。初対面で各々のスキルを正確に判断することは無理なので、とりあえず以下ぐらいに分けるといいのかな?
- リーダー、ファシリテーター
- 書記(ホワイトボード、対応経過、報告書)
- 調査隊
- 私が中途半端に最初だけ仕切ってしまった。
- 手が空いてしまった人がいたかも。
- 全体での情報共有 → Google drive に気付き事項を書くドキュメントを作れば良いかも?
- 不具合発生の初期対応。サーバーとメンテナンスメッセージの準備は行ったが、切り替え方法がわからず結局切り替えできなかった。
- ホワイトボード、共用画面の活用
- 報告会より前に1次報告を忘れていた。
- 報告書に影響範囲を書いていなかった。
感じた点、学んだ点
トラブルシューティング
- 所属チームは優勝。しかしTV放映の高負荷を乗り切った実感がなかったため、もやっとする感じに。
- 過去からの贈り物はatコマンドだった。cronしか確認してないよ…。
- タイムテーブル作成とかどうだろう。
- 原因究明より、現状確認と正常な状態の把握&暫定対応が必要。
- 仮想マシンなら、不具合の起こったインスタンスのクローンを作成してそれをいじり回す、という手段はいいね。
山◯君オペ
- やったことは何かしらドキュメントに残す。
- daemonはstartする前にinit書くとか。
懇親会
- 本番機はもとより開発機でも、オペレーションのログは必ず取る。自分の身を守るため。ログが無ければ自分がやっていないことの証明ができない。
- putty、Tera Term はログ機能を設定する。
- sshコマンドなら、次のコマンドが活用できるかも。
- tee
- script
- 対象が Windows Server なら PowerShell 入れて、オペレーションはコマンドで行う。
- GUIでやるならムービー撮る。
- 世の中、パケットキャプチャしてフラグチェックしてる人がいる。
- ファイル内容を見る前にバイナリヘッダを確認する人がいる。
次回目標
- 役割分担決める。
- 情報共有。チームで取り組む。
- 初期対応。(メンテナンス画面、ユーザー報告)