2019年は低インプット低アウトプットだったなあ..と反省していた年末年始、正月の勢いでssmjpさんへ発表を申し込んでみました。ありがたいことに今回機会いただけて発表してきました。理屈っぽい話なのでどこで話すべきかなあ..と悩んでいたネタだったのでssmjpさんの懐の深さはありがたいです。
レジリエンスエンジニアリングおよびSafety-IIについてはここ何年か勉強続けています。きっかけは、スライドの中でも引用元として記載したNHKの"視点・論点"という番組でした。朝4時20分からの10分番組ですが、たまたま見ていて内容に刺激されて一気に目が覚めました。NHKオンデマンドにまた出ないかな..
学ぶ中で私が引っかかった点から、以下の二つについて触れました。
・ITインフラ運用の自動化の文脈ではSafety-Iの固定的な世界が前提とされていないか
・Kubernetesって自立的で柔軟でということになっているけどそうなのか。設定次第とか分散トレーシングの活用次第とか(暗黙の)条件があるのではないか
今回の発表では、自動化/Auto-remediationとか自立的という意味でクラスタリングソフトを引き合いに出して"クラスタリングソフトを導入すればレジリエントなのか"という仮説を検証してみる流れでお話してみました。私が長いこと引っかかっていた議論を独白->反省するという若干照れもある内容でした。初めて聞く方にはおまぬけっぽく感じられないか不安でしたが、どうでしたかね... ssmjpのSlackでは好意的なリアクションいただけていて心安まりました。
(時間調整で直前にスライドを何枚か削りました。参考資料にあるkumagiさんの分散システムのスライドが本文中で参照されていませんが、スプリットブレインあたりの文脈で参照させていただきました。)
こういった話にお詳しい方にどういう場でお会いできるのかがイマイチ掴めていないのですが、ご教示くださる方や一緒に学んでくださる方がいらしたらぜひ知りたいです。もしくはご興味持ってくださる方が現れるきっかけとなればとても嬉しいです。さらにはこういった視点での運用改善のおしごとの場があればぜひお声がけいただきたいです。
発表直後なので達成感というかちょっとテンションが高くなっています。同じ流れの話題でssmjpさんとか吉祥寺pmさんとかの懐の広い場での発表をまた申し込んじゃおうかなー
Speakerdeckではリンクがクリックできないので、参考資料へのリンクを以下に並べておきます。
書籍)
www.amazon.co.jp
Web)
www.slideshare.net
I am SO excited for this talk. @cfhirschorn represents how *every* software VP should be thinking about and separating chaos engineering an resilience engineering. #qconlondon pic.twitter.com/XgZTSYeVQJ
— Nora Jones (@nora_js) 2020年3月4日