社内でポストモーテムを読む会を始めた。個人の取り組みとして、週に一度30分~1時間でやっている。イメージとしては大学の先生のオフィスアワーのように、とりあえず社内に向けてオープンにしてやっている。誰かを巻き込むことは重要視していないので、自分だけで継続することを大事にしている。目的等は以下の通り。
- 目的: よりよい障害対応ができるようになる。これを達成できるようになるためにまずはポストモーテムを読む。
- やり方: 個人の取り組みとして、週に一度30分~1時間でやる。ひっそりとhangoutで配信する
- 扱う対象: SRE本のポストモーテムの章、社内の障害一覧、社外のポストモーテム、PagerDutyやNewRelicのベストプラクティス、SREcon資料、他業界の資料等
以下は、会を行うたびにScrapboxに取っているメモのテンプレ - 見たやつ - 今後みたいやつ - 新たな発見と提言
これまでに見たもの
- An AWS Elasticsearch Post-Mortem - Bozho's tech blog
- Improving Postmortem Practices with Veteran Google SRE, Steve McGhee
- SRE keeps digging to prevent problems | Google Cloud Blog
- SRE の教訓 : Google におけるインシデント管理とは | Google Cloud Blog
- Google Cloud Platform Japan 公式ブログ: SRE への冒険の始まり : Google Mission Control にようこそ
- Google - Site Reliability Engineering
最近ようやく社外のポストモーテムを読み始めることができている。良いポストモーテムとはなにかというのが自分の言葉で語れるようになったと感じた頃合いで社内の障害一覧からどれかピックアップして読んでいく活動に入っていきたいと思っている。あまり社外のポストモーテムのリンクを知らないので、これ良かったよというポストモーテムをご存じの方がいたら教えてもらえると嬉しい。