SRE Lounge #9 参加レポ
SRE Lounge #9 とは
https://sre-lounge.connpass.com/event/129214/
講演内容
1. DIPのSREの活動とこれから @bayashi_ok
SREのスタート
エンジニア110名(内インフラエンジニア8名)
まずは自動化(Ansible)と可視化を導入した.
自動化
□ 自動化を根付かせるために
- コード化するメリットを教える
- 効率性を意識させる(リリースにかかる時間等)
- 他社事例紹介
- 何度でも粘り強く教える
- 馴染みのある言葉で教える
- 自動化の領域を広げる(頻度の高いものから変えていった)
- SREチームがコードチェックする(コードに自由度が高いため)
可視化
可視化自体はすんなり進んだ
可視化したことで404が異様に多い,致命的なエラーがあるといったような問題が発覚
□ 可視化で得られたメリット
- チームへの現状把握と問題の共有
- コミュニケーションが広がり,エラーを拾えるように
SREのスタート地点に!!
速度改善の取り組み
上から検索上位に出すために速度改善がふってきた
画像最適化で貢献
fastlyを利用
結果,サイトスピードと応募率が改善
画像転送量も減り,料金的にも優しく
SREの現在と今後
Toilの削減
部署連携
Q&A
メンバーはシステム開発部から発足
本業とのバランスは本業7~6:SRE4~3ぐらいの割合
自動化したいと言う要望はもともとあったので,草の根活動をしながら導入していった
2. タップルSREの軌跡と描く未来 @genreaaaa
以前体験したチームの解散
プロダクトへのインパクトを求めすぎた
事業的に改善系は見えづらい
タップルでのSRE
足元課題はSLOの実現
中長期的な成長を見据える
タップルSREでやってきたこと
・ SLO
・リスクスコア
リスクスコアを計算して100以下に保つようにしている
・オンボーディング
アーキテクチャの管理
・障害対応
障害フローの整備
義務化のマインドセット
障害対応当番制の導入
・セキュリティーシート
・理想状態定義とロードマップ作成
理想状態を技術ボードを中心に作成
SREとして理想状態に向けロードマップを作成
実現したい未来
事業に寄り添った形に加え,さらに信頼性に振り切った形にしたい
タップルのセキュアベースとなりたい
Q&A
- リスクスコア等の決め方は?
障害の問い合わせ件数で重要度を評価
しきい値の決め方はエンジニアリーダーを中心に決定眼の前の課題と中長期課題の2種類へのバランスは?
SLOを使い,課題を満たしているうちは中長期課題をやっている
リスクスコアの管理方法は?
issueにはられたimpactのラベルをもとにDataDogで可視化している
「できる人がやる」から「みんなでやれるように」するためのコツ
- 当番制にすることで責任感をもたせつつ,運用中
3. エムスリーはどのようにしてSREを始めたか @tshohe1
SREチームについて
SREチームは横断組織として存在
インフラチームの配下組織として発足
リーダー1, メンバー4, セキュリティーチーム兼任1
従来のインフラチームの作業+SRE本に載っていること
SREチームの活動
・SLOの決定
小さなサービスから初めて広げていった
・SLIの決定
稼働率とレスポンスタイムから決定
・可視化
SLO/SLIを一覧できるKibanaダッシュボードを整備
SLO一覧からサッシュボードへリンク
・アラート
SLOに応じて一日ごとに測定・Slackへ通知
・SLOの定期的な見直し
各チームの開発陣とSREチームで3ヶ月に一度程度実施(昔は隔週だったが頻度は適宜変えている)
今後
SLO変更ルールを厳密に アラートがノイジーにならないように
感想
他の組織でどのような思想でどんなふうにSREを促進していったのかという知見を聴けてとても参考になった.
SREを詳しく知らない私でもわかりやすい発表が多く,初心者でも安心して聴きにこれる内容だった.
SLOの定期的な見直しを期日を決めてきちんと運用するのは,実行まで移すのはとても難しいと思うので,
きっちり実施しているエムスリーさんすごい…
懇親会では他社でのSLOの決定のフローやマイクロサービス化の事例などを聞くことができ,
草の根活動の広め方などはとても参考になった.