日々の色々

そのときやってることはまってることについて書いてくよ

SRE Lounge #9 参加レポ

SRE Lounge #9 とは

https://sre-lounge.connpass.com/event/129214/

講演内容

1. DIPのSREの活動とこれから @bayashi_ok

SREのスタート

エンジニア110名(内インフラエンジニア8名)
まずは自動化(Ansible)と可視化を導入した.

自動化

□ 自動化を根付かせるために

  • コード化するメリットを教える
  • 効率性を意識させる(リリースにかかる時間等)
  • 他社事例紹介
  • 何度でも粘り強く教える
  • 馴染みのある言葉で教える
  • 自動化の領域を広げる(頻度の高いものから変えていった)
  • SREチームがコードチェックする(コードに自由度が高いため)
可視化

可視化自体はすんなり進んだ
可視化したことで404が異様に多い,致命的なエラーがあるといったような問題が発覚

□ 可視化で得られたメリット

  • チームへの現状把握と問題の共有
  • コミュニケーションが広がり,エラーを拾えるように

SREのスタート地点に!!

速度改善の取り組み

上から検索上位に出すために速度改善がふってきた
画像最適化で貢献
fastlyを利用
結果,サイトスピードと応募率が改善
画像転送量も減り,料金的にも優しく

SREの現在と今後

Toilの削減
部署連携

Q&A

メンバーはシステム開発部から発足
本業とのバランスは本業7~6:SRE4~3ぐらいの割合

自動化したいと言う要望はもともとあったので,草の根活動をしながら導入していった

2. タップルSREの軌跡と描く未来 @genreaaaa

以前体験したチームの解散

プロダクトへのインパクトを求めすぎた
事業的に改善系は見えづらい

タップルでのSRE

足元課題はSLOの実現
中長期的な成長を見据える

タップルSREでやってきたこと

・ SLO ・リスクスコア
 リスクスコアを計算して100以下に保つようにしている

・オンボーディング
 アーキテクチャの管理

・障害対応
障害フローの整備 義務化のマインドセット  障害対応当番制の導入

・セキュリティーシート

・理想状態定義とロードマップ作成
 理想状態を技術ボードを中心に作成  SREとして理想状態に向けロードマップを作成

実現したい未来

事業に寄り添った形に加え,さらに信頼性に振り切った形にしたい
タップルのセキュアベースとなりたい

Q&A

  1. リスクスコア等の決め方は?
  2. 障害の問い合わせ件数で重要度を評価
    しきい値の決め方はエンジニアリーダーを中心に決定

  3. 眼の前の課題と中長期課題の2種類へのバランスは?

  4. SLOを使い,課題を満たしているうちは中長期課題をやっている

  5. リスクスコアの管理方法は?

  6. issueにはられたimpactのラベルをもとにDataDogで可視化している

  7. 「できる人がやる」から「みんなでやれるように」するためのコツ

  8. 当番制にすることで責任感をもたせつつ,運用中

3. エムスリーはどのようにしてSREを始めたか @tshohe1

SREチームについて

SREチームは横断組織として存在
インフラチームの配下組織として発足
リーダー1, メンバー4, セキュリティーチーム兼任1

従来のインフラチームの作業+SRE本に載っていること

SREチームの活動

・SLOの決定
小さなサービスから初めて広げていった

・SLIの決定
稼働率とレスポンスタイムから決定

・可視化
SLO/SLIを一覧できるKibanaダッシュボードを整備
SLO一覧からサッシュボードへリンク

・アラート
SLOに応じて一日ごとに測定・Slackへ通知

・SLOの定期的な見直し
各チームの開発陣とSREチームで3ヶ月に一度程度実施(昔は隔週だったが頻度は適宜変えている)

今後

SLO変更ルールを厳密に アラートがノイジーにならないように

感想

他の組織でどのような思想でどんなふうにSREを促進していったのかという知見を聴けてとても参考になった.
SREを詳しく知らない私でもわかりやすい発表が多く,初心者でも安心して聴きにこれる内容だった.
SLOの定期的な見直しを期日を決めてきちんと運用するのは,実行まで移すのはとても難しいと思うので, きっちり実施しているエムスリーさんすごい…
懇親会では他社でのSLOの決定のフローやマイクロサービス化の事例などを聞くことができ, 草の根活動の広め方などはとても参考になった.