【技術メモ】SRE
必要なスキル
Netflix SRE の職務定義書
職責
- 効果的なツールの利用やアラート、信頼性に対するリスクを識別し取り組む責任
- パフォーマンスと信頼性のチームにおいて他のチームとともにオンコールのローテーションに参加する
- 継続的な信頼性を向上させるために、プロダクトの停止においてトリアージ(治療の優先度を選別)作業を行い、プロダクトのエンジニアリングチームと連携し対策を実施する責任
- 信頼性やパフォーマンスを向上させるために、クラウド関連の最適化やベストプラクティスを定義し伝道する
必須要件
- 高トラフィックな大規模分散システムで生じる不安定さの根本原因を解決できる能力
- Linux/Java/Tomcatや他のミドルウェア技術における設定や障害対応経験
- 信頼性の観点からの大規模で複雑なシステムの理解力
- pythonかperlかJVMベースの言語でのコーディング力
- 信頼性の問題を解決する情熱と今後の戦略を見極める力
MSAとSRE
DevOpsとSRE
Cybozu
www.slideshare.net
Atlassian
その他
www.slideshare.net