こんにちは。モビリティー・インテリジェンス開発部の森下です。
先日、日本初のSREをテーマにした1日イベント、SRE NEXT 2020が開催されました。 SRE NEXT 2020へ弊社はプラチナスポンサーとして参加しました。
スポンサーセッションにて、「タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて」というタイトルで、AIの製品化にあたって行った信頼性の取り組みについて、駆け足で紹介させてもらいました。
このプロダクトでは、DSとドメインアルゴリズムエンジニアと一緒に、ML、サーバサイドエンジニアが参画しています。 DS、アルゴリズムエンジニアが様々な実験的な取り組みを行い、それをML、サーバサイドエンジニアがデータパイプラインやサーバAPIに落とし込んで、動き続ける仕組みにして製品化をしています。 ML、サーバサイドエンジニアの担う部分は、施策を試す需要供給シミュレーションを効率的に実行するインフラであったり、実験的な試みをするためのAPIの信頼性であったり、非常に SRE に近い部分だと思います。 紹介した取り組みについては、スライドを見ていただければと思います。
このデータパイプラインやAPIのアーキテクチャーの詳細の話は、TechConで講演やブースを出す予定です。
SRE NEXT 2020では、多くの「実践」の取り組みが多く紹介されていて、本当に興味深い話が多くありました。運用を担うと聞くと、大変なイメージがありますが、スピーカーの話はどれも運用の世界をエンジニアリングの力で改善していっている話で、とても面白いものでした。そして、他の講演の方のレベルまでエンジニアリングできていない自分のプロダクトの反省も多く得られました。
- SLOを設定して、プロダクトと議論をすすめる手順の実例
- 行動に移せるアラートの設計のために、アラートの数を測定して振り返ること
- Observabilityを高めるためにIstioやStackdriverが有効であり、Istioでクラスターの外へのリクエストも見られるようになること
- リリースを一瞬でできるようにして、更にリリースの履歴が見えるようになったことで何が変わったか
- MLOpsを製品にする組織をどうやってマネジメントしていったか
講演資料の多くが既に公開され、今後講演動画も公開する予定とのことでした。 当日行けなかった方も、このような話を私のように自分のことのように感じる方は見てみると面白いと思います。
【SRE Next 2020】発表資料まとめ https://qiita.com/Hassan/items/6f7fb1c206f77716ee2a
また、私の聴講の一言感想は 個人ブログ の方に載せています。
当日は、スタッフの皆様のおかげで、講演、聴講とも内容に集中することができました。 非常にお世話になりました。
今回の SRE NEXT 2020 で得た糧を元に、信頼性をコントロールできるように努めたいと思います。
最後まで読んでいただき、ありがとうございます!
この記事をシェアしていただける方はこちらからお願いします。