はじめに
こんにちは、IT 基盤部の片山です。 前回に引き続き、connpass イベント「 事業を支えるコストコントロール手法 DeNA インフラ/SRE MEET UP #7 」の企画をサポートしており、その様子をレポートしたいと思います。
最近の SRE MEET UP では、新卒や若手の立ち上がり方にフォーカスした内容がメインとなっていましたが、今回は立ち上がり方だけでなく技術的な内容にも焦点を当てており、インフラ経験のある方にも興味を持っていただける様なコンテンツを目指しました。 その結果、シニアエンジニアと新卒2年目のエンジニアによる登壇で、幅のある内容となったのではないかと思います。
登壇内容
まずは開催にあたり、ヒューマンリソース本部の二場さんと竹内さんからオープニングと DeNA の会社概要や新卒採用について話していただきました。 短い時間で DeNA の事を知ってもらえるような内容となっており、人・組織の特徴や求める人物像を紹介しました。 その後、私の方から IT 基盤部について簡単に紹介させていただき、本題の登壇へと進みます。
Aurora の課題を ProxySQL で解決
はじめに登壇したのは IT 基盤部第一グループの山本さんです。 様々な開発を経験された後、2020 年よりインフラチームに所属し主に Pococha(ポコチャ)や Voice Pococha(ボイスポコチャ)を担当しています。 今回はその中から、ProxySQL を利用した Aurora の課題解決について発表していただきました。 こちらは 以前の Blog でも紹介された内容ですので、そちらもあわせて御覧ください。
まずはポコチャの仕組みと、DB の歴史に触れてから Amazon Aurora MySQL の活用状況を紹介されました。
それから Aurora の課題についての話となり、新規接続の遅延 と 新規インスタンスの性能劣化 があること、それらの課題を同時に解決するために Proxy 構成の構築を取ることにして、ProxySQL の検証へと話は進みます。
ProxySQL の効果としてピーク時に Created thread が増加しないことと引き換えに、新たな課題として 1.NLB の負荷、2.ProxySQL の Thread 作成のコスト、3.ネットワークコスト増加 が発生したことをあげられ、それぞれの解決策を話していただきました。(解決策の詳細は こちら ) ネットワークコスト増加の解決策については、当時 IT 基盤部内で話を聞いたときに自分の担当しているサービスにも当てはめて使えるんじゃないか、と関心を持ったことを記憶しています。
最後に、Aurora MySQL を環境の最適化によって運用コストが削減できたこと、他にも様々な事業の課題について問題解決しているとまとめられました。
業務効率化のため温かみのある監視を自動化した話
次に登壇したのは IT 基盤部第一グループの岡崎さんです。 2022年に新卒入社し、ヘルスケア・エンタメ領域のインフラと、パブリッククラウドチーム(以下 PCA)を掛け持っています。 はじめに PCA について、クラウドアカウントの全社最適化を行っていることや、兼務メンバーだけで構成されていることなどの説明を行いました。
その PCA の業務の中から、AWS で購入している RI / SP の管理に関する業務を自動化するツールの開発の話を紹介しました。 これまでの問題点は 殆どが手作業で、多くの工数が必要だった (= 温かみがあった)ことや、各管理者が対応を忘れた場合、対応が後手に回る ことをあげ、それらに対応するため自動化や通知機能を刷新したツールを作成したことを説明しました。
これらの機能を盛り込んだツールの効果について、リストアップは完全に自動化されたため PCA 全体で 30分/週 程度の削減 に繋がったことや、組織全体の RI/SP の情報がわかりやすく可視化されるようになったこと、買い忘れを防ぎ組織全体のコストメリットを生み出せた ことをあげられました。 また利用者側としても、通知の内容がわかりやすくなり、PCA とのコミュニケーションを減らすことができたと振り返られてました。
発表の後の Q&A では、実装にかかった期間についてや、期限切れが近づいたインスタンスの選別からリスト化についてなど、具体的な質問が上がっており発表のフォローも行いました。
文系・新卒・インフラ未経験の私がインフラエンジニアになって
最後に登壇したのは IT 基盤部第二グループの井上さんです。 2022年に新卒入社し、インフラ未経験ながら、国内向けゲームタイトルのインフラ運用を担当しています。 登壇内容はこれまでとは変わり「文系・新卒・インフラ未経験の私がインフラエンジニアになって」と題して、DeNA のインフラエンジニアになると身に付くことを、実体験を踏まえながら話してくれました。 こちらも 以前の Blog で紹介していただいたものを改めて発表していただきました。
まずは、身についたこととして「タスクについて考え抜く」ことの話です。 考え抜くことの一例として「論理的に筋道が通っていること」をあげ、どういうことなのか詳細に分解しながら体験談を織り交ぜ話を進めます。
ゴールまでの見通しが立っていないと、行き当たりばったりの行動で時間を無駄にしてしまうこと や、ゴールが不適切だと問題の解決策が対症療法でしかないこと、 論理的に筋道を立てるためには こまめに現在地を確認する ことが必要で、その意味について話してくれました。 私も会議などで話が発散してしまう経験がありますが、この話を聞いて現在地を確認することの重要さに改めて気付かされました。
次に話したのは、「ミスときちんと向き合うこと」についてです。ミスときちんと向き合うとは
- ミスをスルーしない
- ミスを減らすために工夫をする
- ミスによる影響を抑えるために工夫をする
ことをあげ、それらの必要性についてインフラエンジニアの視点で説明しました。
これら経験を通じて、ミスを完全に避けることはできない前提で、いかに工夫をするのかが盛り込まれている内容になってました。 また、Q&A の時間ではキャッチアップや苦労について、新卒・インフラ未経験ならではの深掘りされる質問をいただいており、立ち上がり方への関心も伺う事ができました。
おわりに
今回のイベントを振り返ると、本格的な技術内容から、失敗しながら成長する話などを盛り込みつつ、色々なコストコントロールの形を見せてくれてたな、と感じました。 イベント後のアンケートでも、DeNA ならではの規模感でインフラの事例が紹介されたことから参考になったことや、逆にまだ一部の自動化ができてない事に驚かれるなどのご意見をいただけました。 今後もご期待に添えるよう様々な IT 基盤部の情報を発信していきたいと思いますので、よろしくお願いします。
今回紹介したインフラ部門、IT 基盤部についてのページもあわせてご覧いただければと思います。
最後まで読んでいただき、ありがとうございます!
この記事をシェアしていただける方はこちらからお願いします。