blog

DeNAのエンジニアが考えていることや、担当しているサービスについて情報発信しています

2024.03.28 イベントレポート

大規模インフラ運用とライブ配信基盤のインサイト DeNA インフラ/SRE MEET UP#8 レポート

by Yoshikazu Katayama

#infrastructure #sre-meetup #branding #recruiting #onboarding

はじめに

こんにちは。IT 基盤部でヘルスケアとメディカル事業のインフラの運用及び、インフラ関連の採用系の業務を担当している片山です。 今回、連続して開催している connpass イベント「 大規模インフラ運用とライブ配信基盤のインサイト DeNA インフラ/SRE MEET UP #8 」の企画も務めさせていただきましたので、その様子をレポートします。

DeNA インフラ/SRE MEET UP とは?

IT 基盤部では DeNA のエンジニア組織で活躍いただくためのオンボーディングに力を入れており、定期的に connpass イベントを開催しています。

前回のレポートはこちら。

これまでもインフラ未経験からの立ち上がり方や、障害対応のロールプレイ等、様々なテーマを取り上げてまいりました。 今回の SRE MEET UP では大規模環境ならではの運用やノウハウが詰まった内容となっております。 登壇者は新卒2年目からシニアエンジニアまで幅広く、様々なタスクに取り組む姿が垣間見えます。 技術的な話題に特化した内容でしたが、前回を上回る参加者が集まりました。

登壇内容

イベントのオープニングでは、DeNAのインフラ組織の概要とその新卒採用プロセスについて、ヒューマンリソース本部の二場さんと竹内さん、そして私で話させていただきました。 このセッションでは、参加者へのインフラ組織と新卒採用プロセスへの深い理解を促す内容を提供しました。 私自身が話をするのは IT 基盤部の紹介をするほんの数分ですが、短い時間で伝えたいことを凝縮することが以前よりできたと思います。

コンテナのログ機構の改善

はじめに登壇したのは IT 基盤部第一グループの沢柳さんです。 2021 年に中途入社し、主にエンタメ系のサービスのインフラ管理を担当されています。 今回はその中から、Voice Pococha の運用における Amazon Elastic Container Service(Amazon ECS)のログ運用についての紹介です。

まずはログ運用の変更前の構成となぜそうしたのか詳細に説明し、それぞれの対策を解説されました。 最も大きな問題は S3 に保存されたログを Athena でデータを正常にパースできず、検索できないことを挙げられました。 これは、Firehose でストリーミングされた複数の JSON データが1行にまとまることや、subscription filter によって必ず BASE64 エンコードして gzip 圧縮した状態で転送するなど、どちらも仕様による問題でした。

コンテナのログ機構の改善

そして、これらの解決策として構成を柔軟に変更できるようにするため、ログドライバーを awslogs から firelens に変更し、データを加工、振り分ける方法を採用されました。

コンテナのログ機構の改善

これにより Athena でうまく検索ができないという問題を解決されました。 他にも細かい考慮点について触れ、Firelens を導入することで柔軟で堅牢なログシステムを構築することができるとまとめられました。

コンテナのログ機構の改善

これから ECS の導入を検討し、ログの収集や加工考えている方にとって役立てていただける内容になっていたのでは無いかと思います。

VPC Service Controls を用いた大規模な Google Cloud 環境をよりセキュアに運用する方法

次に登壇したのは IT 基盤部ネットワークグループの尾留川さんです。 2020年に新卒入社し、以来ネットワークグループにて社内ネットワークの設計運用監視等をオンプレ、クラウドを問わず担当されています。 今回は DeNA のネットワークの中でも Google Cloud のネットワーク運用を中心に話されました。

はじめに DeNA で運用している社内ネットワーク構成の概要、オンプレ DC とパブリッククラウドとの接続方法について図を交えて説明されました。

VPC Service Controls を用いた大規模な Google Cloud 環境をよりセキュアに運用する方法

次に Google Cloud ネットワークを運用する上での課題に触れ、秘匿性の高いデータを取り扱うため、よりセキュアにデータを保護する枠組みが必要な事から VPC Service Controls を導入・運用するフローを全社的に整備する話に進みます。 そして VPC Service Controls の概要について説明した後、具体的な運用方法について紹介し、権限の管理とリソースの管理や、運用上の注意点など、整備するにあたり意識するポイントを解説されました。

VPC Service Controls を用いた大規模な Google Cloud 環境をよりセキュアに運用する方法

VPC Service Controls を用いた大規模な Google Cloud 環境をよりセキュアに運用する方法

運用フローとしては、運用時にサービス境界を設定する際 terraform の Pull Request をドライラン設定で作成、反映し、正しく通信が制御されることをログから確認後、本番のサービス境界適用を行うことで事故の発生を防ぐ運用になっていると紹介されました。

VPC Service Controls を用いた大規模な Google Cloud 環境をよりセキュアに運用する方法

私自身は Google Cloud 環境を触る機会があまりありませんが、今後秘匿性の高いデータを Google Cloud で扱う際には、よりセキュアな環境作りのため VPC Service Controls を検討する事を学ぶ機会になりました。

Tencent Cloud と AWS のライブ配信基盤の比較

最後に登壇したのは IT 基盤部第一グループの横田さんです。 2022年に新卒入社し、エンタメ系サービスのインフラ運用、構築を担当されています。 今回はその業務の中からライブ配信基盤の比較について発表されました。 こちらは 以前の Blog でも紹介された内容ですので、そちらもあわせて御覧ください。

今回のライブ配信基盤の比較は、AWS 以外のパブリッククラウドの併用したマルチクラウド化による、可用性向上とポータビリティ向上、配信遅延低減によるユーザー体験向上を目的として進められました。 現在のライブ配信基盤は Amazon Interactive Video Service (IVS) というマネージドサービスを利用しており、ユーザー体験向上の観点で、配信遅延や解像度の要件から Tencent Cloud の Tencent Real-Time Communication (TRTC) と Cloud Streaming Services (CSS) を比較対象とされています。 なお、発表後には参加者から「ほかのクラウド事業者を候補に検討していたか」と質問もありましたが、要件を満たしているサービスが Tencent Cloud のサービスしかなかったとの事でした。

Tencent Cloud と AWS のライブ配信基盤の比較

Tencent Cloud と AWS のライブ配信基盤の比較

比較するにあたって各サービスの特徴を説明した後、実際に行った比較方法などを解説されました。 (配信遅延の比較の詳細は こちら

最後にまとめとして、配信プロトコルが同じであれば、配信遅延はそこまで大きく変わらない事、ライブ配信基盤によって料金体系が大きく異なるので各種要件を決め、それぞれのコストを試算する必要がある、ということでした。 私も登壇内容を見返してみましたが、どちらにコストメリットがあるのかが複雑で、比較するだけでも大変だなと感じました。

おわりに

コンスタントに続けている SRE MEET UP ですが、初学者向けの内容と経験者向けの内容の塩梅が難しいと回を重ねるごとに感じます。 これまではどちらもバランスよく取り上げてきましたが、今回は技術寄りの専門的な話が多かったため、初学者には難しい部分もあったかなと思いますが、その分リアルな業務内容をお伝えすることができ、紹介としての役割には貢献できたのではないかと思っております。 これからも IT 基盤部の取り組みを紹介していける機会にしたいと思いますので、よろしくお願いします。

最後に、今回紹介したインフラ部門、IT 基盤部についてのページもあわせてご覧いただければと思います。

最後まで読んでいただき、ありがとうございます!
この記事をシェアしていただける方はこちらからお願いします。

recruit

DeNAでは、失敗を恐れず常に挑戦し続けるエンジニアを募集しています。