はじめに
こんにちは。データ基盤部に所属しているデータエンジニアの笠西と申します。 データ基盤部とは、全社を横断してデータ分析基盤や機械学習パイプラインの開発・運用をしている組織です。 詳細は チーム紹介ページ をご覧ください。 私が所属するグループではゲームのデータ分析基盤の開発・運用をしています。
データ基盤部では以下3つの社内勉強会が定期開催されており、メンバー間の知識共有が活発になされています。
- データ基盤技術トーク
- Dataform 友の会
- dbt DeNA community
データ基盤に関連するトピックだけで、社内勉強会が3つも定期開催されているのはかなり珍しいのではないでしょうか? 本稿では、これらの勉強会について各運営メンバーからご紹介します。
データ基盤技術トーク
データ基盤技術トーク運営メンバーの笠西です。 データ基盤技術トークとは、データ分析基盤やMLOpsに関するトピックを持ち回りで発表し合う、週1回開催の勉強会です。 データ基盤部メンバーは基本的に全員参加で、加えてDeNAの子会社であるDeSCのデータエンジニアの方や、関連会社であるGO株式会社の方も参加されています。
話されるトピックは多岐にわたっており、個人的に興味を持っている技術についてや、現在関わっているプロジェクトのデータ基盤の紹介など、さまざまな発表を聞くことができます。 以下は2024年度に話されたトピックの一例です。
- Argo Rollouts入門
- dbt-coreのコードの歩き方と自分なりの読み方
- ゲームデータグループでデータ分析基盤の開発環境テンプレートを作った話
- Google GroupのAPIで遊ぶ
- HR 環境における VPC service controls の構成について
- Icebergやってみた
- Rustを使ったブラウザで動かすAIモデル(音声処理を例に)
- Triton Inference Serverの紹介
検索した限りですが、このようなデータ基盤に関するトピックをざっくばらんに話せるような社内勉強会を実施されている会社は他になく、データ基盤部というデータエンジニア・MLOpsエンジニアの大規模な横断組織を持っているDeNAならではの勉強会だと言えるでしょう。
Dataform 友の会
Dataform 友の会を運営している邉見です。 Dataform 友の会は、前述のデータ基盤技術トークからスピンオフする形で、2023 年 12 月に誕生した新しい勉強会です。 Dataform は Google Cloud と統合されたデータモデリング/パイプライン構築のためのサービスで、 2023 年 6 月より一般提供されています 。 DeNA においては、すでにいくつかの分析基盤で Dataform を採用してデータパイプラインを構築した事例があります。
Dataform 友の会では、有志参加者から持ち寄られたトピックについて、週次で共有・ディスカッションする形で開催しています。以下は実際に発表されたトピックの一例です。
- 技術的知見・運用ノウハウの共有
- 開発環境
- JavaScript の活用、ライブラリ化
- データ品質やメタデータといったデータマネジメントへの応用
- GitHub Actions との連携
- Dataform の最新リリースを追跡
- 社外での採用事例など動向をリサーチ
Dataform は比較的新しいサービスのため、社内外の知見も他のツール・サービスと比較して相対的に少なく、利用者側で試行錯誤や工夫を求められる場面もありました。勉強会を通じて、こうした知見が組織を超えて蓄積されていくことで、社内での Dataform 活用をさらに効率化・高度化することが、この勉強会での最初の目標です。将来的には、こうした取り組みを対外的に発信するような活動に広げてゆきたいと考えています。
dbt DeNA Community
dbt DeNA Communityを運営している渡辺です。 dbt DeNA Communityは、勢いを止めないdbtの進化に追いつきつつ意義深い探求をしていくことをモチベーションとしたコミュニティーです。 要はdbtにまつわるトピックをざっくばらんに話すところです。 隔週程度でトークセッションを設けつつこの会を起点としてさまざまな方のdbtについての自発的なコミュニケーションを促していくことを狙っています。
dbtは前述のDataformと同じくデータモデリング/パイプライン構築のためのツールで、 BigQuery などのデータウェアハウス製品と接続してデータ変換処理を実行できます。 DeNAにおいてもすでにdbtを活用したデータパイプラインが多数開発・運用されています。 以下に関連記事をご紹介します。
- dbt testとelementaryを活用してデータ品質テストを爆速で実装した話
- ゲーム事業の分析基盤データパイプライン開発環境標準化への取り組み
- Redshift Serverless + dbtでデータ品質テストを100倍高速化した話
トークセッションについて
隔週程度でラフにdbtにまつわるトピックを持ち寄って議論をする会です。 トークセッションは1つに付き5分程度のボリュームで話をしてもらい適宜ディスカッションを行います。
コミュニティーのコミュニケーション用にslackチャンネルも用意しておりそこでトークセッションのネタ募集、宣伝やdbtのアップデート、発見を発信しています。
その他は、社内のプライベートリポジトリにてdbtを簡単に体験できる開発環境構築を提供しています。
今までのトークセッションで話したこと抜粋
- dbtの環境分離について
- dbt test結果の分かり辛さへの特効薬「Elementary」
- dbt-project-evaluatorって何
- dbt contractsモブプロ
おわりに
本稿では、データ基盤部で実施されている3つの勉強会についてご紹介しました。 ここまでデータ基盤に関する知識共有の取り組みが活発に行われているのは、データ基盤の大規模な横断組織を持つDeNAならではの特徴だと思います。 最近新たにLangChainの勉強会が発足するという噂もあり、ますます知識共有の輪が広がっていく流れを感じています。 今後もデータ基盤に関する知識共有を促進できるよう、引き続き勉強会の運営や発表に取り組んでいこうと思います。
最後まで読んでいただき、ありがとうございます!
この記事をシェアしていただける方はこちらからお願いします。