はじめに
こんにちは、DeNAでAI研究開発エンジニアをしている鈴木( @x_ttyszk )です。2025年8月5日に渋谷オフィスでのリアル開催とオンライン配信のハイブリッド形式で開催しました「DeNA × AI Talks #1 - AIスペシャリストが語る、最新技術 -」( connpass )について、開催レポートをお届けします。本記事では、当日の発表資料と内容の要約をご紹介します。
DeNA × AI Talksについて
「DeNA × AI Talks」は、AI技術の最前線に触れ、実践的な知見を共有することを目的としたDeNA主催のトークイベントです。
DeNAでは今年2月にオンラインで DeNA × AI Day を開催しましたが、より定期的にAIに関する情報を発信し、参加者の皆さんと直接交流できる場を作りたいと考え、このイベントを立ち上げました。
記念すべき初回となる今回は、AI技術に関心のあるエンジニアや研究者、学生の皆さんを対象に、DeNAのAIスペシャリストたちが最新技術や活用ノウハウを紹介しました。渋谷オフィスには40名近くの方、オンライン配信には同時接続常時100名以上の方が集まりました。発表後の質疑応答や懇親会では活発な議論が交わされ、大盛況のうちに終えることができました。
動画
オンライン配信のアーカイブをYouTubeにて公開しています。
セッション
ここからは、当日の各セッションの内容をダイジェストでお届けします。
Opening Talk AIオールインをリードするAIスペシャリスト
登壇者:田中一樹(AI技術開発部 部長)
AI技術開発部の部長である田中より、DeNAが全社的に推進している 「AIオールイン」戦略 の全体像が語られました。
(6スライド目からがOpening Talkです)
この戦略は、次の3つの柱で構成され、そのコアを担うのがAIスペシャリストです。

1: AIによる全社生産性向上
全社業務の効率化を目指し、AI活用により現状の3,000人体制を1,500人体制でも維持・成長させ、残りの1,500人を新規事業創出などにシフトすることを目標としています。具体的な事例として、コストメリットも大きい品質管理のAI自動化、法務業務における生成AIによるレビュー時間削減等の分野で先行しています。
エンジニア向けの開発支援AIツールの導入や、ビジネス職、デザイナー職も巻き込んだ全社的なAI活用を進めています。社内でのナレッジ共有や合宿、 外部講師を呼んでのハンズオン といった取り組みも行っています。 集まったナレッジはXで社外発信 も実施しています。
2: AIによる既存事業の競争力強化
ゲーム、スポーツ、ライブ配信など、DeNAの多様な事業ポートフォリオにおいてAIを活用しています。スポーツではプロバスケットボールチーム川崎ブレイブサンダースや プロ野球横浜DeNAベイスターズのチーム強化 、ライブ配信の審査工数60%削減など、幅広い分野でAIが競争力の源泉となっています。これらの実現には、コンピュータビジョン、強化学習、NLPなど、多岐にわたるAI技術が利用されています。
3: AI新規事業の創出・グロース
AIを核とした「AIネイティブ」なプロダクト開発にも注力しており、現在約10本のAIプロダクトが開発進行中です。開発に関連する技術キーワードとしてはAI Agent、LLM、VLM、画像動画生成、ASR/TTS、LangChain、Claude Code、DPO / GRPO with tool caling、vLLM、LoRAなどです。
2025年4月には 新会社「DeNA AI Link」を設立 し、AIコンサルティングやソリューション提供も開始しています。国内外の戦略的投資や、 Devin開発元のCognition AI, Inc.との戦略的パートナーシップ といったグローバルコミュニティとの連携も強化しています。
DeNAのAIスペシャリストチーム
これらの戦略を牽引するのが、少数精鋭のAIスペシャリストチームです。深い専門性を追求し、事業課題の解決に情熱を燃やす人材です。Kaggle Grandmasterが5人、Kaggle Masterが7人いる他、CVPR / KDD / AAAIなどのトップカンファレンスでの論文採択経験者、PhD保持者も在籍するなど、高い専門性を持つメンバーで構成されています。彼らには「技術専門性」「エンジニアリング」「業務推進力」の3つの能力が求められており、素早い意思決定と実装で事業インパクトを創出しています。
社内勉強会などを通じて技術専門性の向上に努めていますが、1つの企業の中でナレッジを貯めずに日本全体のAIコミュニティの発展とグローバルでの競争力強化に貢献したいと考えており、この想いが今回のイベント開催にもつながっています。
Segment Anything Modelの最新動向:SAM2とその発展系
登壇者:吉川天斗
AIスペシャリストの吉川より、Meta AIが発表した動画セグメンテーション基盤モデル 「Segment Anything Model 2 (SAM2)」 の技術解説と、CVPR2025で発表された発展的な手法が紹介されました。
SAM 2: Segment Anything in Images and Videos
SAM2は、画像が対象だったSAM1を動画に拡張したモデルです。クリックなどの簡単な指示だけで、動画内のオブジェクトを追跡し、高品質なマスクを生成できます。( 公式デモ )DeNAではこの技術を、川崎ブレイブサンダースのチーム強化プロジェクトの中で、選手が重なり合うようなオクルージョンに強い選手トラッキングに活用しています。
SAM2の発展系「A Distractor-Aware Memory for Visual Object Tracking with SAM2」
ここからはSAM2の性能をさらに向上させる2つの最新手法の紹介です。
1つ目は、追跡対象と似たオブジェクト(Distractor)にトラッキングが移ってしまう問題を、追加学習なしで解決するという手法です。Distractorの情報を「Distractor-Resolving Memory」として保持することで、紛らわしいオブジェクトに対する頑健性を向上させています。高い性能を維持しつつ、速度低下は約20%に抑制しています。
SAM2の発展系「SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation」
2つ目は、SAM2をテキストプロンプトによるオブジェクト指定に対応させるという手法です。SAM2本体の重みは固定したまま、軽量なアダプターを追加学習させることで、テキスト入力との連携を実現しています。
この手法を今回の発表にあたりバスケ映像で試したところ、バスケ映像ではあまりうまくいく例がないという結果でした。学習データ不足による汎用性や、複数オブジェクトの同時指定に課題がありそうです。
SAM3
Meta AIから SAM3 の公開が予定されており、さらなる精度改善や拡張が期待されます。現在waitlistに申し込み可能です。
LLMで構造化出力の成功率をグンと上げる方法
登壇者:滝口啓介
AIスペシャリストの滝口より、LLMの出力をJSONなどの特定の形式に揃える 「構造化出力」 の成功率を飛躍的に向上させる方法について、ライブラリ Outlines の情報を交えて解説しました。
構造化出力とは
LLMを活用したプロダクト開発の需要が高まっていますが、その際出力を「構造化出力」として扱うことが多いです。出力の一貫性、型安全性、データ処理のしやすさといった点で重要です。一方、モデルや設定によっては形式が崩れるという課題があります。
成功率を上げるためのは以下のような工夫が考えられます。
- 明確で具体的なプロンプト設計
- 少数例(Few-shot prompting)の提供
- モデルの選択と設定
- 構造化出力に特化したLLM推論ライブラリを使用
本発表ではとくに4つ目のライブラリについて扱います。
構造化出力を100%成功させるライブラリ「Outlines」
Outlines は、LLMが次の単語(トークン)を生成する際に、 定義された文法(JSON Schemaなど)に合致する単語のみを候補として絞り込む「文法誘導型生成」 というアプローチを取ります。これにより、LLMは常に正しい形式でしか出力できなくなり、構造化出力の失敗がほぼゼロになります。
実験結果
実際に、Geminiファミリーのモデルを使ってLangChainとOutlinesの性能を比較する実験を36ケース行いました。要約した結果が以下の表です。
項目 | LangChain | Outlines |
---|---|---|
構造化出力の成功率 | 88.9% | 100% |
データ抽出成功率(中身が空でない割合) | 30.6% | 100% |
平均推論時間 | 約4秒 | 約8秒 |
Outlinesは出力形式を100%守るだけでなく、LangChainでは中身が空になりがちだったデータ抽出も100%成功しました。推論時間が長くなるというデメリットはあるものの、その信頼性の高さを考えれば十分に許容範囲です。データ抽出の信頼性が求められるプロダクト開発において、Outlinesは非常に強力な選択肢になります。
GUI操作LLMの最新動向: UI-TARSと関連論文紹介
こちらのセッションは諸事情により当日発表ができなかったのですが、イベント終了後に資料を公開しております。
登壇者:藤川和樹
LLMエージェントがブラウザやスマートフォンなどのGUI(グラフィカル・ユーザー・インターフェイス)を直接操作する技術の最新動向が紹介されました。とくに、ByteDanceから発表された注目論文 「UI-TARS」 を中心に、その仕組みと可能性が解説されました。
GUI操作LLMエージェントとは?
GUI操作LLMエージェントは、「〇〇を予約して」「この商品をカートに入れて」といった人間の指示に基づき、スクリーンショットやWebページの構造(DOM)を理解し、クリックや入力といった具体的な行動を自律的に行う技術です。
この技術は、QAテストの自動化や、APIが提供されていないツール間の業務連携(例:経費精算、リサーチ結果の転記)など、幅広い応用が期待されています。とくにDeNAでは、年間数十億円規模のコストが発生するQA(品質管理)工程のコスト削減に繋がる有望な技術として注目しています。
しかし、このタスクはLLMにとって非常に難易度が高いとされています。
- 曖昧な指示からの行動計画立案
- 画面要素の正確な認識と操作
- エラーなど予期せぬ状況からの復帰
これらの能力が求められるため、 WebArenaベンチマーク [Zhou+, ICLR24] における ChatGPT Agent のタスク遂行率は65.4%と、人間の78.2%にはまだ及んでいません。
性能評価のためのベンチマーク開発
この困難な課題を解決するためベンチマーク開発が行われています。モデルの能力を正確に測るため、多様なベンチマークが開発されています。
- OSWorld [Xie+, NeurIPS24 (arxiv2404)] : Office操作やプログラミングなど、複数のアプリをまたぐ369件の実世界タスク。
- AndroidWorld [Rawles+, ICLR25] : モバイルに特化し、20種類のアプリを利用する116件のタスク。
- AndroidControl [Li+, NeurIPS24] : 15,000件以上のクラウドソーシングによるAndroid操作データセット。
GUI操作特化モデル:UI-TARS
GUI操作に特化したモデル学習も研究されています。注目論文はByteDanceが発表したUI-TARSです。( GitHub )
この手法では3フェーズの学習を実施します。
- Phase1(継続事前学習):GUIに特化した「認識」「行動」「推論」の基礎学習
- Phase2(Annealing):高品質データとエラー修正軌跡による方策の洗練学習
- Phase3(DPO):正負の行動ペアを用いた報酬モデルの直接最適化
UI-TARSは、これら緻密に設計された学習フェーズを経ることで、「Perception」「Grounding」「Agent」の各項目で高い能力を発揮することが実験により示されました。
今後のDeNA × AI Talks
初回はAIスペシャリストによる研究・技術の紹介でしたが、今後は幅広いテーマを扱っていく予定です。すでに社内ではさまざまなアイデアが出ており、たとえば以下のようなテーマを予定しています。
- LLM/VLM開発の実態
- スポーツAI最前線
- ビジネス職/クリエイティブ職のAI利活用
- エッジAI・オンデバイスAI
- グローバルのAI事情
- 強化学習最前線
さらに懇親会の中で参加者の皆さまからもアイデアやコラボの提案をいただくことができました。ありがとうございました。

今後は1ヶ月に1回程度を目安に開催し続けていきたいと思っていますので、引き続きよろしくお願いします。イベント情報は DeNA × AIのXアカウント @DeNAxAI_NEWS で発信しますので、ぜひフォローお願いします。
次回開催予告
次回は9月10日(水)にDeNA × AI Talks #2 - エンジニアのための、AIツール導入・活用最前線 -( connpass )を開催します。
「エンジニア向けのAIツールの部門導入 / 活用」をテーマに、実際にエンジニア組織や開発現場でAIツールを導入・活用している事例を紹介予定です。現場がどのような課題を抱え、どのようにAIを活用して業務を変革してきたのか。成功のポイントや乗り越えた壁など、現場エンジニアの視点から得られたリアルな実践知をお届けします。ご参加お待ちしております。
採用情報
DeNAでは現在、AIオールイン加速に向けて採用強化中です。興味のある方はこちらをご覧ください。
最後まで読んでいただき、ありがとうございます!
この記事をシェアしていただける方はこちらからお願いします。