VAP導入によるカスケード型音声対話システムの自然化 — 割り込みと相槌に対応する音声対話の設計

本記事の概要

本記事では、インターンシップで私が設計・開発した「ユーザ発話の割り込みに対応可能なカスケード型音声対話システム」について紹介します。

まず、音声対話システムの概要を説明し、次に現状の課題と既存手法、そして今回提案する新たな手法を順に述べます。最後に、提案手法を用いた音声対話のサンプルを紹介します。

はじめに

はじめまして、2025年9月から3週間、AI スペシャリストコースのインターンシップに参加した名古屋工業大学大学院工学研究科博士前期課程工学専攻 1 年の髙木真人と申します。普段は歌声合成を中心に音声技術関連の研究をしており、趣味で歌声合成技術を用いた音楽活動をしております。

音声対話システムとは

音声対話システム（Spoken Dialogue System）とは、ユーザの発話に対して適切な応答を音声として出力するシステムです。スマートフォンにおける音声アシスタント機能や、家庭用スマートスピーカーなどを想像していただくと分かりやすいでしょう。

ここでいう「適切な応答」には、いくつかの観点が存在します。例えば、応答内容が意味的に正しいかといった意味的正確性、適切なタイミングで応答できるか、文脈に応じた相槌やターンテイキングが行えるかといった対話の自然性、さらに、ユーザの目的に応じて話題を広げたり絞り込んだりできるかという戦略的適切性などが挙げられます。

一般に、音声対話システムは複数のサブシステムを組み合わせたカスケード型構成を採用しています。具体的には、音声認識 → 応答文生成 → 音声合成の各処理が順に実行され、それらが連携することでシステム全体として機能します。¹

End-to-End 音声対話システム

近年では、音声対話システム全体を一つの統合モデルで実現する End-to-End 型音声対話モデル（Spoken Dialogue Model ¹ が登場しています。その代表例として、Moshi ² やその日本語版である J-Moshi ³ が挙げられます。

これらのモデルの大きな特徴は、Full-duplex（フルデュプレックス）対話と呼ばれる仕組みを実現している点です。 Full-duplex 対話では、ユーザとシステムが同時に発話・応答を行うことが可能であり、相槌や発話の重なりといった自然な双方向的対話を実現しています。

カスケード型音声対話システムの課題と本インターンシップの位置づけ

End-to-End 音声対話システムが持つ、発話の重なりや相槌などによる高い対話自然性は大きな魅力です。しかし、実応用の現場では依然としてカスケード型音声対話システムが主流となっています。これは、End-to-End 型が大規模な音声対話データや膨大な計算資源を必要とする点や、中間表現の解釈が困難であるといった課題を抱えているためです。

一方で、カスケード型は対話自然性こそ劣るものの、各サブシステムを個別にデプロイ可能であり、テキストベースでの発話内容の監査やロジックの組み込みが容易であるという利点を持ちます。

しかし、このカスケード型にも主に次の2つの課題が存在します。

応答遅延：各処理を逐次実行するため、応答に数秒の遅れが生じる
対話制御の欠如：相槌や話者交代など、自然な双方向的インタラクションを実現できない

このうち、応答遅延については近年のストリーミング音声認識 ⁴ およびストリーミング音声合成 ⁵ 技術の発展により、改善が進んでいます。

そこで本稿ではもう一つの課題である対話制御の欠如の改善に焦点を当て、インターンシップ課題として「発話の重なりや相槌を考慮したカスケード型音声対話システム」の設計・開発に取り組みました。

具体的には、Voice Activity Projection と呼ばれる、対話における話者交代や相槌のタイミングを予測する技術をカスケード型音声対話システムに導入し、以下の2つのタスクを実現するシステムを開発しました。

システム発話中のユーザ発話を相槌か否か判定し、発話続行の可否を判断する
ユーザ発話中に適切なタイミングで相槌を挿入する

Voice Activity Projection (VAP) とは

Voice Activity Projection とは、音声信号から将来の発話活動を予測する技術です。具体的には、二者間の対話音声信号を入力として、現在から数秒先における各話者の発話状態を確率的に予測します。⁶ ⁷ ⁸

モデルは、CPC Encoder → Self-Attention Transformer → Cross-Attention Transformer → 線形層で構成されており、最終段の線形層がタスクごとの発話確率を出力します。

モデルの出力としては主に以下の2つが得られます。

現在（0〜600ms）における発話確率： p_now
近い将来（600〜2000ms）における発話確率： p_future

また、これらの出力を専用データセットと組み合わせることで、相槌や頷きの種類を分類するモデルを構築することも可能です。⁹

このように、VAPにより得られる予測値を活用することで、人間同士の対話に近い自然なタイミングでの相槌や話者交代を実現できます。

開発した音声対話システムの基本構造

ここでは、今回開発したカスケード型音声対話システムの構成について説明します。まず、従来のベースラインシステムを示し、次に VAP を導入した提案システムについて述べます。

システム構成

両システムで共通して以下のコンポーネントを使用しました。

音声認識（ASR）: Google Cloud Speech-to-Text ⁴
言語モデル（LLM）: Gemini 2.5 Flash-Lite ¹⁰
音声合成（TTS）: Google Cloud Text-to-Speech ¹¹ / COEIROINK つくよみちゃん ¹² ¹³
Voice Activity Projection（VAP）: MaAI ¹⁴（提案システムのみ）

ベースラインシステム

従来のカスケード型音声対話システムは、以下の状態遷移で動作します。

IDLE 状態: システムがユーザの発話を待機
音声認識フェーズ: ユーザ発話を検出し、ASR が音声をテキストに変換
応答生成フェーズ:
- LLM が認識結果に基づき応答文を生成
- TTS が応答文を音声に変換して再生
IDLE 状態に戻る: 応答完了後、次の発話を待機

この構成では、システムの応答が完全に終了するまでユーザが次の発話を行えないという制約があります。

提案システム1：ユーザ割り込み対応

このシステムでは、応答生成フェーズ（LLM 処理中および TTS 再生中）において VAP による発話監視を追加しました。

VAP モデルが推論する0〜600ms後のユーザ発話確率 p_now に基づき、

相槌と判定された場合：応答を継続
割り込みと判定された場合：現在の応答を中断し、音声認識フェーズへ遷移

この制御により、ユーザによる発話割り込みへの即時対応が可能となります。

提案システム2：システム相槌挿入

こちらのシステムでは、音声認識フェーズにおいて VAP によるシステム側の発話予測を導入しました。

VAPモデルが推論する0〜600ms後のシステム相槌確率 p_bc に基づき、事前に生成した「うん」「うんうん」「はい」などの相槌音声を再生します。これにより、システムはユーザ発話中にも自然に相槌を挿入でき、従来の逐次的な対話構造から、より双方向的で自然な音声対話を実現します。

動作デモ

以下にそれぞれの提案システムの動作サンプルを示します。

提案システム1：ユーザ割り込み対応

提案システム2：システム相槌挿入

まとめ

本記事では、インターンシップにおける取り組みとして、「発話の重なりや相槌を考慮したカスケード型音声対話システム」の設計・開発について紹介しました。

カスケード型音声対話システムは、近年注目されている End-to-End 型音声対話モデルに比べ、構造の解釈性や制御性に優れる一方、自然な対話制御の実現という課題が残されていました。

本インターンシップでは、Voice Activity Projection（VAP）をカスケード型音声対話システムへ組み込むことで、ユーザ発話の割り込みや相槌といった人間らしい対話挙動の一部を再現することを目指しました。

その結果、

システム応答中にユーザが相槌を打っても対話を継続できる「割り込み対応」
ユーザ発話中にシステムが自然に相槌を挿入できる「双方向的応答」

といった機能を実現し、従来の逐次的なシステムに比べて、より自然な対話体験を可能にしました。

今後は、VAP による発話予測の精度向上や、LLM とのより緊密な統合によるリアルタイムな発話制御の最適化が期待されます。

今回の取り組みを通して、音声対話システムとより自然なコミュニケーションを行える可能性を感じました。

最後に

最後になりましたが、お世話になりましたメンターの森さん、アドバイスをいただいた吉田さん含め同グループの皆様、HRの皆様にお礼申し上げます。 3週間という短い期間ではありましたが、提案から実装、発表まで滞りなく行えたのは皆様のお心遣いあってのものだと感じております。

また、渋谷オフィスに出社した際にグループの方々と音声技術や LLM の話で交流できたのが印象に残っております。また機会がありましたらぜひお話しできたらと思います。改めてありがとうございました。

参考文献

Shengpeng Ji et al., “WavChat: A Survey of Spoken Dialogue Models.” arXiv preprint arXiv:2411.13577 (2024). ↩︎ ↩︎
Alexandre Défossez et al., “Moshi: a speech-text foundation model for real-time dialogue.” arXiv preprint arXiv:2410.00037 (2024). ↩︎
Atsumoto Ohashi, Shinya Iizuka, Jingjing Jiang, Ryuichiro Higashinaka. “Towards a Japanese Full-duplex Spoken Dialogue System.” in Interspeech 2025, pp. 1783–1787. ↩︎
Google Cloud - Speech-to-Text ↩︎ ↩︎
Neil Zeghidour et al., “Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling.” arXiv preprint arXiv:2509.08753 (2025). ↩︎
Ekstedt, E., Skantze, G. “Voice Activity Projection: Self-supervised Learning of Turn-taking Events.” in Interspeech 2022, pp. 5190-5194. ↩︎
Koji Inoue, Bing’er Jiang, Erik Ekstedt, Tatsuya Kawahara, Gabriel Skantze. “Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection” in International Workshop on Spoken Dialogue Systems Technology (IWSDS), 2024. ↩︎
AI Shift - ターンテイキングのタイミング予測を簡単に試せるライブラリMaAIを使ってみた ↩︎
Koji Inoue, Divesh Lala, Gabriel Skantze, Tatsuya Kawahara. “Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection”, in NAACL 2025, pp. 7171–7181. ↩︎
Google DeepMind - Gemini ↩︎
Google Cloud - Text-to-Speech ↩︎
COEIROINK ↩︎
つくよみちゃん公式サイト ↩︎
MaAI ↩︎