音声と効果音の方向付けによるオーディオドリブンな動画生成

Seedance 2.0 サウンドデザイン＆ダイアログプロンプト

Seedance 2.0 は @audio 参照とサウンドデザインプロンプトがビジュアル出力に影響を与えるオーディオ対応生成をサポートしています。このページでは、ダイアログのリップシンク技法、ボイストーンの方向付け、アンビエントサウンドデザイン、そして視覚的なアクションをオーディオキューと同期させるプロンプトの書き方を解説します。

日次更新ステータス: 近日公開

最終更新: 2026-03-26

現在の状況

テンプレート、作例、今後のメディアエビデンスは、広いチュートリアルガイドではなくこの場所に集約するべきです。

メディアエビデンス

画像エビデンス: 準備中

動画エビデンス: 準備中

ダイアログ・リップシンクの基礎

正確なリップモーションを持つ話すキャラクターを生成するには、ダイアログトラックを含む @audio 参照を添付し、プロンプトでキャラクターの話し方を記述します。口の動きの強度、感情のトーン、頭のジェスチャーを指定します。モデルはオーディオのタイミングを使ってリップシンクと顔の微表情を駆動します。

プロンプトによるボイストーンの方向付け

@audio 参照がなくても、プロンプトでボーカルの特質を記述することで暗示的な声のキャラクターに影響を与えられます。「whispering softly」「shouting with urgency」「speaking calmly with measured pauses」などの記述が、生成される動画の表情、ボディランゲージ、口の動きパターンに影響します。

アンビエントサウンドデザインキュー

プロンプトで音環境を記述すると、音響的に一貫したビジュアルが生成されます。「quiet library with occasional page turns」と「bustling market with shouting vendors」では、異なる視覚的雰囲気になります。サウンドデザインキューは、適切な群衆密度、環境の動き、大気効果へとモデルを導きます。

ビジュアルアクションとオーディオビートの同期

ミュージックビデオやリズミカルなコンテンツには、@audio 参照を使ってビジュアルタイミングを駆動します。どのビジュアルイベントをどのオーディオビートに合わせるか記述します。「character turns on the drum hit, camera cuts on the bass drop」のように。これにより、意図的に振り付けられたかのようなタイトなオーディオビジュアル同期が生まれます。

マルチキャラクター・ダイアログシーン

2 人以上のキャラクター間の会話では、プロンプトを発話順のシーケンスとして構成します。誰がいつ話すか、各セリフでの感情状態、聞いているキャラクターのリアクションを特定します。各キャラクターのアイデンティティ維持に個別の @image 参照を添付し、全ダイアログトラック用に 1 つの @audio 参照を使います。

Input / Output 例

オーディオ参照付きキャラクターモノローグ

供給されたダイアログオーディオトラックに同期したクローズアップの話すショットを生成します。

@audio[monologue-track.wav] @image[character-anchor.png] Close-up of the character from reference, speaking directly to camera, emotional monologue delivery matching audio timing, subtle brow movements and eye glistening on emotional beats, warm studio lighting from above-left, shallow depth of field, natural lip synchronization with reference audio, gentle head tilts between phrases.

オーディオトラックに正確にリップシンクし、自然な顔の微表情を持ち、参照画像からのキャラクターアイデンティティが一貫したクローズアップのモノローグショット。

Evidence: native-audio capability examples

アンビエントサウンド駆動のシーン

暗示的なサウンド環境に視覚的なアクティビティが一致するカフェシーンを作成します。

Busy Parisian sidewalk cafe at golden hour, ambient sound environment of clinking cups, muted French conversation, and occasional distant accordion music, patrons gesturing animatedly at small tables, waiter weaving between tables carrying a tray, steam rising from espresso cups, gentle handheld camera movement, warm cinematic color palette, natural crowd density matching a lively cafe atmosphere.

記述されたサウンド環境に音響的に一貫して感じられるキャラクターアニメーション、群衆密度、雰囲気のディテールを持つ活気あるカフェシーン。

2 キャラクターのダイアログ交換

異なる話し方を持つ 2 人のキャラクター間のショット・リバース・ショット会話。

@audio[dialogue-exchange.wav] @image[character-a.png] @image[character-b.png] Two characters seated across a table, Character A speaks first with confident gestures and forward lean, Character B listens intently then responds with a gentle smile and slower cadence, alternate focus between speakers matching audio dialogue turns, consistent warm interior lighting, medium shot framing, natural reaction shots of the listener during each speaking turn.

両キャラクターの正確なリップシンク、適切なリアクションショット、そしてオーディオトラックのリズムとトーンに一致する話し方を持つ自然なダイアログシーケンス。

よくある質問

Seedance 2.0 はオーディオ出力を生成しますか、それともオーディオ入力への同期のみですか？

主なワークフローはオーディオ入力へのビジュアル出力の同期です。オーディオトラックを @audio 参照として添付し、モデルがそれに合わせたビジュアルを生成します。生成オーディオが必要なプロジェクトには、専用のオーディオ AI ツールを使い、その出力を Seedance の参照としてフィードします。

@audio 参照でのリップシンクの精度はどの程度ですか？

リップシンクの精度はオーディオの明瞭さとプロンプトの具体性に依存します。適度なペースのクリアな単一話者のオーディオが最良の結果を生みます。精度を向上させるには「precise lip synchronization」を追加し、口の動きの強度を記述します。速いペースや重なり合うスピーチは信頼性の高い同期が困難です。

実際のオーディオファイルなしでサウンドデザインキューを使えますか？

はい。テキストのみで音環境を記述するだけでもビジュアル出力に影響します。群衆の騒音はより賑やかなシーンに、静寂は静けさにつながります。このテキストのみのアプローチは、ポストプロダクションでオーディオを追加する予定でも、雰囲気の確立に効果的です。