この対話セグメントのテキスト内容を入力してください。
この対話の話者(音声)を選択してください。
この対話セグメントのテキスト内容を入力してください。
この対話の話者(音声)を選択してください。
1人の話者
Xavier: [calm] Welcome to Lati AI, where you can bring photos to life with AI Avatar Lip Sync. [excited] Upload an image and audio and watch your avatar talk naturally.
複数話者の対話
Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?
James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!
AIテキスト読み上げ | オンラインマルチスピーカー音声生成
Gemini ProのAIテキスト読み上げエンジンは、ElevenLabsのニューラルTTSパイプラインで書かれた対話を自然な音声のマルチスピーカーオーディオに変換します。8カテゴリにわたる113種類のAI音声から選択し、39のオーディオタグ([excited]、[whispering]、[sarcastic]、[laughing])で感情表現を制御し、自動検出で75言語に対応。各スピーカーの台詞を独立して合成し — マルチライン会話にわたって固有の声質、ピッチバリエーション、抑揚やリズムを維持します。MP3で直接ダウンロード、またはGemini ProのAIアバターリップシンクに音声を入力してトーキングヘッド動画を制作 — 録音機材なしの完全なテキストから動画パイプライン。
AIテキスト読み上げとは?
AIテキスト読み上げ(TTS)はニューラルネットワーク合成を使用して、文章を自然なイントネーション、感情表現、リズミカルなペースの人間に近い音声に変換します。機械的な音声を生成する連結型やパラメトリック型TTSシステムとは異なり、現代のAI音声生成は韻律(ストレス、リズム、イントネーション)、滑らかな音のつながり(隣接する音の混合)、パラ言語的な手がかり(感情、強調)を含む人間の発話のスペクトル特性を完全にモデリングします。Gemini Proのテキスト読み上げツールはマルチスピーカー対話生成向けに構築されており、異なるスピーカーに固有のAI音声を割り当て、1回の生成で完全な会話音声を制作できます。
このAI音声生成の決定的な機能はオーディオタグ — [excited]、[whispering]、[sarcastic]、[laughing]のようなインラインマーカーで、文レベルでの感情表現、話し方のスタイル、非言語音を明示的に制御できます。8つの専門カテゴリ(conversational、storytelling、video games、TikTok、Hollywood、announcers、relaxing、best-v3)の113種類のプリセット音声と75言語のネイティブサポートにより、Gemini Proのテキスト読み上げはポッドキャスト、オーディオブック、ゲームキャラクター、eラーニングナレーション、マーケティングボイスオーバー向けのプロダクション品質の対話音声を提供します。音声を生成し、直接AIアバターリップシンクに渡してトーキングヘッド動画を生成 — 録音スタジオなしの完全なテキストから動画パイプラインを実現。
AIテキスト読み上げの技術的機能
Gemini Pro上のオーディオタグ感情制御付きマルチスピーカーニューラルTTS。
マルチスピーカー対話エンジン
台本内の各スピーカーに独立したAI音声を割り当て、1回のリクエストで完全なマルチターン会話を生成。TTSエンジンは各音声を個別にレンダリングし — 固有の声質、話速、声の特徴を維持 — 自然な話者交替のケイデンスとタイミングで対話を組み立てます。
39のオーディオタグで感情&デリバリーを制御
[excited]、[whispering]、[sarcastic]、[laughing]、[sighs]のようなインラインオーディオタグを挿入して、AI音声生成の各行のデリバリーを制御。6つのタグカテゴリ — 感情、デリバリースタイル、非言語音、サウンドエフェクト、アクセント、ペーシング — で再録音なしに文レベルのボーカルパフォーマンス制御を実現します。
113種類のAI音声
8つのプロダクションカテゴリに分類された113種類のキュレーション済みボイスプリセット:best-v3(37)、conversational(17)、TikTok(10)、video games(18)、storytelling(8)、Hollywood(9)、announcers(9)、relaxing(13)。各音声が固有のトーナルシグネチャー、パーソナリティ、声のテクスチャを持ちます — 生成前に実際のテキストでプレビュー可能。
自動検出付き75言語対応
英語、中国語、日本語、韓国語、フランス語、ドイツ語、スペイン語、ポルトガル語、アラビア語、ヒンディー語、ロシア語など75言語でAIテキスト読み上げを生成。自動検出モードはテキストから入力言語を識別し、発音を自動最適化 — または手動で言語を選択して方言固有の精度を実現。
AIアバターリップシンクとの直接統合
生成されたTTS音声はGemini ProのAIアバターリップシンクツールとネイティブ互換。対話を書き、マルチスピーカー音声を生成し、MP3とポートレートをアップロードしてトーキングヘッド動画を制作 — Gemini Pro内で完全なテキストから音声から動画のパイプラインを実現。
ブラウザベース、インストール不要
テキスト読み上げのワークフロー全体がブラウザ上のGemini Proサーバーで動作。113種類のAI音声をテキストでプレビューし、マルチスピーカー音声を生成し、MP3でダウンロード — デスクトップソフトウェア、プラグイン、ローカル処理は不要。ウェブブラウザのあるデバイスからアクセス可能。
オーディオタグリファレンスガイド
AI音声デリバリーの詳細な制御のための6カテゴリ39のインラインマーカー。
オーディオタグはテキストに直接挿入する指示マーカーで、AI音声生成に各行のパフォーマンス方法を指示します。対話行の冒頭にタグを配置してベースラインの感情を設定するか、文中にタグを埋め込んで単一の発話内でダイナミックなシフトを作成します。39のタグすべてがすべてのボイスプリセットと75の対応言語で機能します。
感情タグ
excited, happy, sad, angry, surprised, disgusted, fearful, calm, serious, confused
[excited] This changes everything — we need to move now!
デリバリースタイルタグ
whispering, shouting, singing, laughing, crying, mumbling, yelling
[whispering] Listen carefully — they're right outside the door.
非言語サウンドタグ
sigh, gasp, laugh, cough, clearing throat, sniff, yawn
[sigh] I suppose we'll have to start over from the beginning.
サウンドエフェクトタグ
phone ringing, door knocking, footsteps, rain, wind, thunder, birds chirping
[door knocking] Excuse me, is anyone available?
アクセントタグ
British accent, American accent, Australian accent, Indian accent
[British accent] Right then, shall we proceed with the meeting?
ペーシング&テンポタグ
slowly, quickly, with a pause, dramatically
[dramatically] And the final results are in...
テキスト読み上げ + AIアバターパイプライン
3ステップでテキストをトーキングヘッド動画に変換 — すべてGemini Pro内で完結。
AIテキスト読み上げとAIアバターリップシンクを連携させ、エンドツーエンドのテキストから動画プロダクションパイプラインを実現。マルチスピーカー対話を書き、オーディオタグで表現力豊かな音声を生成し、リップシンクされたトーキングヘッド動画を制作 — 声優も、録音スタジオも、ポストプロダクションの音声同期も不要です。
1. マルチスピーカー対話を作成
TTSエディタで台本を作成。各スピーカーに固有のAI音声を割り当て、感情表現にオーディオタグを挿入し、生成前に実際のテキストで音声選択をプレビューしてください。
2. AI音声オーディオを生成
ワンクリックで自然なマルチスピーカー対話音声を生成。AI音声生成が各スピーカーを独立してレンダリングし、適切なタイミングで完全な会話を組み立てます。MP3をダウンロードするか、次のステップに進んでください。
3. トーキングヘッド動画を生成
ポートレート画像と生成されたTTS音声をAIアバターリップシンクにアップロード。リップシンクAIが音声トラックから音素タイミングを抽出し、同期した口の動き、表情、頭の動きを生成 — 放送対応のトーキングヘッド動画を提供します。
Gemini ProでAIテキスト読み上げを使う方法
3ステップでマルチスピーカー対話音声を生成。
1. 対話台本を作成
TTSエディタにテキストまたはマルチスピーカー対話を入力。各スピーカーごとに別の行を追加し、感情的な場面に[excited]や[whispering]のようなオーディオタグを挿入し、自然な句読点でペースを導いてください。エディタは1回の生成で最大5,000文字をサポートします。
2. AI音声と言語を選択
8カテゴリ — conversational、TikTok、video games、storytelling、Hollywood、announcers、relaxing、best-v3 — の113種類のAI音声をブラウズ。選択前に実際のテキストで各音声をプレビュー。75言語から選択するか、自動検出で入力言語を識別してください。
3. 生成&MP3ダウンロード
AIテキスト読み上げ音声を生成。処理は台本の長さに応じて通常5秒〜5分で完了します。完成したMP3を直接ダウンロード、またはAIアバターリップシンクに渡してトーキングヘッド動画を制作してください。
AIテキスト読み上げの活用シーン
AI音声生成がライブ録音を代替するプロダクションシナリオ。
ポッドキャスト&インタビュー制作
ライブタレントなしのマルチボイスエピソード
各参加者に固有のAI音声で完全なポッドキャストエピソードを制作。オーディオタグで自然なリアクション — [laughing]、[surprised]、[thoughtful] — を挿入し、有機的に聞こえる会話ダイナミクスを作成。マルチスピーカーTTSエンジンが話者交替、ペーシング、スピーカー遷移を自動処理します。
オーディオブック&長尺ナレーション
チャプター間でキャラクターごとの固有音声
原稿内の各キャラクターに固有のAIボイスプリセットを割り当て。[whispering]、[dramatically]、[angry]のようなオーディオタグでドラマティックなデリバリーを制御し、各キャラクターに認識可能なボーカルアイデンティティを持つ没入感のあるオーディオブックを制作。1回の生成で最大5,000文字をチャプターごとに処理。
ゲームキャラクター対話プロトタイピング
ゲーム内オーディオの迅速なイテレーション
ファンタジー、SF、アクション、ナラティブジャンル向けに構築された18種類の専門ゲームボイスプリセットでゲーム対話を生成・反復。[shouting]でバトルクライ、[whispering]で静かなカットシーン、[sad]や[angry]で感情的な場面 — 声優のスケジューリングなしで数秒で結果を聴けます。
eラーニング&教材音声
75言語でスケーラブルなナレーション
オンライン学習プラットフォーム、企業研修モジュール、教育コンテンツ向けのプロフェッショナルなコースナレーションを生成。AIテキスト読み上げエンジンはグローバルコンテンツ配信向けに75言語をサポート。AIアバターリップシンクと組み合わせて、同じ音声からインストラクターのトーキングヘッド動画を制作。
マーケティングボイスオーバー&広告音声
音声と感情をスケールでA/Bテスト
動画広告、製品デモ、解説コンテンツ向けのAIボイスオーバーを制作。異なるAI音声と感情トーンで複数の台本バリエーションを生成し、タレントの再予約なしでオーディエンスの反応をA/Bテストして最高パフォーマンスの組み合わせを見つけてください。
SNS&ショートフォーム音声
プラットフォームネイティブの音声コンテンツ
10種類のTikTok最適化AIボイスプリセットでスクロールを止めるボイスオーバーを生成。[sarcastic]、[excited]、[dramatically]のようなオーディオタグでTikTok、Reels、Shortsのエンゲージメントを牽引するデリバリースタイルを重ねて — MP3をダウンロードし、任意のエディタで動画に同期してください。
AIテキスト読み上げのベストプラクティス
台本作成のガイドライン
- Write dialogue as natural spoken language — contractions, informal phrasing, and conversational rhythm produce more realistic AI voice output
- Keep individual dialogue lines under 500 characters for optimal prosodic rendering by the TTS engine
- Use punctuation strategically: commas insert brief pauses, periods create full stops, and ellipses produce trailing hesitation
- Position audio tags at the beginning of each line to establish the emotional baseline for that utterance
- 自然な話し言葉として対話を書く — 短縮形、くだけた言い回し、会話的なリズムがよりリアルなAI音声出力を生みます
- TTSエンジンによる最適な韻律レンダリングのために、個々の対話行は500文字以下に保ってください
- 句読点を戦略的に使用:カンマは短いポーズ、ピリオドはフルストップ、省略符号は末尾のためらいを作ります
- 各行の冒頭にオーディオタグを配置して、その発話の感情的ベースラインを設定してください
オーディオタグ使用のガイドライン
- Reserve audio tags for key emotional beats — over-tagging every line creates an unnatural performance cadence
- Layer complementary tags for nuanced delivery: pair an emotion tag ([excited]) with a pacing tag ([quickly]) for high-energy moments
- Non-verbal sound tags like [sigh] and [laugh] perform best at the start of a line where they serve as natural lead-ins to speech
- Iterate by testing different audio tags on the same text — small tag changes can dramatically shift the AI voice's delivery character
- オーディオタグは重要な感情的場面に限定 — すべての行にタグを付けると不自然なパフォーマンスケイデンスになります
- ニュアンスのあるデリバリーのために補完的なタグを重ねる:感情タグ([excited])とペーシングタグ([quickly])をハイエネルギーな場面に組み合わせ
- [sigh]や[laugh]のような非言語サウンドタグは行の冒頭で自然なリードインとして最も効果的
- 同じテキストで異なるオーディオタグをテストして反復 — 小さなタグ変更でAI音声のデリバリー特性が劇的に変わることがあります
技術仕様
TTSエンジン
- ElevenLabs neural multi-speaker dialogue synthesis engine
- 113 curated voice presets across 8 production categories
- 39 audio tags: emotion, delivery, non-verbal, sound effect, accent, pacing
- Stability parameter: Creative (0), Natural (0.5), Robust (1)
- ElevenLabsニューラルマルチスピーカー対話合成エンジン
- 8つのプロダクションカテゴリにわたる113種類のキュレーション済みボイスプリセット
- 39のオーディオタグ:感情、デリバリー、非言語、サウンドエフェクト、アクセント、ペーシング
- 安定性パラメータ:Creative (0)、Natural (0.5)、Robust (1)
入力仕様
- Text dialogue: up to 5,000 characters per generation across all speaker lines
- Multi-speaker: unlimited dialogue lines per request with independent voice assignment
- Languages: 75 supported with automatic language detection
- Audio tags: 39 inline markers for sentence-level emotion and delivery control
- テキスト対話:すべてのスピーカー行にわたり1回の生成で最大5,000文字
- マルチスピーカー:独立した音声割り当てで1リクエストあたり無制限の対話行
- 言語:自動言語検出付き75言語対応
- オーディオタグ:文レベルの感情とデリバリー制御用39のインラインマーカー
出力仕様
- Format: MP3 audio file, direct download after generation
- Natively compatible with Gemini Pro AI Avatar Lip Sync input
- Processing time: 5 seconds to 5 minutes depending on script length
- Quality: neural synthesis with natural prosody, co-articulation, and emotional expression
- 形式:MP3オーディオファイル、生成後に直接ダウンロード
- Gemini Pro AIアバターリップシンク入力とネイティブ互換
- 処理時間:台本の長さに応じて5秒〜5分
- 品質:自然な韻律、滑らかな音のつながり、感情表現を持つニューラル合成
Gemini Proのその他AIツール
AIテキスト読み上げ FAQ
Gemini Pro上のAI音声生成とマルチスピーカーTTSに関する技術的な回答。
AIテキスト読み上げを今すぐ生成
台本を113種類のAI音声、75言語、39のオーディオタグによる感情表現制御付きの自然なマルチスピーカー対話音声に変換。その後、AIアバターリップシンクと連携してトーキングヘッド動画を制作 — すべてGemini Proで。