输入该段对话的文本内容。
为该段对话选择对应的声音角色。
输入该段对话的文本内容。
为该段对话选择对应的声音角色。
单人语音
Xavier: [calm] Welcome to Lati AI, where you can bring photos to life with AI Avatar Lip Sync. [excited] Upload an image and audio and watch your avatar talk naturally.
多人对话
Juniper: [excitedly] Hey James! Have you tried the new ElevenLabs V3?
James: [curiously] Yeah, just got it! The emotion is so amazing. I can actually do whispers now— [whispering] like this!
AI 文字转语音 | 在线多说话人语音生成器
Gemini Pro 的 AI 文字转语音引擎使用 ElevenLabs 神经网络 TTS 管线将书面对话转化为自然的多说话人音频。从 113 种 AI 声音(跨 8 大类别)中选择,使用 39 个音频标签([excited]、[whispering]、[sarcastic]、[laughing])控制情感表达,支持 75 种语言和自动检测。系统独立合成每位说话人的台词 — 保留独特的音色、音高变化和韵律节奏。输出 MP3 直接下载,或将音频输入 Gemini Pro 的 AI 数字人口型同步工具生成说话头像视频 — 无需录制设备的完整文本到视频流水线。
什么是 AI 文字转语音?
AI 文字转语音(TTS)使用神经网络合成将书面文字转换为具有自然语调、情感表达和节奏韵律的人声音频。与产出机械音效的拼接式或参数式 TTS 系统不同,现代 AI 语音生成器建模人类语音的完整频谱特征 — 包括韵律(重音、节奏、语调)、协同发音(相邻音素的混合方式)和副语言线索(情感、强调)。Gemini Pro 的文字转语音工具专为多说话人对话生成而构建,允许为不同说话人分配独立的 AI 声音,在单次生成中产出完整的对话音频。
这款 AI 语音生成器的核心特性是音频标签(Audio Tags)— [excited]、[whispering]、[sarcastic]、[laughing] 等内嵌标记,让您在句子级别精确控制情感表达、说话风格和非言语声音。结合 113 种预设声音(跨 8 个专业类别:对话、故事叙述、游戏角色、TikTok、好莱坞、播音员、冥想放松和 best-v3)以及 75 种语言原生支持,Gemini Pro 的文字转语音为播客、有声书、游戏角色、在线教育和营销配音输出制作级对话音频。生成音频后直接传入 AI 数字人口型同步,即可创建说话头像视频 — 无需录音棚的完整文本到视频流水线。
AI 文字转语音技术能力
Gemini Pro 上带音频标签情感控制的多说话人神经网络 TTS。
多说话人对话引擎
为脚本中每位说话人分配独立 AI 声音,单次请求生成完整多轮对话。TTS 引擎独立渲染每个声音 — 保持独特音色、语速和发声特征 — 然后以自然的轮换节奏和时序组装对话。
39 个音频标签情感与语调控制
插入 [excited]、[whispering]、[sarcastic]、[laughing]、[sighs] 等内嵌音频标签控制 AI 声音的每行表达。6 大标签类别 — 情感、语调风格、非言语声音、音效、口音和语速 — 让您在句子级别精准掌控语音表演,无需重新录制。
113 种独特 AI 声音
浏览 113 种精选声音预设,按 8 大制作类别组织:best-v3(37 种)、对话风格(17 种)、TikTok(10 种)、游戏角色(18 种)、故事叙述(8 种)、好莱坞(9 种)、播音员(9 种)和冥想放松(13 种)。每种声音具有独特的音调特征、个性和声音纹理 — 生成前可用您的实际文本预览任何声音。
75 种语言支持与自动检测
支持 75 种语言的 AI 文字转语音,包括中文、英语、日语、韩语、法语、德语、西班牙语、葡萄牙语、阿拉伯语、印地语、俄语等。自动检测模式从文本中识别输入语言并自动优化发音 — 或手动选择特定语言获得方言级准确度。
AI 数字人口型同步直接集成
生成的 TTS 音频与 Gemini Pro 的 AI 数字人口型同步工具原生兼容。编写对话、生成多说话人语音,然后上传 MP3 和肖像照片即可制作说话头像视频 — 完全在 Gemini Pro 内完成文字转语音到视频的流水线。
免费在线使用
整个文字转语音工作流在浏览器中通过 Gemini Pro 服务器运行。预览全部 113 种 AI 声音、生成多说话人音频并下载 MP3 — 无需桌面软件、插件或本地处理。任何带浏览器的设备均可访问。
音频标签参考指南
6 大类别 39 个内嵌标记,精细控制 AI 语音表达。
音频标签是直接插入文本中的指令标记,指示 AI 语音生成器如何表演每一行。将标签放在对话行开头设定情感基调,或在句中嵌入标签创造动态转折。全部 39 个标签适用于每种声音预设和所有 75 种支持语言。
情感
excited, happy, sad, angry, surprised, disgusted, fearful, calm, serious, confused
[excited] 你听说了吗?这太不可思议了!
语调风格
whispering, shouting, singing, laughing, crying, mumbling, yelling
[whispering] 我有个秘密要告诉你……
非言语声音
sigh, gasp, laugh, cough, clearing throat, sniff, yawn
[sigh] 看来我们只能明天再试了。
音效
phone ringing, door knocking, footsteps, rain, wind, thunder, birds chirping
[door knocking] 你好?有人在家吗?
口音
British accent, American accent, Australian accent, Indian accent
[British accent] 来杯下午茶如何?
语速节奏
slowly, quickly, with a pause, dramatically
[dramatically] 获奖者是……
文字转语音 + AI 数字人工作流
在 Gemini Pro 内三步完成从文字到口型同步说话视频的全流程创作。
将 AI 文字转语音与 AI 数字人口型同步(AI Avatar Lip Sync)串联,构建端到端的文本到视频生产流水线。编写多说话人对话、用音频标签生成富有表现力的语音音频、再制作口型同步的数字人视频 — 全程无需配音演员、录音棚或后期音频对齐。
1. 编写多说话人对话
在 TTS 编辑器中撰写脚本。为每位说话人分配独特的 AI 声音,插入音频标签控制情感表达,生成前可使用实际文本预览声音效果。
2. 生成 AI 语音音频
一键生成自然的多说话人对话音频。AI 语音引擎独立渲染每位说话人并自动组装完整对话时序。可下载 MP3 或直接进入下一步。
3. 创建口型同步数字人视频
上传人像照片和生成的 TTS 音频到 AI 数字人口型同步工具。口型同步 AI 从语音轨道提取音素时序(Phoneme Timing),生成同步的嘴部动作、面部表情和头部运动 — 输出广播级数字人说话视频。
如何在 Gemini Pro 使用 AI 文字转语音
三步生成多说话人对话音频。
1. 编写对话脚本
在 TTS 编辑器中输入文本或多说话人对话。为每位说话人添加独立行,在情感节点插入 [excited] 或 [whispering] 等音频标签,利用自然标点引导语速节奏。编辑器每次生成支持最多 5,000 字符。
2. 选择 AI 声音与语言
浏览 113 种 AI 声音,涵盖 8 大类别 — 对话风格、TikTok、游戏角色、故事叙述、好莱坞、播音员、冥想放松和 best-v3。选择前可用实际文本预览每种声音效果。支持 75 种语言,或使用自动检测模式。
3. 生成并下载 MP3
生成 AI 文字转语音音频。处理时间通常 5 秒至 5 分钟,取决于脚本长度。完成后直接下载 MP3,或将其传入 AI 数字人口型同步制作说话视频。
AI 文字转语音应用场景
AI 语音生成替代真人录制的专业制作场景。
播客与访谈制作
无需真人即可制作多声音节目
使用多位独立 AI 说话人制作完整播客节目。用音频标签插入自然反应 — [laughing]、[surprised]、[thoughtful] — 创造听起来有机自然的对话动态。多说话人 TTS 引擎自动处理轮次切换、语速节奏和说话人过渡。
有声书与长篇叙事
跨章节保持角色声音一致
为手稿中每个角色分配独特的 AI 声音预设。使用 [whispering]、[dramatically]、[angry] 等音频标签控制戏剧化表达,制作每个角色都有辨识度声音特征的沉浸式有声书。每次生成支持最多 5,000 字符,可按章节批量处理。
游戏角色对话原型
快速迭代游戏内音频
使用 18 种专为奇幻、科幻、动作和叙事类型设计的游戏角色声音预设生成并迭代对话。用 [shouting] 测试战斗呐喊、用 [whispering] 测试过场低语、用 [sad] 或 [angry] 测试情感节点 — 几秒内听到结果,无需排期配音演员。
在线教育与教学音频
75 种语言的可规模化旁白
为在线学习平台、企业培训和教育内容生成专业课程旁白。AI 文字转语音引擎支持 75 种语言,满足全球内容分发需求。结合 AI 数字人口型同步,可从同一音频制作讲师说话视频。
营销配音与广告音频
规模化 A/B 测试声音与情感
为视频广告、产品演示和讲解内容制作 AI 配音。用不同 AI 声音和情感色调生成多个脚本版本 — 然后 A/B 测试受众响应,找到最佳组合,无需反复预约配音人才。
社交媒体与短视频音频
平台原生语音内容
使用 10 种 TikTok 优化 AI 声音预设生成抓人配音。叠加 [sarcastic]、[excited]、[dramatically] 等音频标签,打造在 TikTok、Reels 和 Shorts 上推动互动的表达风格 — 下载 MP3 后在任何编辑器中同步到视频。
AI 文字转语音最佳实践
脚本编写指南
- Write dialogue as natural spoken language — contractions, informal phrasing, and conversational rhythm produce more realistic AI voice output
- Keep individual dialogue lines under 500 characters for optimal prosodic rendering by the TTS engine
- Use punctuation strategically: commas insert brief pauses, periods create full stops, and ellipses produce trailing hesitation
- Position audio tags at the beginning of each line to establish the emotional baseline for that utterance
- 以自然口语风格书写对话 — 使用缩写、非正式措辞和会话节奏,让 AI 语音输出更真实
- 每行对话控制在 500 字符以内,确保 TTS 引擎最佳的韵律渲染(Prosodic Rendering)效果
- 策略性使用标点:逗号插入短暂停顿,句号创造完整停止,省略号产生尾音迟疑
- 将音频标签放在每行开头,为该句建立情感基线
音频标签使用指南
- Reserve audio tags for key emotional beats — over-tagging every line creates an unnatural performance cadence
- Layer complementary tags for nuanced delivery: pair an emotion tag ([excited]) with a pacing tag ([quickly]) for high-energy moments
- Non-verbal sound tags like [sigh] and [laugh] perform best at the start of a line where they serve as natural lead-ins to speech
- Iterate by testing different audio tags on the same text — small tag changes can dramatically shift the AI voice's delivery character
- 在关键情感节点使用音频标签 — 每行都加标签会导致不自然的表演节奏
- 叠加互补标签实现细腻表达:将情感标签([excited])与语速标签([quickly])搭配用于高能量段落
- 非言语声音标签如 [sigh] 和 [laugh] 放在行首效果最佳,作为语句的自然引入
- 对同一文本迭代测试不同音频标签 — 细微的标签变化可显著改变 AI 声音的表达特质
技术规格
TTS 引擎
- ElevenLabs neural multi-speaker dialogue synthesis engine
- 113 curated voice presets across 8 production categories
- 39 audio tags: emotion, delivery, non-verbal, sound effect, accent, pacing
- Stability parameter: Creative (0), Natural (0.5), Robust (1)
- ElevenLabs 神经网络多说话人对话合成引擎
- 113 种精选声音预设,涵盖 8 大制作类别
- 39 个音频标签:情感、语调、非言语、音效、口音、语速
- 稳定性参数:创意(0)、自然(0.5)、稳健(1)
输入规格
- Text dialogue: up to 5,000 characters per generation across all speaker lines
- Multi-speaker: unlimited dialogue lines per request with independent voice assignment
- Languages: 75 supported with automatic language detection
- Audio tags: 39 inline markers for sentence-level emotion and delivery control
- 文本对话:每次生成最多 5,000 字符(所有说话人行合计)
- 多说话人:每次请求不限对话行数,各行独立分配声音
- 语言:支持 75 种,含自动语言检测
- 音频标签:39 个内嵌标记,句级情感与表达控制
输出规格
- Format: MP3 audio file, direct download after generation
- Natively compatible with Gemini Pro AI Avatar Lip Sync input
- Processing time: 5 seconds to 5 minutes depending on script length
- Quality: neural synthesis with natural prosody, co-articulation, and emotional expression
- 格式:MP3 音频文件,生成后直接下载
- 原生兼容 Gemini Pro AI 数字人口型同步输入
- 处理时间:5 秒至 5 分钟,取决于脚本长度
- 品质:神经合成,具备自然韵律、协同发音(Co-articulation)和情感表达
Gemini Pro 更多 AI 工具
AI 文字转语音常见问题
关于 AI 语音生成和多说话人 TTS 的技术解答。
立即生成 AI 文字转语音
用 113 种 AI 声音、75 种语言和 39 个音频标签将脚本转化为自然的多说话人对话音频。然后搭配 AI 数字人口型同步制作说话视频 — 全在 Gemini Pro 完成。