文本转语音 (Text-to-Speech)

SenseAudio 文本转语音（TTS）服务基于千亿参数大模型，将文字瞬间转化为自然流畅、情感丰富的语音。支持多种专业音色、精细化控制及流式输出，适用于各类智能交互与内容生产场景。

核心特性

极致拟真的语音合成

基于深度学习技术，提供接近真人的语音合成体验：

情感丰富：支持开心、悲伤、生气、撒娇等 10+ 种情感表达。
风格多样：覆盖客服、广告、播客、有声书、新闻资讯等专业场景。
多语言支持：原生支持中文及英文。

智能多音字与上下文理解（目前仅适用于克隆音色）

面向中文场景深度优化，确保发音准确自然：

语境判别：结合上下文自动识别多音字读音，避免机械式误读
专业词汇支持：针对人名、地名、行业术语进行专项优化
自然连读：多音字在句中发音与语调自然衔接，更贴近真人表达

毫秒级流式响应

专为实时交互设计的高性能架构：

超低延迟：首包延迟 < 500ms，满足实时对话需求。
流式输出：支持 Server-Sent Events (SSE)，边合成边播放。
高并发：万卡集群支撑，轻松应对亿级调用。

精细化语音控制

提供丰富的参数调节，满足个性化需求：

参数	说明	范围	步进值	典型应用
speed	语速调节	0.5 - 2.0	0.01	0.8 (抒情) / 1.5 (快讯)
vol	音量调节	0.01 - 10	0.01	环境适配 / 重点强调
pitch	声调调节	-12 - 12	1	角色变声 / 情绪微调

音频规格

支持多种主流音频格式与采样率，适配不同终端设备：

格式：mp3 (推荐), wav, pcm, flac
采样率：
- 32kHz (推荐)：平衡音质与带宽，适合大多数场景。
- 48kHz：影院级高保真音质，适合内容制作。
- 16kHz：电话/IoT 设备标准音质。

应用场景

智能交互

语音助手：为 AI 助手赋予自然、有温度的声音。
智能客服：替代机械的 IVR，提供 24/7 拟人化服务。
数字人：驱动虚拟形象，实现唇音同步的实时交互。

内容生产

有声阅读：批量将小说、文章转化为高质量有声书。
短视频配音：一键生成旁白，降低制作成本，提升效率。
新闻播报：自动化生成新闻音频，时效性更强。

教育培训

在线教育：课件自动配音，支持多语种教学。
儿童故事：使用生动可爱的童声讲述睡前故事。

快速体验

基础合成

最简单的调用方式，快速体验 TTS 能力：

json

复制

{
  "model": "senseaudio-tts-1.5-260319-260319",
  "text": "欢迎体验 SenseAudio 极致语音服务。",
  "voice_setting": {
    "voice_id": "male_0004_a" // 温柔御姐音色
  }
}

流式合成

适用于实时对话场景，大幅降低等待时间：