Skip to content
dots.tts

dots.tts

高保真(48kHz)零样本声音克隆与超强的情感呼吸拟真表达

应用特点

开源文本转语音TTS

系统要求

建议16GB以上内存。硬盘空间18GB以上。
macOS 15及以上版本,仅支持M系列芯片。
Windows10/11 64位,NVIDIA显卡,8GB以上显存。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

注意:默认安装 dots.tts-mf 模型,适配大部分用户需求。如切换为 dots.tts-soar 模型,会自动下载完整模型,额外占用约 10GB 存储空间。

dots.tts 是一个小红书 AI 团队(RedNote HI-Lab)开源的最新一代大参数量端到端语音合成(TTS)系统。该项目在开源界取得了突破性的进展,旨在提供超高保真度、强情绪拟真度以及多语言的声音克隆能力。

核心功能与产品特点

  • 极速零样本克隆(Zero-shot Voice Cloning): 只需要给它一段 3 秒左右的参考音频(甚至不需要提供对应的文字口述),模型就能快速捕捉到说话人的音色,并用这个声音去朗读全新的文本。
  • 录音棚级的高音质: 相比传统 TTS 常见的 16kHz 或 24kHz 广播级画质,它直接原生支持 48 kHz 的超清高保真音频输出,声音细节极其丰富。
  • 极强的情感拟真与语气词: 能够完美复刻人类说话时的呼吸声、叹气、结巴(如“呃、那、那什么”)以及悲伤、愤怒、喜悦等细腻的情感起伏,几乎听不出 AI 机械感。
  • 强大的多语言能力: 原生支持 24 种语言,甚至在具有挑战性的多语言混杂(如中英双语夹杂)场景下也能流畅平滑地切换。
  • 对配置极其友好(MF 蒸馏版本): 经过特定技术优化的版本只需要 4 步推理即可出声,生成速度提升 2.5 倍,非常适合在消费级显卡或笔记本等端侧设备上本地部署。

适用场景

  • 内容创作与有声读物: 为小红书图文视频、自媒体视频配音,或者生成极具情感起伏的小说有声书。
  • 智能助理与对话机器人: 结合客服或 AI 伴侣,利用其低延迟、高拟真的特性,进行实时的语音流式对答。
  • 多语言翻译播报: 跨境电商、国际会议等场景下的跨语言音色同步克隆播报。

底层核心技术

dots.tts 的底层架构彻底抛弃了以往主流 TTS(如 VITS 或传统自回归模型)所依赖的“离散 Token(量子化)”设计。 它采用了一种全连续(Fully Continuous)的端到端自回归结构。系统将语义编码器(Semantic Encoder)、大语言模型(LLM)以及基于自回归流匹配(Autoregressive Flow-matching)的声音解码器完美结合,并搭载了 48 kHz AudioVAE(音频变分自编码器)。整个流水线没有任何离散化损耗,从而实现了无损的音质和丝滑的语调连贯性。