高保真(48kHz)零样本声音克隆与超强的情感呼吸拟真表达
建议16GB以上内存。硬盘空间18GB以上。
macOS 15及以上版本,仅支持M系列芯片。
Windows10/11 64位,NVIDIA显卡,8GB以上显存。
注意:NVIDIA显卡,请安装较新版本的驱动。注意:默认安装 dots.tts-mf 模型,适配大部分用户需求。如切换为 dots.tts-soar 模型,会自动下载完整模型,额外占用约 10GB 存储空间。
dots.tts 是一个小红书 AI 团队(RedNote HI-Lab)开源的最新一代大参数量端到端语音合成(TTS)系统。该项目在开源界取得了突破性的进展,旨在提供超高保真度、强情绪拟真度以及多语言的声音克隆能力。
dots.tts 的底层架构彻底抛弃了以往主流 TTS(如 VITS 或传统自回归模型)所依赖的“离散 Token(量子化)”设计。
它采用了一种全连续(Fully Continuous)的端到端自回归结构。系统将语义编码器(Semantic Encoder)、大语言模型(LLM)以及基于自回归流匹配(Autoregressive Flow-matching)的声音解码器完美结合,并搭载了 48 kHz AudioVAE(音频变分自编码器)。整个流水线没有任何离散化损耗,从而实现了无损的音质和丝滑的语调连贯性。