dots.tts - 魔当一键部署本地AI软件，不写代码不配环境

应用特点

开源文本转语音TTS

系统要求

建议16GB以上内存。硬盘空间18GB以上。
macOS 15及以上版本，仅支持M系列芯片。
Windows10/11 64位，NVIDIA显卡，8GB以上显存。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

注意：默认安装 dots.tts-mf 模型，适配大部分用户需求。如切换为 dots.tts-soar 模型，会自动下载完整模型，额外占用约 10GB 存储空间。

dots.tts 是一个小红书 AI 团队（RedNote HI-Lab）开源的最新一代大参数量端到端语音合成（TTS）系统。该项目在开源界取得了突破性的进展，旨在提供超高保真度、强情绪拟真度以及多语言的声音克隆能力。

核心功能与产品特点

极速零样本克隆（Zero-shot Voice Cloning）： 只需要给它一段 3 秒左右的参考音频（甚至不需要提供对应的文字口述），模型就能快速捕捉到说话人的音色，并用这个声音去朗读全新的文本。
录音棚级的高音质： 相比传统 TTS 常见的 16kHz 或 24kHz 广播级画质，它直接原生支持 48 kHz 的超清高保真音频输出，声音细节极其丰富。
极强的情感拟真与语气词： 能够完美复刻人类说话时的呼吸声、叹气、结巴（如“呃、那、那什么”）以及悲伤、愤怒、喜悦等细腻的情感起伏，几乎听不出 AI 机械感。
强大的多语言能力： 原生支持 24 种语言，甚至在具有挑战性的多语言混杂（如中英双语夹杂）场景下也能流畅平滑地切换。
对配置极其友好（MF 蒸馏版本）： 经过特定技术优化的版本只需要 4 步推理即可出声，生成速度提升 2.5 倍，非常适合在消费级显卡或笔记本等端侧设备上本地部署。

适用场景

内容创作与有声读物： 为小红书图文视频、自媒体视频配音，或者生成极具情感起伏的小说有声书。
智能助理与对话机器人： 结合客服或 AI 伴侣，利用其低延迟、高拟真的特性，进行实时的语音流式对答。
多语言翻译播报： 跨境电商、国际会议等场景下的跨语言音色同步克隆播报。

底层核心技术

dots.tts 的底层架构彻底抛弃了以往主流 TTS（如 VITS 或传统自回归模型）所依赖的“离散 Token（量子化）”设计。它采用了一种全连续（Fully Continuous）的端到端自回归结构。系统将语义编码器（Semantic Encoder）、大语言模型（LLM）以及基于自回归流匹配（Autoregressive Flow-matching）的声音解码器完美结合，并搭载了 48 kHz AudioVAE（音频变分自编码器）。整个流水线没有任何离散化损耗，从而实现了无损的音质和丝滑的语调连贯性。

GitHubhttps://github.com/rednote-hilab/dots.tts

许可证Apache-2.0