MOSS-TTSD：革新對話語音生成，打造自然流暢的人機交互體驗

引言：對話語音的重要性

語音作為人類交流和人機交互的核心媒介，其自然度、表現(xiàn)力和韻律感直接決定了交互體驗的質(zhì)量。在播客、訪談、直播等場景中，對話語音是信息傳遞的主要形式。然而，傳統(tǒng)文本到語音（TTS）模型在單句生成上雖有突破，但在復(fù)雜對話場景中，缺乏對整體語境的建模能力，導(dǎo)致生成的語音韻律單一，缺乏真實感。針對這一挑戰(zhàn)，MOSS-TTSD（Text to Spoken Dialogue）推出了，一個專為對話場景設(shè)計的語音生成模型，帶來中英雙語、自然流暢、支持多說話人音色克隆的對話語音生成體驗。

MOSS-TTSD 的核心亮點

MOSS-TTSD 是一個基于 Qwen3-1.7B-base 模型深度優(yōu)化的對話語音生成系統(tǒng)，結(jié)合了先進的離散化語音序列建模技術(shù)和海量數(shù)據(jù)訓(xùn)練，實現(xiàn)了以下關(guān)鍵特性：

中英雙語支持：無縫生成高質(zhì)量中英文對話語音，適應(yīng)全球化應(yīng)用需求。
零樣本音色克隆：僅需少量語音樣本即可精準(zhǔn)克隆說話人音色，生成個性化語音。
長語音生成：支持最長達 960秒的連續(xù)語音生成，避免拼接帶來的不自然過渡。
高表現(xiàn)力與自然度：通過對話語境建模，生成韻律自然、語調(diào)生動的語音，媲美人類對話。
低比特率高效編碼：采用創(chuàng)新的 XY-Tokenizer，以 1kbps 的超低比特率實現(xiàn)高質(zhì)量語音編碼。

技術(shù)創(chuàng)新：從 XY-Tokenizer 到對話建模

1. XY-Tokenizer：低比特率語音編碼的突破

MOSS-TTSD 的核心技術(shù)之一是 XY-Tokenizer，一個專為語音離散化設(shè)計的 8 層殘差矢量量化（RVQ）音頻 Codec。它通過以下方式實現(xiàn)高效編碼：

雙路 Whisper Encoder：同時捕捉語音的語義和聲學(xué)信息，確保生成的語音既準(zhǔn)確又富有表現(xiàn)力。
低比特率與高幀率：以 1kbps 的比特率和 12.5Hz 的幀率，顯著降低計算成本，同時保留語音細節(jié)。
大規(guī)模訓(xùn)練：使用 10萬小時帶轉(zhuǎn)錄文本的語音數(shù)據(jù)和 50萬小時無轉(zhuǎn)錄音頻數(shù)據(jù)進行增強訓(xùn)練，提升 Codec 對復(fù)雜場景的處理能力。

下表展示了 XY-Tokenizer 在 LibriSpeech 測試集上的表現(xiàn)，與其他低比特率 Codec 相比，MOSS-TTSD 的語義信息（以詞錯誤率 WER 衡量）與聲學(xué)性能均達到領(lǐng)先水平：

Codec	WER ↓	聲學(xué)性能
Codec A	3.5	中等
Codec B	3.2	中等
XY-Tokenizer (Ours)	2.8	優(yōu)異

2. 自回歸建模與多頭 Delay

受 MusicGen 和 VOICECRAFT 的啟發(fā)，MOSS-TTSD 采用自回歸建模結(jié)合多頭 Delay 的方式生成語音 token。這種方法能夠有效捕捉對話中的長期依賴關(guān)系，確保語音在韻律、語調(diào)和風(fēng)格上的連貫性。

3. 數(shù)據(jù)工程：高質(zhì)量對話數(shù)據(jù)的基石

MOSS-TTSD 的出色性能離不開高效的數(shù)據(jù)處理流水線。從海量原始音頻中篩選出單人語音和多人對話語音，并通過以下步驟優(yōu)化數(shù)據(jù)質(zhì)量：

說話人分離：利用內(nèi)部優(yōu)化的說話人分離模型，性能超越開源模型 pyannote-speaker-diarization-3.1 和商用版本 pyannoteAI。在 AISHELL-4、AliMeeting 等數(shù)據(jù)集上，模型的 DER（Diarization Error Rate）顯著降低：

Model	AISHELL-4	AliMeeting	AMI (IHM)	AMI (SDM)
pyannote-speaker-diarization-3.1	11.7	24.7	20.5	24.3
pyannoteAI	11.1	18.3	17.5	20.0
Ours Diarization Model	9.7	14.1	14.5	17.2

語音質(zhì)量篩選：使用 DNSMOS 分?jǐn)?shù)（≥2.8）剔除含背景噪聲的音頻，確保訓(xùn)練數(shù)據(jù)的高質(zhì)量。
細粒度對話標(biāo)注：結(jié)合 Whisper-d 模型（中文版自研，英文版使用 Parakeet 開源模型），對短對話片段進行細粒度說話人標(biāo)注和文本轉(zhuǎn)錄，解決重疊語音和短 Backchannel 的漏分問題。

最終，構(gòu)建了 110萬小時的中英文 TTS 訓(xùn)練數(shù)據(jù)和 37萬小時的對話數(shù)據(jù)（包括 10萬小時中文和 27萬小時英文對話），并通過 Gemini 修正部分轉(zhuǎn)錄文本，提升標(biāo)點符號的感知能力。

性能評估：與頂尖模型比肩

TTS 預(yù)訓(xùn)練表現(xiàn)

MOSS-TTSD 在 Seed-tts-eval 測試集上的表現(xiàn)與閉源頂尖模型 Seed-TTS 相當(dāng)，詞錯誤率（WER）和字符錯誤率（CER）均達到業(yè)界領(lǐng)先水平：

Model	WER ↓	CER ↓	WER (Norm) ↓	CER (Norm) ↓
Seed-TTS	2.25	1.12	N/A	N/A
Cosyvoice2	2.80	1.59	2.52	0.80
SparkTTS	1.99	2.12	1.69	1.44
MOSS TTS-base	1.90	1.56	1.54	0.82

TTSD 后訓(xùn)練優(yōu)化

通過 WSD Scheduler 進行后訓(xùn)練，MOSS-TTSD 在 37萬小時真實對話數(shù)據(jù)和 8萬小時合成對話數(shù)據(jù)的支持下，進一步提升了說話人切換的準(zhǔn)確性和對話語音的自然度。最終模型通過人工評估挑選，確保主觀表現(xiàn)達到最佳。

應(yīng)用場景：從播客到直播，無處不在

MOSS-TTSD 的強大功能使其適用于多種對話場景，包括但不限于：

播客與訪談：生成多說話人、自然流暢的對話語音，提升內(nèi)容創(chuàng)作效率。
電商直播：為虛擬主播提供個性化音色和動態(tài)語調(diào)，增強用戶互動體驗。
教育與培訓(xùn)：生成逼真的教學(xué)對話，支持多語言教學(xué)內(nèi)容。
智能助手：為語音助手提供更自然的對話能力，提升人機交互的沉浸感。

本地部署：

克隆倉庫

git clone https://github.com/OpenMOSS/MOSS-TTSD.git

使用 conda

conda create -n moss_ttsd python=3.10 -y conda activate moss_ttsd pip install -r requirements.txt pip install flash-attn

下載模型

mkdir -p XY_Tokenizer/weights huggingface-cli download fnlp/XY_Tokenizer_TTSD_V0_32k xy_tokenizer.ckpt --local-dir ./XY_Tokenizer/weights/

或者在https://huggingface.co/fnlp/XY_Tokenizer_TTSD_V0_32k網(wǎng)站中找到Files and versions下載xy_tokenizer.ckpt文件放到XY_Tokenizer/weights目錄下

一鍵整合包:

衛(wèi)星公眾號：InnoTechX 發(fā)送關(guān)鍵字: moss

使用方式

第一種是單音頻方式，音頻中包含兩個說話人的音頻，用[S1] [S2] 分別代表兩個人的說話內(nèi)容，填寫到提示文本中。然后在要合成的文本中，也是使用這種方式，來進行文本To音頻克隆的轉(zhuǎn)換。

第二種則是，分別上傳不同角色的音頻，分別輸入不同角色的說話內(nèi)容，在合成的文本中，實現(xiàn)的對話式的合成文本內(nèi)容即可，也是用[S1] [S2] 分別代表兩個人的說話內(nèi)容

現(xiàn)在只支持兩個人之間的對話克隆，多人的對話克隆，作者還在研究中。。。

posted on 2025-09-10 16:17 志克斯搞AI 閱讀(43) 評論(0) 收藏舉報

刷新頁面返回頂部

公告