MOSS-TTSD:革新對話語音生成,打造自然流暢的人機交互體驗
引言:對話語音的重要性
語音作為人類交流和人機交互的核心媒介,其自然度、表現(xiàn)力和韻律感直接決定了交互體驗的質(zhì)量。在播客、訪談、直播等場景中,對話語音是信息傳遞的主要形式。然而,傳統(tǒng)文本到語音(TTS)模型在單句生成上雖有突破,但在復(fù)雜對話場景中,缺乏對整體語境的建模能力,導(dǎo)致生成的語音韻律單一,缺乏真實感。針對這一挑戰(zhàn),MOSS-TTSD(Text to Spoken Dialogue)推出了,一個專為對話場景設(shè)計的語音生成模型,帶來中英雙語、自然流暢、支持多說話人音色克隆的對話語音生成體驗。
MOSS-TTSD 的核心亮點
MOSS-TTSD 是一個基于 Qwen3-1.7B-base 模型深度優(yōu)化的對話語音生成系統(tǒng),結(jié)合了先進的離散化語音序列建模技術(shù)和海量數(shù)據(jù)訓(xùn)練,實現(xiàn)了以下關(guān)鍵特性:
-
中英雙語支持:無縫生成高質(zhì)量中英文對話語音,適應(yīng)全球化應(yīng)用需求。
-
零樣本音色克隆:僅需少量語音樣本即可精準(zhǔn)克隆說話人音色,生成個性化語音。
-
長語音生成:支持最長達 960秒 的連續(xù)語音生成,避免拼接帶來的不自然過渡。
-
高表現(xiàn)力與自然度:通過對話語境建模,生成韻律自然、語調(diào)生動的語音,媲美人類對話。
-
低比特率高效編碼:采用創(chuàng)新的 XY-Tokenizer,以 1kbps 的超低比特率實現(xiàn)高質(zhì)量語音編碼。
技術(shù)創(chuàng)新:從 XY-Tokenizer 到對話建模
1. XY-Tokenizer:低比特率語音編碼的突破
MOSS-TTSD 的核心技術(shù)之一是 XY-Tokenizer,一個專為語音離散化設(shè)計的 8 層殘差矢量量化(RVQ)音頻 Codec。它通過以下方式實現(xiàn)高效編碼:
-
雙路 Whisper Encoder:同時捕捉語音的語義和聲學(xué)信息,確保生成的語音既準(zhǔn)確又富有表現(xiàn)力。
-
低比特率與高幀率:以 1kbps 的比特率和 12.5Hz 的幀率,顯著降低計算成本,同時保留語音細節(jié)。
-
大規(guī)模訓(xùn)練:使用 10萬小時 帶轉(zhuǎn)錄文本的語音數(shù)據(jù)和 50萬小時 無轉(zhuǎn)錄音頻數(shù)據(jù)進行增強訓(xùn)練,提升 Codec 對復(fù)雜場景的處理能力。
下表展示了 XY-Tokenizer 在 LibriSpeech 測試集上的表現(xiàn),與其他低比特率 Codec 相比,MOSS-TTSD 的語義信息(以詞錯誤率 WER 衡量)與聲學(xué)性能均達到領(lǐng)先水平:
2. 自回歸建模與多頭 Delay
受 MusicGen 和 VOICECRAFT 的啟發(fā),MOSS-TTSD 采用 自回歸建模 結(jié)合 多頭 Delay 的方式生成語音 token。這種方法能夠有效捕捉對話中的長期依賴關(guān)系,確保語音在韻律、語調(diào)和風(fēng)格上的連貫性。
3. 數(shù)據(jù)工程:高質(zhì)量對話數(shù)據(jù)的基石
MOSS-TTSD 的出色性能離不開高效的數(shù)據(jù)處理流水線。從 海量原始音頻 中篩選出單人語音和多人對話語音,并通過以下步驟優(yōu)化數(shù)據(jù)質(zhì)量:
-
說話人分離:利用內(nèi)部優(yōu)化的說話人分離模型,性能超越開源模型 pyannote-speaker-diarization-3.1 和商用版本 pyannoteAI。在 AISHELL-4、AliMeeting 等數(shù)據(jù)集上,模型的 DER(Diarization Error Rate) 顯著降低:
-
語音質(zhì)量篩選:使用 DNSMOS 分?jǐn)?shù)(≥2.8)剔除含背景噪聲的音頻,確保訓(xùn)練數(shù)據(jù)的高質(zhì)量。
-
細粒度對話標(biāo)注:結(jié)合 Whisper-d 模型(中文版自研,英文版使用 Parakeet 開源模型),對短對話片段進行細粒度說話人標(biāo)注和文本轉(zhuǎn)錄,解決重疊語音和短 Backchannel 的漏分問題。
最終,構(gòu)建了 110萬小時 的中英文 TTS 訓(xùn)練數(shù)據(jù)和 37萬小時 的對話數(shù)據(jù)(包括 10萬小時 中文和 27萬小時 英文對話),并通過 Gemini 修正部分轉(zhuǎn)錄文本,提升標(biāo)點符號的感知能力。
性能評估:與頂尖模型比肩
TTS 預(yù)訓(xùn)練表現(xiàn)
MOSS-TTSD 在 Seed-tts-eval 測試集上的表現(xiàn)與閉源頂尖模型 Seed-TTS 相當(dāng),詞錯誤率(WER)和字符錯誤率(CER)均達到業(yè)界領(lǐng)先水平:
TTSD 后訓(xùn)練優(yōu)化
通過 WSD Scheduler 進行后訓(xùn)練,MOSS-TTSD 在 37萬小時 真實對話數(shù)據(jù)和 8萬小時 合成對話數(shù)據(jù)的支持下,進一步提升了說話人切換的準(zhǔn)確性和對話語音的自然度。最終模型通過人工評估挑選,確保主觀表現(xiàn)達到最佳。
應(yīng)用場景:從播客到直播,無處不在
MOSS-TTSD 的強大功能使其適用于多種對話場景,包括但不限于:
-
播客與訪談:生成多說話人、自然流暢的對話語音,提升內(nèi)容創(chuàng)作效率。
-
電商直播:為虛擬主播提供個性化音色和動態(tài)語調(diào),增強用戶互動體驗。
-
教育與培訓(xùn):生成逼真的教學(xué)對話,支持多語言教學(xué)內(nèi)容。
-
智能助手:為語音助手提供更自然的對話能力,提升人機交互的沉浸感。
本地部署:
克隆倉庫
git clone https://github.com/OpenMOSS/MOSS-TTSD.git
使用 conda
conda create -n moss_ttsd python=3.10 -y conda activate moss_ttsd pip install -r requirements.txt pip install flash-attn
下載模型
mkdir -p XY_Tokenizer/weights huggingface-cli download fnlp/XY_Tokenizer_TTSD_V0_32k xy_tokenizer.ckpt --local-dir ./XY_Tokenizer/weights/
或者在https://huggingface.co/fnlp/XY_Tokenizer_TTSD_V0_32k網(wǎng)站中找到Files and versions下載xy_tokenizer.ckpt文件放到XY_Tokenizer/weights目錄下
一鍵整合包:
衛(wèi)星公眾號:InnoTechX 發(fā)送關(guān)鍵字: moss
使用方式
第一種是單音頻方式,音頻中包含兩個說話人的音頻,用[S1] [S2] 分別代表兩個人的說話內(nèi)容,填寫到提示文本中。然后在要合成的文本中,也是使用這種方式,來進行文本To音頻克隆的轉(zhuǎn)換。
第二種則是,分別上傳不同角色的音頻,分別輸入不同角色的說話內(nèi)容,在合成的文本中,實現(xiàn)的對話式的合成文本內(nèi)容即可,也是用[S1] [S2] 分別代表兩個人的說話內(nèi)容
現(xiàn)在只支持兩個人之間的對話克隆,多人的對話克隆,作者還在研究中。。。
浙公網(wǎng)安備 33010602011771號