<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12
      MOSS-TTSD:革新對話語音生成,打造自然流暢的人機交互體驗
       
       
       
      添加圖片注釋,不超過 140 字(可選)
       
      引言:對話語音的重要性
      語音作為人類交流和人機交互的核心媒介,其自然度、表現(xiàn)力和韻律感直接決定了交互體驗的質(zhì)量。在播客、訪談、直播等場景中,對話語音是信息傳遞的主要形式。然而,傳統(tǒng)文本到語音(TTS)模型在單句生成上雖有突破,但在復(fù)雜對話場景中,缺乏對整體語境的建模能力,導(dǎo)致生成的語音韻律單一,缺乏真實感。針對這一挑戰(zhàn),MOSS-TTSD(Text to Spoken Dialogue)推出了,一個專為對話場景設(shè)計的語音生成模型,帶來中英雙語、自然流暢、支持多說話人音色克隆的對話語音生成體驗。

      MOSS-TTSD 的核心亮點
      MOSS-TTSD 是一個基于 Qwen3-1.7B-base 模型深度優(yōu)化的對話語音生成系統(tǒng),結(jié)合了先進的離散化語音序列建模技術(shù)和海量數(shù)據(jù)訓(xùn)練,實現(xiàn)了以下關(guān)鍵特性:
      1. 中英雙語支持:無縫生成高質(zhì)量中英文對話語音,適應(yīng)全球化應(yīng)用需求。
      2. 零樣本音色克隆:僅需少量語音樣本即可精準(zhǔn)克隆說話人音色,生成個性化語音。
      3. 長語音生成:支持最長達 960秒 的連續(xù)語音生成,避免拼接帶來的不自然過渡。
      4. 高表現(xiàn)力與自然度:通過對話語境建模,生成韻律自然、語調(diào)生動的語音,媲美人類對話。
      5. 低比特率高效編碼:采用創(chuàng)新的 XY-Tokenizer,以 1kbps 的超低比特率實現(xiàn)高質(zhì)量語音編碼。
       
       
       
      添加圖片注釋,不超過 140 字(可選)
       

      技術(shù)創(chuàng)新:從 XY-Tokenizer 到對話建模
      1. XY-Tokenizer:低比特率語音編碼的突破
      MOSS-TTSD 的核心技術(shù)之一是 XY-Tokenizer,一個專為語音離散化設(shè)計的 8 層殘差矢量量化(RVQ)音頻 Codec。它通過以下方式實現(xiàn)高效編碼:
      • 雙路 Whisper Encoder:同時捕捉語音的語義和聲學(xué)信息,確保生成的語音既準(zhǔn)確又富有表現(xiàn)力。
      • 低比特率與高幀率:以 1kbps 的比特率和 12.5Hz 的幀率,顯著降低計算成本,同時保留語音細節(jié)。
      • 大規(guī)模訓(xùn)練:使用 10萬小時 帶轉(zhuǎn)錄文本的語音數(shù)據(jù)和 50萬小時 無轉(zhuǎn)錄音頻數(shù)據(jù)進行增強訓(xùn)練,提升 Codec 對復(fù)雜場景的處理能力。
      下表展示了 XY-Tokenizer 在 LibriSpeech 測試集上的表現(xiàn),與其他低比特率 Codec 相比,MOSS-TTSD 的語義信息(以詞錯誤率 WER 衡量)與聲學(xué)性能均達到領(lǐng)先水平:
      Codec
      WER ↓
      聲學(xué)性能
      Codec A
      3.5
      中等
      Codec B
      3.2
      中等
      XY-Tokenizer (Ours)
      2.8
      優(yōu)異

      2. 自回歸建模與多頭 Delay
      MusicGenVOICECRAFT 的啟發(fā),MOSS-TTSD 采用 自回歸建模 結(jié)合 多頭 Delay 的方式生成語音 token。這種方法能夠有效捕捉對話中的長期依賴關(guān)系,確保語音在韻律、語調(diào)和風(fēng)格上的連貫性。

      3. 數(shù)據(jù)工程:高質(zhì)量對話數(shù)據(jù)的基石
      MOSS-TTSD 的出色性能離不開高效的數(shù)據(jù)處理流水線。從 海量原始音頻 中篩選出單人語音和多人對話語音,并通過以下步驟優(yōu)化數(shù)據(jù)質(zhì)量:
      • 說話人分離:利用內(nèi)部優(yōu)化的說話人分離模型,性能超越開源模型 pyannote-speaker-diarization-3.1 和商用版本 pyannoteAI。在 AISHELL-4AliMeeting 等數(shù)據(jù)集上,模型的 DER(Diarization Error Rate) 顯著降低:
      Model
      AISHELL-4
      AliMeeting
      AMI (IHM)
      AMI (SDM)
      pyannote-speaker-diarization-3.1
      11.7
      24.7
      20.5
      24.3
      pyannoteAI
      11.1
      18.3
      17.5
      20.0
      Ours Diarization Model
      9.7
      14.1
      14.5
      17.2
      • 語音質(zhì)量篩選:使用 DNSMOS 分?jǐn)?shù)(≥2.8)剔除含背景噪聲的音頻,確保訓(xùn)練數(shù)據(jù)的高質(zhì)量。
      • 細粒度對話標(biāo)注:結(jié)合 Whisper-d 模型(中文版自研,英文版使用 Parakeet 開源模型),對短對話片段進行細粒度說話人標(biāo)注和文本轉(zhuǎn)錄,解決重疊語音和短 Backchannel 的漏分問題。
      最終,構(gòu)建了 110萬小時 的中英文 TTS 訓(xùn)練數(shù)據(jù)和 37萬小時 的對話數(shù)據(jù)(包括 10萬小時 中文和 27萬小時 英文對話),并通過 Gemini 修正部分轉(zhuǎn)錄文本,提升標(biāo)點符號的感知能力。

      性能評估:與頂尖模型比肩
      TTS 預(yù)訓(xùn)練表現(xiàn)
      MOSS-TTSD 在 Seed-tts-eval 測試集上的表現(xiàn)與閉源頂尖模型 Seed-TTS 相當(dāng),詞錯誤率(WER)和字符錯誤率(CER)均達到業(yè)界領(lǐng)先水平:
      Model
      WER ↓
      CER ↓
      WER (Norm) ↓
      CER (Norm) ↓
      Seed-TTS
      2.25
      1.12
      N/A
      N/A
      Cosyvoice2
      2.80
      1.59
      2.52
      0.80
      SparkTTS
      1.99
      2.12
      1.69
      1.44
      MOSS TTS-base
      1.90
      1.56
      1.54
      0.82

      TTSD 后訓(xùn)練優(yōu)化
      通過 WSD Scheduler 進行后訓(xùn)練,MOSS-TTSD 在 37萬小時 真實對話數(shù)據(jù)和 8萬小時 合成對話數(shù)據(jù)的支持下,進一步提升了說話人切換的準(zhǔn)確性和對話語音的自然度。最終模型通過人工評估挑選,確保主觀表現(xiàn)達到最佳。

      應(yīng)用場景:從播客到直播,無處不在
      MOSS-TTSD 的強大功能使其適用于多種對話場景,包括但不限于:
      • 播客與訪談:生成多說話人、自然流暢的對話語音,提升內(nèi)容創(chuàng)作效率。
      • 電商直播:為虛擬主播提供個性化音色和動態(tài)語調(diào),增強用戶互動體驗。
      • 教育與培訓(xùn):生成逼真的教學(xué)對話,支持多語言教學(xué)內(nèi)容。
      • 智能助手:為語音助手提供更自然的對話能力,提升人機交互的沉浸感。

      本地部署:
      克隆倉庫
      git clone https://github.com/OpenMOSS/MOSS-TTSD.git
      使用 conda
      conda create -n moss_ttsd python=3.10 -y conda activate moss_ttsd pip install -r requirements.txt pip install flash-attn
      下載模型
      mkdir -p XY_Tokenizer/weights huggingface-cli download fnlp/XY_Tokenizer_TTSD_V0_32k xy_tokenizer.ckpt --local-dir ./XY_Tokenizer/weights/
      或者在https://huggingface.co/fnlp/XY_Tokenizer_TTSD_V0_32k網(wǎng)站中找到Files and versions下載xy_tokenizer.ckpt文件放到XY_Tokenizer/weights目錄下
       
      一鍵整合包:
      衛(wèi)星公眾號:InnoTechX 發(fā)送關(guān)鍵字: moss
       
      使用方式
      第一種是單音頻方式,音頻中包含兩個說話人的音頻,用[S1] [S2] 分別代表兩個人的說話內(nèi)容,填寫到提示文本中。然后在要合成的文本中,也是使用這種方式,來進行文本To音頻克隆的轉(zhuǎn)換。
       
       
       
      添加圖片注釋,不超過 140 字(可選)
       
      第二種則是,分別上傳不同角色的音頻,分別輸入不同角色的說話內(nèi)容,在合成的文本中,實現(xiàn)的對話式的合成文本內(nèi)容即可,也是用[S1] [S2] 分別代表兩個人的說話內(nèi)容
       
       
       
      添加圖片注釋,不超過 140 字(可選)
       
      現(xiàn)在只支持兩個人之間的對話克隆,多人的對話克隆,作者還在研究中。。。
      posted on 2025-09-10 16:17  志克斯搞AI  閱讀(43)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 国产精品成人午夜久久| 日韩精品中文字一区二区| 国产拗精品一区二区三区| 中文字幕国产精品自拍| 日本毛茸茸的丰满熟妇| 久久精品国产久精国产| 国产95在线 | 欧美| 国产偷窥熟女高潮精品视频| 天堂亚洲免费视频| xxxxbbbb欧美残疾人| 国产成人精品中文字幕| 欧美成人黄在线观看| 成人性生交大片免费看r链接| 亚洲午夜香蕉久久精品| 久久www免费人成看片中文| 亚洲产国偷v产偷v自拍色戒| 亚洲成人精品综合在线| 在线a人片免费观看| 国产三级精品三级在线看| 国产精品视频一区二区噜噜| 亚洲第一无码专区天堂| AV在线亚洲欧洲日产一区二区| 一区二区三区国产偷拍| 91一区二区三区蜜桃臀| 欧美牲交a欧美牲交aⅴ一| 精品日韩人妻中文字幕| 久久夜色国产噜噜亚洲av| 国产99视频精品免费视频36| 久久99精品国产99久久6男男| 视频一区二区三区刚刚碰| 国产99视频精品免费视频76| 精品国产一区二区三区蜜臀| 97国产成人无码精品久久久| 特级做a爰片毛片免费看无码| 亚洲一区av无码少妇电影| 国产精品亚洲二区在线看| 精品人妻人人做人人爽夜夜爽| 亚洲aⅴ男人的天堂在线观看| 中文字幕成熟丰满人妻| 激情综合网激情五月俺也想| 男女啪啪永久免费观看网站|