使用FishSpeech進行語音合成推理
部署
部署FishSpeech,優先參考github官方(https://speech.fish.audio/zh/)。
注意:此網站可能需要FQ才能訪問。
個人為Windows電腦,使用Windows配置步驟。
Windows11配置過程
conda安裝
下載Conda,地址:https://www.anaconda.com/download

點擊Skip registration,進入下載界面,下載界面提供Anaconda 和 Miniconda 。

Anaconda 和 Miniconda它們之間的區別在于

本地電腦空間足夠,下載Anaconda。
配置環境變量
安裝后配置系統環境變量。

配置編譯加速
參考官方教程,配置compile加速。

下載四個軟件,安裝。無需下載和執行install_env.bat。而是通過源代碼來配置環境。
git拉取源代碼下來,當前版本是1.5。cd進入當前項目根目錄。
參考以下代碼,通過Powershell控制臺激活conda環境。
# 創建一個 python 3.10 虛擬環境, 你也可以用 virtualenv conda create -n fish-speech python=3.10 conda activate fish-speech # 安裝 pytorch pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121 # 安裝 fish-speech pip3 install -e . # (開啟編譯加速) 安裝 triton-windows pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl
注意:conda init之后默認控制臺進入base環境。
此系統上禁止運行腳本
提示此文案,一般是權限策略導致。
在 以管理員身份 運行 PowerShell ,執行以下命令:
Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
創建快捷方式
在根目錄新建一個bat,用于啟動api服務器。文件名:start_api_server.bat
call conda activate fish-speech cd /d %~dp0 python -m tools.api_server --listen 0.0.0.0:8080 --llama-checkpoint-path "checkpoints/fish-speech-1.5" --decoder-checkpoint-path "checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth" --decoder-config-name firefly_gan_vq --compile
再創建一個推理web的快捷方式。文件名:start_infer_web.bat
call conda activate fish-speech cd /d %~dp0 python -m tools.run_webui --llama-checkpoint-path "checkpoints/fish-speech-1.5" --decoder-checkpoint-path "checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth" --decoder-config-name firefly_gan_vq --compile
帶編譯命令會啟動慢一些,命令行會輸出如下:

API服務啟動后的界面:

推理WEB界面:

語音合成客戶端
下載客戶端(https://github.com/AnyaCoder/fish-speech-gui/releases),客戶端會被報病毒,如果要是用需要把軟件找回并加入白名單。
軟件界面:

輸入后端url(默認本地路徑),我這里通過FRP穿透,映射了一個公網域名。點擊Test URL,沒問題則表示成功連接了。

參考模型ID
將自己錄制的語音處理好后,放到服務器項目根目錄指定目錄下。
- 創建references目錄。
- 創建參考ID目錄,可以是中文名。
- 放入錄制語音文件(mp3、wav),和對應的文本內容(lab)。


不設置模型ID,也可以手動上傳這兩個文件。
合成語音
切換到【文本轉語音】Tab,輸入待合成文本。

點擊開始語音合成,即可生成合成的語音文件。

浙公網安備 33010602011771號