Zonos語音生成質量非常高,而且這次有中文,以下是主要特點:
1、兩種1.6B 模型,transformer 和 SSM
2、用5到30秒的語音進行高保真語音克隆
3、可以調節速度,音高,音頻質量和情緒
4、添加文本和音頻前綴,實現更豐富的說話人匹配效果
5、在 RTX 4090 顯卡上運行時,實時率約為 2 倍
模型下載:https://huggingface.co/Zyphra/Zonos-v0.1-hybrid
Zonos語音生成質量非常高,而且這次有中文,以下是主要特點:
1、兩種1.6B 模型,transformer 和 SSM
2、用5到30秒的語音進行高保真語音克隆
3、可以調節速度,音高,音頻質量和情緒
4、添加文本和音頻前綴,實現更豐富的說話人匹配效果
5、在 RTX 4090 顯卡上運行時,實時率約為 2 倍
模型下載:https://huggingface.co/Zyphra/Zonos-v0.1-hybrid