当前位置:   article > 正文

除了ChatTTS,又一款国产TTS模型出现了——Fish Speech_fish-speech v1.2

fish-speech v1.2

Fish Speech V1.2 是一款领先的文本到语音 (TTS) 模型,使用 30 万小时的英语、中文和日语音频数据进行训练。我尝试用1066运行,但是质量不尽如人意,建议使用RTX系列的显卡进行推理。

下载 https://huggingface.co/fishaudio/fish-speech-1.2
Github https://github.com/fishaudio/fish-speech
文档 https://speech.fish.audio/

要求

GPU 内存: 4GB (用于推理), 16GB (用于微调)
系统: Linux, Windows

Linux/WSL

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech

# 安装 pytorch
pip3 install torch torchvision torchaudio

# 安装 fish-speech
pip3 install -e .

# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

推理

官方文档简洁而且明确,建议直接食用。https://speech.fish.audio/inference/

微调

由于内置Llama模型,所以可以对该部分进行微调,详细参考文档https://speech.fish.audio/finetune/

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/906843
推荐阅读
相关标签
  

闽ICP备14008679号