当前位置:   article > 正文

本地部署 Whisper 及 WhisperDesktop

本地部署 Whisper 及 WhisperDesktop

1. 什么是 Whisper

Whisper 是一个通用的语音识别模型。它是在一个大型的不同音频数据集上训练出来的,也是一个多任务模型,可以进行多语言语音识别(multilingual speech recognition)、语音翻译(speech translation)和语言识别(language identification)。

2. Github 地址

https://github.com/openai/whisper

3. 创建虚拟环境

conda create -n whisper python==3.10.6
conda activate whisper 
  • 1
  • 2

4. 安装 ffmpeg

sudo apt update && sudo apt install ffmpeg
  • 1

5. 部署 Whisper

克隆代码库,

git clone https://github.com/openai/whisper.git; cd whisper/
  • 1

安装依赖,

pip3 install -r requirements.txt
pip3 install -U openai-whisper
pip3 install git+https://github.com/openai/whisper.git 
pip3 install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
pip3 install setuptools-rust
  • 1
  • 2
  • 3
  • 4
  • 5

(可选)我使用的是 WSL-Ubuntu 22.04,安装的 CUDA Toolkit 11.8,将 pytorch、torchvision、torchaudio 更新为兼容 CUDA Toolkit 11.8 的版本。

pip3 uninstall pytorch torchvision torchaudio && pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
  • 1

6. 使用 Whisper

这里我录制了一句中文,测试一下效果,

whisper demo.wav --model medium --language Chinese
  • 1

输出如下,

在这里插入图片描述

(20230514追加)Windows 本地部署 WhisperDesktop

下载 WhisperDesktop

访问 https://github.com/Const-me/Whisper/releases,下载最新版 WhisperDesktop,

在这里插入图片描述
将下载的文件解压,例如,D:\ProgramGreen\WhisperDesktop 目录下,

插入

下载语音模型

访问 https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main,下载语音模型,

在这里插入图片描述

使用 WhisperDesktop

双击打开 WhisperDesktop.exe,加载刚刚下载的语音模型,

在这里插入图片描述
找一个视频文件测试一下,
在这里插入图片描述
生成文本的一部分截屏如下,
在这里插入图片描述

完结!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/article/detail/35559
推荐阅读
相关标签
  

闽ICP备14008679号