Whisper是一个通用的语音识别模型,由OpenAI开发。它在大量多样化的音频数据集上进行训练,是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。

Whisper使用Transformer序列到序列模型在各种语音处理任务上进行训练,包括多语言语音识别、语音翻译、口语语言识别和语音活动检测。这些任务被共同表示为解码器需要预测的一系列令牌,允许一个模型替代传统语音处理管道的许多阶段。多任务训练格式使用一组特殊的令牌,作为任务指定符或分类目标。

Whisper提供了五种模型大小,四种英语版本,提供速度和准确性的权衡。这些模型包括tiny、base、small、medium和large,其中tiny、base、small和medium都有专门的英语版本。

Whisper的性能在不同的语言中有很大的差异。例如,使用large-v2模型在Fleurs数据集上的WER(词错误率)在不同语言中的分布就有很大的差异。

Whisper还提供了Python API,可以在Python环境中进行语音转录,也可以在Python中使用Whisper.detect_language()和Whisper.decode()提供的低级访问模型。

Whisper的代码和模型权重在MIT许可下发布。更多的信息可以在GitHub项目页面 上找到。

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision github.com