英伟达推出 AI 语音识别模型 Parakeet，号称优于 Whisper

据站长之家 1 月 8 日报道，开源对话 AI 工具包 NVIDIA NeMo 宣布推出 Parakeet ASR 模型系列，这是一系列最先进的自动语音识别（ASR）模型，能够以出色的准确性转录英语口语。英伟达宣布推出了四个 Parakeet 模型，这些模型基于 RNN Transducer/Connectionist Temporal Classification 解码器，并且具有 0.6-1.1 亿参数。它们能够应对各种音频环境，并且在仅使用了 64000 小时的数据集进行训练后，在基准数据集上实现了出色的词错误率（WER）表现，优于以往的模型。根据开发人员的说法，这些模型对音乐和静音等非语音片段具有鲁棒性，并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。