據網站管理員主頁 1 月 8 日報導,開源對話式 AI 工具包 NVIDIA NeMo 宣佈推出長尾小鸚鵡ASR模型系列,這是一系列最先進的自動語音辨識 (ASR) 模型,能夠以出色的準確性轉錄英語口語。 英偉達宣佈了四款基於RNN換能器/連接主義時間分類解碼器的長尾小鸚鵡模型,具有0.6-1.1億個參數。 它們能夠處理各種音訊環境,並且在僅對 64,000 小時的數據集進行訓練后,在 Benchmark 數據集上實現了出色的單詞錯誤率 (WER) 性能,優於以前的模型。 根據開發人員的說法,這些模型對音樂和靜音等非語音片段具有魯棒性,並且在基準測試中優於OpenAI的Whisper v3。 它們還通過預先訓練的控制點提供使用者友好的集成到專案中。