蚂蚁集團開源發布全模態大模型 Ming-Flash-Omni 2.0

蚂蚁集团開源發布全模態大模型 Ming-Flash-Omni 2.0,是業界首個全場景音頻統一生成模型,可在同一條音軌中同時生成語音、環境音效與音樂。用戶用自然語言下指令,可對音色、語速、語調、音量、情緒與方言等進行控制。模型在推理階段實現了 3.1Hz 的極低推理幀率,實現了分鐘級長音頻的實時高保真生成。(科創板日報)

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言