蚂蚁集团が全モーダル大規模モデル Ming-Flash-Omni 2.0をオープンソース公開

2026-02-14 02:43:48

蚂蚁集团はオープンソースで全モーダル大規模モデルのMing-Flash-Omni 2.0を公開しました。これは業界初の全シーン対応の音声統一生成モデルであり、同一の音声トラック内で音声、環境音、音楽を同時に生成できます。ユーザーは自然言語で指示を出すことで、声の色、速度、抑揚、音量、感情、方言などを制御可能です。モデルは推論段階で3.1Hzの非常に低い推論フレームレートを実現し、数分間の長音声のリアルタイム高忠実度生成を可能にしました。（科創板日報）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。