蚂蚁集团はオープンソースで全モーダル大規模モデルのMing-Flash-Omni 2.0を公開しました。これは業界初の全シーン対応の音声統一生成モデルであり、同一の音声トラック内で音声、環境音、音楽を同時に生成できます。ユーザーは自然言語で指示を出すことで、声の色、速度、抑揚、音量、感情、方言などを制御可能です。モデルは推論段階で3.1Hzの非常に低い推論フレームレートを実現し、数分間の長音声のリアルタイム高忠実度生成を可能にしました。(科創板日報)
蚂蚁集团が全モーダル大規模モデル Ming-Flash-Omni 2.0をオープンソース公開
蚂蚁集团はオープンソースで全モーダル大規模モデルのMing-Flash-Omni 2.0を公開しました。これは業界初の全シーン対応の音声統一生成モデルであり、同一の音声トラック内で音声、環境音、音楽を同時に生成できます。ユーザーは自然言語で指示を出すことで、声の色、速度、抑揚、音量、感情、方言などを制御可能です。モデルは推論段階で3.1Hzの非常に低い推論フレームレートを実現し、数分間の長音声のリアルタイム高忠実度生成を可能にしました。(科創板日報)