Ант Групп выпустила с открытым исходным кодом универсальную мультимодальную модель Ming-Flash-Omni 2.0, которая является первой в отрасли универсальной модели для генерации аудио во всех сценариях. Она может одновременно создавать речь, окружающие звуки и музыку на одном аудиотреке. Пользователи могут давать команды на естественном языке и управлять такими параметрами, как тембр, скорость речи, интонация, громкость, эмоции и диалекты. Модель достигла очень низкой частоты кадров при выводе — 3,1 Гц, что обеспечивает генерацию длительных аудиофайлов продолжительностью в минуты в реальном времени с высоким качеством. (Газета “Дневник инновационной промышленности”)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Группа Ant Group открыто выпустила мультимодальную большую модель Ming-Flash-Omni 2.0
Ант Групп выпустила с открытым исходным кодом универсальную мультимодальную модель Ming-Flash-Omni 2.0, которая является первой в отрасли универсальной модели для генерации аудио во всех сценариях. Она может одновременно создавать речь, окружающие звуки и музыку на одном аудиотреке. Пользователи могут давать команды на естественном языке и управлять такими параметрами, как тембр, скорость речи, интонация, громкость, эмоции и диалекты. Модель достигла очень низкой частоты кадров при выводе — 3,1 Гц, что обеспечивает генерацию длительных аудиофайлов продолжительностью в минуты в реальном времени с высоким качеством. (Газета “Дневник инновационной промышленности”)