Ant Group випустила відкритий код для мультимодальної великої моделі Ming-Flash-Omni 2.0, яка є першою у галузі універсальною моделлю для генерації аудіо у всіх сценаріях. Вона може одночасно створювати голос, навколишні звуки та музику на одному треку. Користувачі можуть давати команди природною мовою для контролю тембру, швидкості, інтонації, гучності, емоцій та діалекту. Модель досягла дуже низької частоти кадрів у режимі інференції — 3.1 Гц, забезпечуючи реальновременне високоточне створення довгих аудіо тривалістю до кількох хвилин. (Щоденна газета Science and Technology Innovation Board)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Група Ant Group відкрила вихідний код універсальної мультимодальної моделі Ming-Flash-Omni 2.0
Ant Group випустила відкритий код для мультимодальної великої моделі Ming-Flash-Omni 2.0, яка є першою у галузі універсальною моделлю для генерації аудіо у всіх сценаріях. Вона може одночасно створювати голос, навколишні звуки та музику на одному треку. Користувачі можуть давати команди природною мовою для контролю тембру, швидкості, інтонації, гучності, емоцій та діалекту. Модель досягла дуже низької частоти кадрів у режимі інференції — 3.1 Гц, забезпечуючи реальновременне високоточне створення довгих аудіо тривалістю до кількох хвилин. (Щоденна газета Science and Technology Innovation Board)