Ant Group lanza de código abierto el modelo multimodal completo Ming-Flash-Omni 2.0

2026-02-14 02:43:48

Ant Group ha lanzado de código abierto el modelo multimodal completo Ming-Flash-Omni 2.0, el primer modelo de generación de audio unificado para todos los escenarios en la industria, que puede generar simultáneamente voz, efectos de sonido ambiental y música en una misma pista de audio. Los usuarios pueden dar instrucciones en lenguaje natural para controlar el tono, la velocidad, la entonación, el volumen, las emociones y los dialectos. El modelo logra una tasa de fotogramas de inferencia extremadamente baja de 3.1Hz durante la fase de inferencia, permitiendo la generación en tiempo real de audios largos de minutos con alta fidelidad. (Diario de la Junta de Innovación Científica y Tecnológica)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.