Ant Group lanza de código abierto el modelo multimodal completo Ming-Flash-Omni 2.0

Ant Group ha lanzado de código abierto el modelo multimodal completo Ming-Flash-Omni 2.0, el primer modelo de generación de audio unificado para todos los escenarios en la industria, que puede generar simultáneamente voz, efectos de sonido ambiental y música en una misma pista de audio. Los usuarios pueden dar instrucciones en lenguaje natural para controlar el tono, la velocidad, la entonación, el volumen, las emociones y los dialectos. El modelo logra una tasa de fotogramas de inferencia extremadamente baja de 3.1Hz durante la fase de inferencia, permitiendo la generación en tiempo real de audios largos de minutos con alta fidelidad. (Diario de la Junta de Innovación Científica y Tecnológica)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)