Sakana AI lanza el sistema KAME, logrando una inyección de conocimiento más profunda con una latencia cercana a cero

robot
Generación de resúmenes en curso

AIMPACT mensaje, 3 de mayo (UTC+8), Sakana AI lanza KAME de arquitectura híbrida, que puede inyectar conocimientos de LLM en tiempo real manteniendo una latencia cercana a cero.
El sistema consta de dos componentes asincrónicos que funcionan en paralelo: el módulo S2S basado en la arquitectura Moshi en el frontend procesa audio en aproximadamente 80 milisegundos y genera respuestas de inmediato; el backend está compuesto por un componente STT y un LLM completo, que construyen transcripciones parciales y generan un flujo de oráculo que se transmite de forma continua al frontend, permitiendo corregir la respuesta en medio del proceso cuando llega un mejor oráculo.
Las evaluaciones muestran que Moshi por sí solo obtiene una puntuación de 2.05, KAME+gpt-4.1 obtiene 6.43, KAME+claude-opus-4-1 obtiene 6.23, con latencias similares a Moshi; el sistema de nivel superior Unmute obtiene una puntuación de 7.70 pero con una latencia de 2.1 segundos.
El backend de KAME es independiente, soportando cambiar de LLM durante la inferencia sin necesidad de volver a entrenar.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado