3 horas de podcasts/videos, resúmen en 15 minutos.


Creé una skill para Claude Code, solo hay que ponerle un enlace — soporta 小宇宙, YouTube, B站, y habla chino e inglés.
Los tres modelos de IA trabajan por separado:
• Claude se encarga de coordinar todo el proceso
• Whisper convierte el audio en texto
• Gemini procesa textos largos de 5万 caracteres y genera resúmenes estructurados
Lo más interesante es que la forma de obtener el audio en las tres plataformas es completamente diferente. 小宇宙 es la más sencilla, el enlace de audio está directamente oculto en el código fuente de la página. YouTube tiene mecanismos anti-bots, hay que sortearlos. B站 es la más complicada — los métodos convencionales están bloqueados, al final se accede a su API subyacente para obtener el audio.
Probamos con tres videos (ver imagen), 117min + 181min + 114min, todos funcionaron. El más largo, de 181 minutos, fue transcrito en más de 5万 caracteres.
Antes, solo podías escuchar o no escuchar podcasts de 3 horas, ahora hay una tercera opción: ver el resumen y, si vale la pena, volver a escuchar el original.
Ver originales
post-image
post-image
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)