Mensaje de Gate News, 24 de abril — Cambricon anunció hoy que ha completado la adaptación del Día 0 de DeepSeek-V4, el último modelo de lenguaje grande de DeepSeek, utilizando su ecosistema propietario de software NeuWare y el framework vLLM. El código de adaptación se ha publicado simultáneamente como código abierto, marcando la segunda vez consecutiva que Cambricon ha entregado soporte nativo de chips el mismo día del lanzamiento del nuevo modelo de DeepSeek.
Para optimizar la arquitectura novedosa de DeepSeek-V4, Cambricon aprovechó su biblioteca de operadores Torch-MLU-Ops de alto rendimiento para una aceleración especializada de módulos que incluyen Compressor y mHC. La empresa también utilizó el lenguaje de programación BangC para desarrollar kernels altamente optimizados para operadores críticos como Attention dispersa/compresa y GroupGemm, aprovechando plenamente las capacidades subyacentes del hardware. Los esfuerzos previos de co-optimización software-hardware entre las dos compañías han logrado índices de utilización de cómputo líderes en la industria.
DeepSeek-V4, que se lanzó hoy y es de código abierto, cuenta con una ventana de contexto extendida de un millón de tokens, capacidades sólidas de Agente y un rendimiento de inferencia sobresaliente. Cambricon afirmó que DeepSeek-V4 ejecutándose de forma nativa en los chips de Cambricon representa un hito significativo para la industria de IA de China.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
Meta Platforms Planea una Reducción del 10% de su Plantilla el 20 de Mayo, que Afectará Aproximadamente a 8.000 Puestos
Mensaje de Gate News, 24 de abril — Meta Platforms planea reducir su plantilla en aproximadamente un 10%, afectando a alrededor de 8.000 puestos, el 20 de mayo. Los despidos están destinados a mejorar la eficiencia operativa mientras se incrementa la inversión en inteligencia artificial.
La reestructuración prevista refleja la
GateNewsHace40m
El gobierno de Trump anuncia un plan para combatir la extracción y el refinado de IA, acusando a las empresas chinas de robar de forma sistemática la capacidad de los modelos
La Oficina de Políticas Tecnológicas de la Casa Blanca (OSTP), el asistente del presidente Michael J. Kratsios, emitió el 23 de abril un comunicado oficial en el que indicó que la administración de Trump tiene información que muestra que entidades extranjeras (principalmente ubicadas en China) están llevando a cabo deliberadamente ataques contra grandes empresas estadounidenses de inteligencia artificial mediante la extracción sistemática de las capacidades de los modelos de IA de Estados Unidos a través de “decenas de miles de cuentas de agentes” y sistemas de tecnología de jailbreak, y que también publicó cuatro medidas de respuesta.
MarketWhisperhace1h
DeepSeek lanza una versión preliminar de código abierto V4, puntuación técnica 3206 superando a GPT-5.4
DeepSeek 推estamente lanzó oficialmente la serie de vista previa V4 el 24 de abril, con licencia MIT y código abierto, y los pesos del modelo ya se han publicado en Hugging Face y ModelScope. Según el informe técnico de DeepSeek V4, V4-Pro-Max (modo de máxima fuerza de inferencia) obtuvo 3206 puntos en el benchmark de Codeforces, superando a GPT-5.4.
MarketWhisperhace1h
Tencent lanza en código abierto Hy3, versión preliminar; las pruebas de referencia del código mejoran un 40% con respecto a la generación anterior
Tencent el 23 de abril lanzó oficialmente como código abierto el modelo de lenguaje grande Hy3 en versión preliminar en las plataformas GitHub, Hugging Face y ModelScope, y también ofrece servicios de API de pago a través de Tencent Cloud. Según informó Decrypt el 24 de abril, la versión preliminar de Hy3 inició el entrenamiento a finales de enero y, para la fecha de publicación, habían transcurrido menos de tres meses.
MarketWhisperhace1h
Inversiones de cartera de FTX por valor de 158 billones de won si no hubiera quebrado
FTX, el exchange centralizado de criptomonedas que se acogió al Capítulo 11 de protección por bancarrota en noviembre de 2022 debido a la falta de liquidez y a la salida de capitales, habría mantenido inversiones valoradas en aproximadamente 158.796 billones de wones si no hubiera colapsado, según un análisis citado por Park
CryptoFrontierhace1h
Xiaomi Revela Detalles del Entrenamiento de MiMo-V2-Pro: Parámetros de Modelo 1T, Miles de GPUs Desplegadas
Mensaje de Gate News, 24 de abril: la jefa del equipo de modelos de lenguaje de Xiaomi, Luo Fuli, reveló en una entrevista en profundidad que el modelo MiMo-V2-Pro cuenta con un total de 1 billón de parámetros y que requirió miles de GPUs para el entrenamiento. Señaló que la escala de 1T representa el umbral mínimo para lograr
GateNewshace1h