El modelo más reciente de Anthropic destaca por detectar vulnerabilidades de seguridad, pero plantea nuevos riesgos en ciberseguridad

ApeWithNoFear · 2026-02-10T04:47:09+00:00

Los modelos de Frontier AI ya no solo ayudan a los ingenieros a escribir código más rápido o a automatizar tareas rutinarias. Cada vez son más capaces de detectar sus errores.Video recomendadoAnthropic dice que su modelo más reciente, Claude Opus 4.6, destaca en descubrir los tipos de debilidades de software que

ApeWithNoFear

2026-02-10 04:47:09

Los modelos de IA de Frontier ya no solo ayudan a los ingenieros a escribir código más rápido o a automatizar tareas rutinarias. Cada vez son más capaces de detectar sus propios errores.

Video recomendado

Anthropic afirma que su modelo más reciente, Claude Opus 4.6, sobresale en descubrir los tipos de vulnerabilidades de software que sustentan los grandes ciberataques. Según un informe del Equipo Rojo de Frontier de la compañía, durante las pruebas, Opus 4.6 identificó más de 500 vulnerabilidades zero-day previamente desconocidas—fallos que son desconocidos para las personas que escribieron el software o para la parte responsable de parchearlo o arreglarlo—en bibliotecas de software de código abierto. Notablemente, mientras los investigadores le daban un objetivo al modelo—encontrar fallos de seguridad en software seleccionado—el modelo determinó sus propios métodos para lograr la tarea, según Logan Graham, jefe del Equipo Rojo de Frontier de Anthropic.

Anthropic dice que los “resultados muestran que los modelos de lenguaje pueden aportar un valor real además de las herramientas de descubrimiento existentes,” pero reconocen que estas capacidades también son inherentemente “de doble uso.”

Las mismas capacidades que ayudan a las empresas a encontrar y corregir fallos de seguridad pueden ser igualmente utilizadas por atacantes para descubrir y explotar las vulnerabilidades antes que los defensores puedan encontrarlas. Un modelo de IA que pueda identificar exploits zero-day de forma autónoma en software ampliamente utilizado podría acelerar ambas caras de la carrera armamentística en ciberseguridad—potencialmente inclinando la ventaja hacia quien actúe más rápido.

Graham dijo a Axios que la compañía ve la ciberseguridad como una competencia entre ofensiva y defensiva, y quiere asegurarse de que los defensores tengan acceso a estas herramientas primero.

Para gestionar algunos de los riesgos, Anthropic está implementando nuevos sistemas de detección que monitorean la actividad interna de Claude mientras genera respuestas, usando lo que la compañía llama “sondas” para detectar posibles usos indebidos en tiempo real. La compañía también dice que está ampliando sus capacidades de cumplimiento, incluyendo la capacidad de bloquear tráfico identificado como malicioso. Anthropic reconoce que este enfoque generará fricciones para los investigadores de seguridad legítimos y el trabajo defensivo, y se ha comprometido a colaborar con la comunidad de seguridad para abordar esos desafíos. La compañía afirma que estas medidas representan “un avance significativo” en la detección y respuesta rápida ante el uso indebido, aunque el trabajo continúa.

En contraste, OpenAI ha adoptado un enfoque más cauteloso con su nuevo modelo de codificación, GPT-5.3-Codex, también lanzado el jueves. La compañía ha enfatizado que, aunque el modelo representa una mejora en el rendimiento de codificación, los riesgos serios de ciberseguridad acompañan a esas ganancias. El CEO de OpenAI, Sam Altman, dijo en una publicación en X que GPT-5.3-Codex es el primer modelo calificado como “alto” en riesgo de ciberseguridad bajo el marco de preparación interna de la compañía.

Como resultado, OpenAI está lanzando GPT-5.3-Codex con controles más estrictos. Aunque el modelo está disponible para usuarios de ChatGPT de pago para tareas de desarrollo cotidianas, la compañía está retrasando el acceso completo a la API y restringiendo casos de uso de alto riesgo que podrían permitir la automatización a gran escala. Las aplicaciones más sensibles están siendo protegidas con salvaguardas adicionales, incluyendo un programa de acceso confiable para profesionales de seguridad verificados. OpenAI afirmó en una publicación en su blog acompañando el lanzamiento que aún no tiene “evidencia definitiva” de que el modelo pueda automatizar completamente ciberataques, pero está adoptando un enfoque de precaución, desplegando lo que describieron como su pila de seguridad cibernética más completa hasta la fecha, que incluye monitoreo mejorado, capacitación en seguridad y mecanismos de cumplimiento informados por inteligencia de amenazas.

Únase a nosotros en la Cumbre de Innovación en el Lugar de Trabajo de Fortune del 19 al 20 de mayo de 2026, en Atlanta. La próxima era de innovación laboral ya está aquí—y el antiguo manual está siendo reescrito. En este evento exclusivo y enérgico, los líderes más innovadores del mundo se reunirán para explorar cómo la IA, la humanidad y la estrategia convergen para redefinir, una vez más, el futuro del trabajo. Regístrese ahora.

GPT-2,18%

CODEX3,69%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.