Моделі Frontier AI більше не обмежуються лише допомогою інженерам швидше писати код або автоматизувати рутинні завдання. Вони все більше здатні виявляти свої помилки.
Рекомендоване відео
Anthropic повідомляє, що їхня найновіша модель Claude Opus 4.6 відмінно справляється з виявленням типів вразливостей у програмному забезпеченні, які лежать в основі масштабних кібератак. За даними звіту від команди Frontier Red Team компанії, під час тестування Opus 4.6 виявила понад 500 раніше невідомих нульових днів — вразливостей, які невідомі розробникам програмного забезпечення або особам, відповідальним за їх виправлення, — у відкритих бібліотеках програмного забезпечення. Варто зазначити, що, хоча дослідники поставили моделі ціль — знайти вразливості безпеки у вибраних програмах, — сама модель визначила свої методи для досягнення цієї мети, повідомив Логан Грем, керівник Anthropic’s Frontier Red Team.
Anthropic стверджує, що «результати показують, що мовні моделі можуть додати реальну цінність поверх існуючих інструментів для виявлення вразливостей», але визнає, що ці можливості також мають внутрішню «двояку природу».
Ті самі можливості, що допомагають компаніям знаходити та виправляти вразливості безпеки, можуть так само легко бути використані зловмисниками для виявлення та експлуатації цих вразливостей раніше, ніж захисники зможуть їх знайти. Модель штучного інтелекту, яка може автономно ідентифікувати нульові дні у широко використовуваному програмному забезпеченні, може прискорити обидві сторони у гонці озброєнь у сфері кібербезпеки — потенційно зміщуючи перевагу на сторону того, хто діє швидше.
Грем повідомив Axios, що компанія розглядає кібербезпеку як змагання між нападом і захистом і прагне забезпечити доступ до цих інструментів саме захисникам першими.
Щоб зменшити деякі ризики, Anthropic впроваджує нові системи виявлення, які моніторять внутрішню активність Claude під час генерації відповідей, використовуючи так звані «зонди» для виявлення потенційного зловживання у реальному часі. Компанія також розширює свої можливості щодо забезпечення дотримання правил, зокрема можливість блокувати трафік, визначений як зловмисний. Anthropic визнає, що цей підхід створить труднощі для легітимних дослідників безпеки та захисної роботи і зобов’язується співпрацювати з спільнотою безпеки для вирішення цих проблем. За словами компанії, ці заходи є «значним кроком уперед» у швидкому виявленні та реагуванні на зловживання, хоча робота над цим триває.
На відміну від цього, OpenAI застосувала більш обережний підхід до своєї нової моделі кодування GPT-5.3-Codex, яка також була випущена у четвер. Компанія підкреслює, що хоча модель показала покращення у програмуванні, серйозні ризики для кібербезпеки супроводжують ці досягнення. Генеральний директор OpenAI Сем Альтман у пості на X зазначив, що GPT-5.3-Codex є першою моделлю, яка отримала оцінку «висока» за ризиком для кібербезпеки відповідно до внутрішньої системи підготовки компанії.
В результаті OpenAI випускає GPT-5.3-Codex з більш жорстким контролем. Хоча модель доступна платним користувачам ChatGPT для щоденних завдань розробки, компанія затримує повний доступ до API та обмежує використання високоризикових сценаріїв, які можуть дозволити автоматизацію у масштабі. Більш чутливі застосунки захищені додатковими заходами безпеки, зокрема програмою довіреного доступу для перевірених фахівців з безпеки. У блозі, що супроводжує запуск, OpenAI зазначила, що наразі немає «остаточних доказів», що модель може повністю автоматизувати кібератаки, але вона застосовує обережний підхід, розгортаючи найкомплексніший на сьогодні стек безпеки для кібербезпеки, включаючи посилений моніторинг, навчання з безпеки та механізми забезпечення відповідності, засновані на розвідці про загрози.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Найновіша модель Anthropic відмінно справляється з пошуком вразливостей у безпеці — але створює нові ризики кібербезпеки
Моделі Frontier AI більше не обмежуються лише допомогою інженерам швидше писати код або автоматизувати рутинні завдання. Вони все більше здатні виявляти свої помилки.
Рекомендоване відео
Anthropic повідомляє, що їхня найновіша модель Claude Opus 4.6 відмінно справляється з виявленням типів вразливостей у програмному забезпеченні, які лежать в основі масштабних кібератак. За даними звіту від команди Frontier Red Team компанії, під час тестування Opus 4.6 виявила понад 500 раніше невідомих нульових днів — вразливостей, які невідомі розробникам програмного забезпечення або особам, відповідальним за їх виправлення, — у відкритих бібліотеках програмного забезпечення. Варто зазначити, що, хоча дослідники поставили моделі ціль — знайти вразливості безпеки у вибраних програмах, — сама модель визначила свої методи для досягнення цієї мети, повідомив Логан Грем, керівник Anthropic’s Frontier Red Team.
Anthropic стверджує, що «результати показують, що мовні моделі можуть додати реальну цінність поверх існуючих інструментів для виявлення вразливостей», але визнає, що ці можливості також мають внутрішню «двояку природу».
Ті самі можливості, що допомагають компаніям знаходити та виправляти вразливості безпеки, можуть так само легко бути використані зловмисниками для виявлення та експлуатації цих вразливостей раніше, ніж захисники зможуть їх знайти. Модель штучного інтелекту, яка може автономно ідентифікувати нульові дні у широко використовуваному програмному забезпеченні, може прискорити обидві сторони у гонці озброєнь у сфері кібербезпеки — потенційно зміщуючи перевагу на сторону того, хто діє швидше.
Грем повідомив Axios, що компанія розглядає кібербезпеку як змагання між нападом і захистом і прагне забезпечити доступ до цих інструментів саме захисникам першими.
Щоб зменшити деякі ризики, Anthropic впроваджує нові системи виявлення, які моніторять внутрішню активність Claude під час генерації відповідей, використовуючи так звані «зонди» для виявлення потенційного зловживання у реальному часі. Компанія також розширює свої можливості щодо забезпечення дотримання правил, зокрема можливість блокувати трафік, визначений як зловмисний. Anthropic визнає, що цей підхід створить труднощі для легітимних дослідників безпеки та захисної роботи і зобов’язується співпрацювати з спільнотою безпеки для вирішення цих проблем. За словами компанії, ці заходи є «значним кроком уперед» у швидкому виявленні та реагуванні на зловживання, хоча робота над цим триває.
На відміну від цього, OpenAI застосувала більш обережний підхід до своєї нової моделі кодування GPT-5.3-Codex, яка також була випущена у четвер. Компанія підкреслює, що хоча модель показала покращення у програмуванні, серйозні ризики для кібербезпеки супроводжують ці досягнення. Генеральний директор OpenAI Сем Альтман у пості на X зазначив, що GPT-5.3-Codex є першою моделлю, яка отримала оцінку «висока» за ризиком для кібербезпеки відповідно до внутрішньої системи підготовки компанії.
В результаті OpenAI випускає GPT-5.3-Codex з більш жорстким контролем. Хоча модель доступна платним користувачам ChatGPT для щоденних завдань розробки, компанія затримує повний доступ до API та обмежує використання високоризикових сценаріїв, які можуть дозволити автоматизацію у масштабі. Більш чутливі застосунки захищені додатковими заходами безпеки, зокрема програмою довіреного доступу для перевірених фахівців з безпеки. У блозі, що супроводжує запуск, OpenAI зазначила, що наразі немає «остаточних доказів», що модель може повністю автоматизувати кібератаки, але вона застосовує обережний підхід, розгортаючи найкомплексніший на сьогодні стек безпеки для кібербезпеки, включаючи посилений моніторинг, навчання з безпеки та механізми забезпечення відповідності, засновані на розвідці про загрози.