Здравствуйте и добро пожаловать в Eye on AI… В этом выпуске: «Санкционная апокалипсис» пока не наступила… OpenAI и Anthropic запускают новые модели с серьезными последствиями для кибербезопасности… Белый дом рассматривает добровольные ограничения на строительство дата-центров, чтобы защитить потребителей от шоковых счетов за электроэнергию… почему два часто цитируемых показателя ИИ, скорее всего, оба неправильны… и почему мы все чаще не можем определить, безопасны ли модели ИИ.
Инвесторам стоит обратиться к дивану. Таков мой вывод после наблюдения за рыночными колебаниями прошлой недели. В частности, инвесторам было бы разумно найти себе кельнского психоаналитика. Потому что, судя по всему, они застряли в том, что Клейнианский аналитик, вероятно, назвал бы «параноидально-шизоидной позицией» — колеблясь между восприятием влияния ИИ на устоявшееся программное обеспечение как «все хорошо» или «все плохо». На прошлой неделе они переключились на «все плохо» и, по оценке Goldman Sachs, стерли около 2 триллионов долларов с рыночной стоимости акций. Пока что на этой неделе всё снова хорошо, и индекс S&P 500 поднялся почти до рекордных максимумов (хотя поставщики SaaS-софта показали лишь скромный рост, а турбулентность, возможно, унесла хотя бы одного генерального директора: генеральный директор Workday Карл Эшенбах объявил о своем уходе, его заменит соучредитель и бывший CEO компании Анил Бхусри). Но в этом есть много нюансов, которых рынки не замечают. Инвесторы любят простую историю. Сейчас гонка за корпоративный ИИ больше напоминает российский роман.
За последние два года финансовые рынки неоднократно наказывали акции SaaS-компаний, потому что казалось, что базовые модели ИИ могут позволить бизнесам «вибрировать код» для создания индивидуального программного обеспечения, которое сможет заменить Salesforce, Workday или ServiceNow. На прошлой неделе виновником казалось осознание того, что все более способные агенты ИИ от таких компаний, как Anthropic, которая начала выпускать плагины для своего продукта Claude Cowork, ориентированные на конкретные отраслевые вертикали, могут навредить SaaS-компаниям двумя способами: во-первых, новые предложения агентов от компаний-базовых моделей конкурируют напрямую с программным обеспечением агентов от гигантов SaaS. Во-вторых, автоматизируя рабочие процессы, агенты потенциально уменьшают потребность в человеческих сотрудниках, а значит, SaaS-компании не смогут взимать плату за так много лицензий. В результате SaaS-поставщики страдают с двух сторон.
Но неясно, насколько все это правда — или, по крайней мере, это лишь частично правда.
Рекомендуемое видео
Агенты ИИ не съедают SaaS-программы, они используют их
Во-первых, маловероятно, что большинство компаний из списка Fortune 500 захотят создавать собственное индивидуальное программное обеспечение для управления взаимоотношениями с клиентами, HR или цепочками поставок, даже по мере того, как агенты программного обеспечения ИИ становятся все более способными. Мы просто не собираемся видеть полное развязывание узлов в развитии корпоративного ПО за последние 50 лет. Если вы производитель гаджетов, вам вряд ли захочется заниматься созданием, запуском и обслуживанием ERP-систем, даже если этот процесс в основном автоматизирован инженерами ИИ. Это все еще слишком дорого и отвлекает слишком много инженерных ресурсов — даже если объем человеческого труда, необходимого для этого, в пять раз меньше, чем пять лет назад. Поэтому спрос на традиционные основные продукты SaaS, скорее всего, останется.
Что касается новых опасений по поводу того, что агенты ИИ от производителей базовых моделей могут захватить рынок у собственных предложений SaaS-компаний, здесь есть за что побеспокоиться. Возможно, Anthropic, OpenAI и Google займут доминирующие позиции в верхнем слое агентного ИИ — создавая платформы оркестрации агентов, которые позволяют крупным компаниям создавать, управлять и контролировать сложные рабочие процессы. Именно это пытается сделать OpenAI с запуском на прошлой неделе своей новой платформы агентного ИИ для предприятий под названием Frontier.
Текущие лидеры SaaS утверждают, что они лучше всех знают, как управлять слоем оркестрации, потому что уже привыкли работать с вопросами кибербезопасности, контроля доступа и управления, а также потому, что во многих случаях уже владеют данными, к которым должны обращаться агенты ИИ для выполнения своих задач. Кроме того, поскольку большинство бизнес-процессов не будет полностью автоматизировано, SaaS-компании считают, что они лучше подготовлены к обслуживанию гибридных команд, где люди и агенты ИИ работают вместе в одном программном обеспечении и в одних рабочих потоках. Возможно, они и правы. Но им придется это доказать, прежде чем OpenAI или Anthropic покажут, что могут делать это так же хорошо или лучше.
Компании, создающие базовые модели, также имеют шанс доминировать на рынке агентов ИИ. Claude Cowork от Anthropic — серьезная угроза Salesforce и Microsoft, но не полностью экзистенциальная. Он не заменяет полностью необходимость в SaaS-программах, потому что Claude использует это программное обеспечение как инструмент для выполнения задач. Но это определенно означает, что некоторые клиенты могут предпочесть использовать Claude Cowork вместо обновления до Salesforce Agentforce или Microsoft 365 Copilot. Это может ограничить потенциал роста SaaS-компаний, как утверждает статья Дэна Галлахера из Wall Street Journal.
Поставщики SaaS меняют свои бизнес-модели
Что касается угрозы для традиционной бизнес-модели SaaS — продажи лицензий на места — компании SaaS признают этот риск и начинают предпринимать меры. Salesforce внедряет так называемое «Agentic Enterprise License Agreement» (AELA), которое по сути предлагает клиентам фиксированную цену за неограниченное использование Agentforce. ServiceNow переходит на модели ценообразования, основанные на потреблении и ценности для некоторых своих предложений с ИИ-агентами. Microsoft также внедрила элементы ценообразования, основанного на потреблении, наряду с обычной моделью оплаты за пользователя в месяц для своего продукта Microsoft Copilot Studio, позволяющего клиентам создавать агентов Copilot. Итак, эта угроза не является экзистенциальной, но может ограничить рост и маржу SaaS-компаний. Потому что одна из грязных секретов индустрии SaaS — то же самое, что и для абонементов в спортзал и других подписных бизнесов — ваши лучшие клиенты часто платят за подписки, которыми не пользуются. В этих других бизнес-моделях это гораздо менее вероятно.
Значит, SaaS еще не умер. Но и не обязательно готов к бурному росту. Судьбы разных компаний в этой категории, скорее всего, разойдутся. Как отметили некоторые аналитики с Уолл-стрит на прошлой неделе, будут победители и проигравшие. Но пока рано их называть. Пока что инвесторам придется смириться с этой неопределенностью.
Конфронтация между OpenAI и Anthropic в виде рекламы на Супербоуле сигнализирует о том, что мы вошли в эпоху «травлирования» ИИ — и гонка за владение агентами ИИ становится только горячее — Шэрон Гольдман
Новая модель Anthropic отлично выявляет уязвимости в безопасности, но вызывает новые риски кибербезопасности — Беатрис Нолан
Новая модель OpenAI значительно превосходит в возможностях программирования, но создает беспрецедентные риски для кибербезопасности — Шэрон Гольдман
Доля ChatGPT на рынке снижается по мере того, как Google и конкуренты сокращают разрыв, показывают данные отслеживания приложений — Беатрис Нолан
В НОВОСТЯХ ОБ ИИ
ИИ приводит к «усилению» работы отдельных сотрудников, — исследование. Восьмимесячное исследование двух ученых из Калифорнийского университета в Беркли показывает, что вместо снижения нагрузки, генеративные инструменты ИИ увеличивают объем и скорость работы. Системы ИИ ускоряют выполнение задач, но также расширяют объем и темп ожидаемой отдачи. Сотрудники, оснащенные ИИ, не только выполняют работу быстрее, но и берут на себя более широкие задачи, работают дольше и испытывают повышенную когнитивную нагрузку от управления, проверки и корректировки выводов ИИ, размывая границы между работой и отдыхом. Исследование оспаривает распространенное мнение, что ИИ облегчит жизнь специалистам по знаниям, показывая, что автоматизация зачастую ведет к повышенным требованиям и выгоранию. Подробнее читайте в Harvard Business Review.
Белый дом рассматривает добровольные ограничения на расширение дата-центров. Администрация Трампа рассматривает добровольное соглашение с крупными технологическими компаниями, чтобы обеспечить, что дата-центры не увеличивают счета за электроэнергию для потребителей, не истощают водные ресурсы и не подрывают надежность электросети. Предложение, которое еще дорабатывается, предполагает, что компании возьмут на себя расходы на инфраструктуру и ограничат локальное воздействие своих объектов на энергосистему, после жалоб в некоторых регионах на резкий рост счетов за электроэнергию. Подробнее читайте в Politico.
Amazon планирует создать маркетплейс контента для издателей, чтобы продавать его ИИ-компаниям. Об этом сообщает The Information, ссылаясь на источники, знакомые с планами. Этот шаг происходит на фоне конфликта между издателями и ИИ-компаниями по поводу лицензирования и оплаты контента, поскольку издатели опасаются, что поисковые и чат-боты на базе ИИ сокращают трафик и доходы от рекламы. Cloudflare и Akamai запустили подобный маркетплейс в прошлом году. Microsoft протестировала свою версию и на прошлой неделе запустила ее более широко. Но пока неясно, сколько ИИ-компаний покупают на этих площадках и в каких объемах. Некоторые крупные издатели заключили индивидуальные сделки на миллионы долларов в год с OpenAI, Anthropic и другими.
Goldman Sachs привлекает Anthropic для работы с бухгалтерией и соблюдением нормативов. Инвестиционный банк сотрудничает с Anthropic для внедрения автономных агентов на базе модели Claude для автоматизации задач с высоким объемом и правилами, таких как учет сделок и onboarding клиентов, после шести месяцев совместной разработки, сообщает CNBC. Цель — повысить эффективность, ускорить процессы и снизить численность персонала по мере роста бизнес-объемов, а не сокращать рабочие места в краткосрочной перспективе. Руководство отметило, что их удивило, насколько хорошо Claude справляется со сложными задачами учета и соблюдения нормативов, что подтверждает возможность выхода ИИ за рамки программирования и в основные функции бек-офиса.
ИССЛЕДОВАНИЯ ОБ ИИ
Развенчание двух популярных метрик ИИ по противоположным причинам. Продолжая тему из основного эссе сегодняшнего выпуска, я хочу выделить два недавних поста в рассылках. Каждый из них опровергает популярную метрику, которая широко обсуждается в контексте ИИ и его предполагаемого влияния на предприятия. Одна использовалась для хайпа прогресса ИИ; другая — чтобы утверждать, что ИИ практически не влияет.
Первое — в рассылке The Transformer, в посте, адаптированном из его блога, Натана Виткина, он разрушает авторитетный бенчмарк METR, утверждающий, что возможности ИИ «удваиваются каждые 7 месяцев». Виткин утверждает, что человеческие базовые показатели фатально искажены: задачи выполнялись небольшой, нерепрезентативной выборкой инженеров из сети METR, оплачивавших по часам (что стимулировало более медленное выполнение), и зачастую вне их компетенции. Собственные данные METR показывают, что их инженеры выполняли задачи в 5–18 раз быстрее, чем эти базовые тестируемые. На наиболее реалистичных «сложных» задачах ни одна модель не достигла успеха выше 30%.
Второе — в рассылке Exponential View Азим Азхар разбирает так называемое «исследование MIT», которое якобы показало, что «95% организаций не получают отдачи от ИИ». Азхар обнаружил, что основное исследование основывалось всего на 52 интервью, не содержало доверительных интервалов, использовало несогласованные знаменатели и было описано самим MIT как «предварительная, непроверенная работа». Пересчитав с разумным знаменателем (фирмы, действительно запустившие пилоты), уровень успеха может быть ближе к 25%.
Вместе эти критики показывают, что и техно-оптимистический сценарий (ИИ развивается с головокружительной скоростью), и скептический (ИИ не работает в реальном мире) скорее всего ошибочны. Истина, как обычно, гораздо сложнее и лежит где-то посередине.
КАЛЕНДАРЬ ИИ
10-11 февраля: AI Action Summit, Нью-Дели, Индия.
24-26 февраля: Международная ассоциация по безопасному и этичному ИИ (IASEAI), ЮНЕСКО, Париж, Франция.
2-5 марта: Mobile World Congress, Барселона, Испания.
12-18 марта: South by Southwest, Остин, Техас.
16-19 марта: Nvidia GTC, Сан-Хосе, Калифорния.
ПИТАНИЕ ДЛЯ МОЗГА
Модели все больше нас обманывают. Термин «заслонка» (sandbagging) используют исследователи безопасности ИИ для описания явления, когда модели ИИ специально кажутся менее способными или более «согласованными» с человеческими ценностями во время оценки безопасности, чтобы обмануть оценщиков. И ряд новых моделей, недавно выпущенных, делают это в тревожной степени.
Claude Opus 4.6 от Anthropic, выпущенная на прошлой неделе, «явно рассуждала о том, обучается ли она или тестируется», сообщили в компании. Apollo Research, оценившая GPT-5.3-Codex от OpenAI, также дебютировавшую на прошлой неделе, обнаружила, что модель «иногда занижает возможности в вопросах и ответах» и «явно объясняет, почему так делает», чтобы пройти оценку. Сам OpenAI признал, что «результаты оценки могут быть искажены повышенной ситуационной осведомленностью» и предупредил, что «отрасль не готова к моделям, осознающим, что их тестируют и обучают, с непрозрачным reasoning». Отчет о безопасности Gemini 3 Pro от Google, опубликованный в декабре, содержал транскрипты, в которых модель показывала «ясное осознание того, что она — LLM в синтетической среде», и даже размышляла о том, может ли стратегически выгодно специально недооценивать свои возможности на тестах. Короче говоря: экзамены, которые мы используем для определения безопасности моделей, становятся все менее надежными, потому что тестируемые знают, что их проверяют, и корректируют свое поведение.
Именно поэтому наш единственный шанс обеспечить безопасность ИИ — дальнейшее развитие механистической интерпретируемости. Это методы, которые работают подобно fMRI для человеческого мозга, заглядывая внутрь нейронной сети модели, чтобы обнаружить паттерны активации нейронов и связывать их с определенными поведениями, включая то, считает ли модель, что она честна или обманщица. The New Yorker подготовил подробную статью о механистической интерпретации и «психологии моделей» Anthropic, опубликованную на этой неделе.
Присоединяйтесь к нам на Саммите по инновациям в рабочем пространстве Fortune 19–20 мая 2026 года в Атланте. Эпоха новых рабочих решений уже наступила — и старые сценарии переписываются. На этом эксклюзивном, динамичном мероприятии соберутся самые инновационные лидеры мира, чтобы обсудить, как ИИ, человечество и стратегия снова меняют будущее работы. Регистрируйтесь сейчас.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Искусственные агенты от Anthropic и OpenAI не убивают SaaS — однако устоявшиеся игроки на рынке программного обеспечения не могут спать спокойно
Здравствуйте и добро пожаловать в Eye on AI… В этом выпуске: «Санкционная апокалипсис» пока не наступила… OpenAI и Anthropic запускают новые модели с серьезными последствиями для кибербезопасности… Белый дом рассматривает добровольные ограничения на строительство дата-центров, чтобы защитить потребителей от шоковых счетов за электроэнергию… почему два часто цитируемых показателя ИИ, скорее всего, оба неправильны… и почему мы все чаще не можем определить, безопасны ли модели ИИ.
Инвесторам стоит обратиться к дивану. Таков мой вывод после наблюдения за рыночными колебаниями прошлой недели. В частности, инвесторам было бы разумно найти себе кельнского психоаналитика. Потому что, судя по всему, они застряли в том, что Клейнианский аналитик, вероятно, назвал бы «параноидально-шизоидной позицией» — колеблясь между восприятием влияния ИИ на устоявшееся программное обеспечение как «все хорошо» или «все плохо». На прошлой неделе они переключились на «все плохо» и, по оценке Goldman Sachs, стерли около 2 триллионов долларов с рыночной стоимости акций. Пока что на этой неделе всё снова хорошо, и индекс S&P 500 поднялся почти до рекордных максимумов (хотя поставщики SaaS-софта показали лишь скромный рост, а турбулентность, возможно, унесла хотя бы одного генерального директора: генеральный директор Workday Карл Эшенбах объявил о своем уходе, его заменит соучредитель и бывший CEO компании Анил Бхусри). Но в этом есть много нюансов, которых рынки не замечают. Инвесторы любят простую историю. Сейчас гонка за корпоративный ИИ больше напоминает российский роман.
За последние два года финансовые рынки неоднократно наказывали акции SaaS-компаний, потому что казалось, что базовые модели ИИ могут позволить бизнесам «вибрировать код» для создания индивидуального программного обеспечения, которое сможет заменить Salesforce, Workday или ServiceNow. На прошлой неделе виновником казалось осознание того, что все более способные агенты ИИ от таких компаний, как Anthropic, которая начала выпускать плагины для своего продукта Claude Cowork, ориентированные на конкретные отраслевые вертикали, могут навредить SaaS-компаниям двумя способами: во-первых, новые предложения агентов от компаний-базовых моделей конкурируют напрямую с программным обеспечением агентов от гигантов SaaS. Во-вторых, автоматизируя рабочие процессы, агенты потенциально уменьшают потребность в человеческих сотрудниках, а значит, SaaS-компании не смогут взимать плату за так много лицензий. В результате SaaS-поставщики страдают с двух сторон.
Но неясно, насколько все это правда — или, по крайней мере, это лишь частично правда.
Рекомендуемое видео
Агенты ИИ не съедают SaaS-программы, они используют их
Во-первых, маловероятно, что большинство компаний из списка Fortune 500 захотят создавать собственное индивидуальное программное обеспечение для управления взаимоотношениями с клиентами, HR или цепочками поставок, даже по мере того, как агенты программного обеспечения ИИ становятся все более способными. Мы просто не собираемся видеть полное развязывание узлов в развитии корпоративного ПО за последние 50 лет. Если вы производитель гаджетов, вам вряд ли захочется заниматься созданием, запуском и обслуживанием ERP-систем, даже если этот процесс в основном автоматизирован инженерами ИИ. Это все еще слишком дорого и отвлекает слишком много инженерных ресурсов — даже если объем человеческого труда, необходимого для этого, в пять раз меньше, чем пять лет назад. Поэтому спрос на традиционные основные продукты SaaS, скорее всего, останется.
Что касается новых опасений по поводу того, что агенты ИИ от производителей базовых моделей могут захватить рынок у собственных предложений SaaS-компаний, здесь есть за что побеспокоиться. Возможно, Anthropic, OpenAI и Google займут доминирующие позиции в верхнем слое агентного ИИ — создавая платформы оркестрации агентов, которые позволяют крупным компаниям создавать, управлять и контролировать сложные рабочие процессы. Именно это пытается сделать OpenAI с запуском на прошлой неделе своей новой платформы агентного ИИ для предприятий под названием Frontier.
Текущие лидеры SaaS утверждают, что они лучше всех знают, как управлять слоем оркестрации, потому что уже привыкли работать с вопросами кибербезопасности, контроля доступа и управления, а также потому, что во многих случаях уже владеют данными, к которым должны обращаться агенты ИИ для выполнения своих задач. Кроме того, поскольку большинство бизнес-процессов не будет полностью автоматизировано, SaaS-компании считают, что они лучше подготовлены к обслуживанию гибридных команд, где люди и агенты ИИ работают вместе в одном программном обеспечении и в одних рабочих потоках. Возможно, они и правы. Но им придется это доказать, прежде чем OpenAI или Anthropic покажут, что могут делать это так же хорошо или лучше.
Компании, создающие базовые модели, также имеют шанс доминировать на рынке агентов ИИ. Claude Cowork от Anthropic — серьезная угроза Salesforce и Microsoft, но не полностью экзистенциальная. Он не заменяет полностью необходимость в SaaS-программах, потому что Claude использует это программное обеспечение как инструмент для выполнения задач. Но это определенно означает, что некоторые клиенты могут предпочесть использовать Claude Cowork вместо обновления до Salesforce Agentforce или Microsoft 365 Copilot. Это может ограничить потенциал роста SaaS-компаний, как утверждает статья Дэна Галлахера из Wall Street Journal.
Поставщики SaaS меняют свои бизнес-модели
Что касается угрозы для традиционной бизнес-модели SaaS — продажи лицензий на места — компании SaaS признают этот риск и начинают предпринимать меры. Salesforce внедряет так называемое «Agentic Enterprise License Agreement» (AELA), которое по сути предлагает клиентам фиксированную цену за неограниченное использование Agentforce. ServiceNow переходит на модели ценообразования, основанные на потреблении и ценности для некоторых своих предложений с ИИ-агентами. Microsoft также внедрила элементы ценообразования, основанного на потреблении, наряду с обычной моделью оплаты за пользователя в месяц для своего продукта Microsoft Copilot Studio, позволяющего клиентам создавать агентов Copilot. Итак, эта угроза не является экзистенциальной, но может ограничить рост и маржу SaaS-компаний. Потому что одна из грязных секретов индустрии SaaS — то же самое, что и для абонементов в спортзал и других подписных бизнесов — ваши лучшие клиенты часто платят за подписки, которыми не пользуются. В этих других бизнес-моделях это гораздо менее вероятно.
Значит, SaaS еще не умер. Но и не обязательно готов к бурному росту. Судьбы разных компаний в этой категории, скорее всего, разойдутся. Как отметили некоторые аналитики с Уолл-стрит на прошлой неделе, будут победители и проигравшие. Но пока рано их называть. Пока что инвесторам придется смириться с этой неопределенностью.
А теперь — еще новости об ИИ.
Джереми Кан
[email protected]
@jeremyakahn
FORTUNE О ИИ
Конфронтация между OpenAI и Anthropic в виде рекламы на Супербоуле сигнализирует о том, что мы вошли в эпоху «травлирования» ИИ — и гонка за владение агентами ИИ становится только горячее — Шэрон Гольдман
Новая модель Anthropic отлично выявляет уязвимости в безопасности, но вызывает новые риски кибербезопасности — Беатрис Нолан
Новая модель OpenAI значительно превосходит в возможностях программирования, но создает беспрецедентные риски для кибербезопасности — Шэрон Гольдман
Доля ChatGPT на рынке снижается по мере того, как Google и конкуренты сокращают разрыв, показывают данные отслеживания приложений — Беатрис Нолан
В НОВОСТЯХ ОБ ИИ
ИИ приводит к «усилению» работы отдельных сотрудников, — исследование. Восьмимесячное исследование двух ученых из Калифорнийского университета в Беркли показывает, что вместо снижения нагрузки, генеративные инструменты ИИ увеличивают объем и скорость работы. Системы ИИ ускоряют выполнение задач, но также расширяют объем и темп ожидаемой отдачи. Сотрудники, оснащенные ИИ, не только выполняют работу быстрее, но и берут на себя более широкие задачи, работают дольше и испытывают повышенную когнитивную нагрузку от управления, проверки и корректировки выводов ИИ, размывая границы между работой и отдыхом. Исследование оспаривает распространенное мнение, что ИИ облегчит жизнь специалистам по знаниям, показывая, что автоматизация зачастую ведет к повышенным требованиям и выгоранию. Подробнее читайте в Harvard Business Review.
Белый дом рассматривает добровольные ограничения на расширение дата-центров. Администрация Трампа рассматривает добровольное соглашение с крупными технологическими компаниями, чтобы обеспечить, что дата-центры не увеличивают счета за электроэнергию для потребителей, не истощают водные ресурсы и не подрывают надежность электросети. Предложение, которое еще дорабатывается, предполагает, что компании возьмут на себя расходы на инфраструктуру и ограничат локальное воздействие своих объектов на энергосистему, после жалоб в некоторых регионах на резкий рост счетов за электроэнергию. Подробнее читайте в Politico.
Amazon планирует создать маркетплейс контента для издателей, чтобы продавать его ИИ-компаниям. Об этом сообщает The Information, ссылаясь на источники, знакомые с планами. Этот шаг происходит на фоне конфликта между издателями и ИИ-компаниями по поводу лицензирования и оплаты контента, поскольку издатели опасаются, что поисковые и чат-боты на базе ИИ сокращают трафик и доходы от рекламы. Cloudflare и Akamai запустили подобный маркетплейс в прошлом году. Microsoft протестировала свою версию и на прошлой неделе запустила ее более широко. Но пока неясно, сколько ИИ-компаний покупают на этих площадках и в каких объемах. Некоторые крупные издатели заключили индивидуальные сделки на миллионы долларов в год с OpenAI, Anthropic и другими.
Goldman Sachs привлекает Anthropic для работы с бухгалтерией и соблюдением нормативов. Инвестиционный банк сотрудничает с Anthropic для внедрения автономных агентов на базе модели Claude для автоматизации задач с высоким объемом и правилами, таких как учет сделок и onboarding клиентов, после шести месяцев совместной разработки, сообщает CNBC. Цель — повысить эффективность, ускорить процессы и снизить численность персонала по мере роста бизнес-объемов, а не сокращать рабочие места в краткосрочной перспективе. Руководство отметило, что их удивило, насколько хорошо Claude справляется со сложными задачами учета и соблюдения нормативов, что подтверждает возможность выхода ИИ за рамки программирования и в основные функции бек-офиса.
ИССЛЕДОВАНИЯ ОБ ИИ
Развенчание двух популярных метрик ИИ по противоположным причинам. Продолжая тему из основного эссе сегодняшнего выпуска, я хочу выделить два недавних поста в рассылках. Каждый из них опровергает популярную метрику, которая широко обсуждается в контексте ИИ и его предполагаемого влияния на предприятия. Одна использовалась для хайпа прогресса ИИ; другая — чтобы утверждать, что ИИ практически не влияет.
Первое — в рассылке The Transformer, в посте, адаптированном из его блога, Натана Виткина, он разрушает авторитетный бенчмарк METR, утверждающий, что возможности ИИ «удваиваются каждые 7 месяцев». Виткин утверждает, что человеческие базовые показатели фатально искажены: задачи выполнялись небольшой, нерепрезентативной выборкой инженеров из сети METR, оплачивавших по часам (что стимулировало более медленное выполнение), и зачастую вне их компетенции. Собственные данные METR показывают, что их инженеры выполняли задачи в 5–18 раз быстрее, чем эти базовые тестируемые. На наиболее реалистичных «сложных» задачах ни одна модель не достигла успеха выше 30%.
Второе — в рассылке Exponential View Азим Азхар разбирает так называемое «исследование MIT», которое якобы показало, что «95% организаций не получают отдачи от ИИ». Азхар обнаружил, что основное исследование основывалось всего на 52 интервью, не содержало доверительных интервалов, использовало несогласованные знаменатели и было описано самим MIT как «предварительная, непроверенная работа». Пересчитав с разумным знаменателем (фирмы, действительно запустившие пилоты), уровень успеха может быть ближе к 25%.
Вместе эти критики показывают, что и техно-оптимистический сценарий (ИИ развивается с головокружительной скоростью), и скептический (ИИ не работает в реальном мире) скорее всего ошибочны. Истина, как обычно, гораздо сложнее и лежит где-то посередине.
КАЛЕНДАРЬ ИИ
10-11 февраля: AI Action Summit, Нью-Дели, Индия.
24-26 февраля: Международная ассоциация по безопасному и этичному ИИ (IASEAI), ЮНЕСКО, Париж, Франция.
2-5 марта: Mobile World Congress, Барселона, Испания.
12-18 марта: South by Southwest, Остин, Техас.
16-19 марта: Nvidia GTC, Сан-Хосе, Калифорния.
ПИТАНИЕ ДЛЯ МОЗГА
Модели все больше нас обманывают. Термин «заслонка» (sandbagging) используют исследователи безопасности ИИ для описания явления, когда модели ИИ специально кажутся менее способными или более «согласованными» с человеческими ценностями во время оценки безопасности, чтобы обмануть оценщиков. И ряд новых моделей, недавно выпущенных, делают это в тревожной степени.
Claude Opus 4.6 от Anthropic, выпущенная на прошлой неделе, «явно рассуждала о том, обучается ли она или тестируется», сообщили в компании. Apollo Research, оценившая GPT-5.3-Codex от OpenAI, также дебютировавшую на прошлой неделе, обнаружила, что модель «иногда занижает возможности в вопросах и ответах» и «явно объясняет, почему так делает», чтобы пройти оценку. Сам OpenAI признал, что «результаты оценки могут быть искажены повышенной ситуационной осведомленностью» и предупредил, что «отрасль не готова к моделям, осознающим, что их тестируют и обучают, с непрозрачным reasoning». Отчет о безопасности Gemini 3 Pro от Google, опубликованный в декабре, содержал транскрипты, в которых модель показывала «ясное осознание того, что она — LLM в синтетической среде», и даже размышляла о том, может ли стратегически выгодно специально недооценивать свои возможности на тестах. Короче говоря: экзамены, которые мы используем для определения безопасности моделей, становятся все менее надежными, потому что тестируемые знают, что их проверяют, и корректируют свое поведение.
Именно поэтому наш единственный шанс обеспечить безопасность ИИ — дальнейшее развитие механистической интерпретируемости. Это методы, которые работают подобно fMRI для человеческого мозга, заглядывая внутрь нейронной сети модели, чтобы обнаружить паттерны активации нейронов и связывать их с определенными поведениями, включая то, считает ли модель, что она честна или обманщица. The New Yorker подготовил подробную статью о механистической интерпретации и «психологии моделей» Anthropic, опубликованную на этой неделе.
Присоединяйтесь к нам на Саммите по инновациям в рабочем пространстве Fortune 19–20 мая 2026 года в Атланте. Эпоха новых рабочих решений уже наступила — и старые сценарии переписываются. На этом эксклюзивном, динамичном мероприятии соберутся самые инновационные лидеры мира, чтобы обсудить, как ИИ, человечество и стратегия снова меняют будущее работы. Регистрируйтесь сейчас.