GPT-5.5 Возвращается на Передний край в Кодинге, но OpenAI Меняет Бенчмарки После Поражения Opus 4.7

Gate News сообщение, 27 апреля — SemiAnalysis, фирма по анализу полупроводников и ИИ, опубликовала сравнительный бенчмарк ассистентов для программирования, включая GPT-5.5, Claude Opus 4.7 и DeepSeek V4. Ключевой вывод: GPT-5.5 знаменует собой первый возврат OpenAI на передний край в моделях для кодинга за последние шесть месяцев, при этом инженеры SemiAnalysis теперь чередуют между Codex и Claude Code после того, как ранее почти исключительно полагались на Claude. GPT-5.5 основана на новом подходе к предварительному обучению с кодовым названием “Spud” и представляет собой первое расширение масштаба предварительного обучения OpenAI со времён GPT-4.5.

При практических испытаниях проявилось явное разделение ролей. Claude отвечает за планирование новых проектов и первичную настройку, тогда как Codex особенно силён в исправлениях багов, требующих интенсивных рассуждений. Codex демонстрирует более сильное понимание структур данных и логических рассуждений, но испытывает трудности с тем, чтобы выводить неоднозначные намерения пользователя. В задаче на одной панели Claude автоматически воссоздал компоновку эталонной страницы, но сфабриковал большие объёмы данных, тогда как Codex пропустил компоновку, зато предоставил значительно более точные данные.

Анализ выявляет деталь манипуляции бенчмарком: февральский блог OpenAI призывал отрасль перейти на SWE-bench Pro как новый стандарт для бенчмарков кода. Однако в объявлении GPT-5.5 переход осуществлён на новый бенчмарк под названием “Expert-SWE.” Причина, спрятанная в мелком шрифте, заключается в том, что GPT-5.5 был обойдён Opus 4.7 на SWE-bench Pro и заметно уступил ненадлежащим образом не раскрытому Anthropic Mythos (77.8%).

Что касается Opus 4.7, Anthropic опубликовала разбор последствий через неделю после релиза, признав три ошибки в Claude Code, которые сохранялись в течение нескольких недель с марта по апрель, затрагивая почти всех пользователей. Ранее несколько инженеров сообщали о деградации производительности в версии 4.6, но их замечания были отклонены как субъективные. Кроме того, новый токенизатор Opus 4.7 увеличивает использование токенов до 35%, что Anthropic откровенно признала — фактически это означает скрытое повышение цены.

DeepSeek V4 оценили как “удерживающий темп с передним краем, но не ведущий,” позиционируя себя как самый бюджетный вариант среди закрытых моделей. Анализ также отметил, что “Claude по-прежнему превосходит DeepSeek V4 Pro в высокосложных задачах китайской письменности,” и прокомментировал, что “Claude выиграл у китайской модели на её родном языке.”

В статье вводится ключевая идея: цена модели должна оцениваться через “стоимость за задачу,” а не через “стоимость за токен.” Прайсинг GPT-5.5 вдвое выше, чем у GPT-5.4 (input $5, output $30 за миллион токенов), но он выполняет те же задачи, используя меньшее число токенов, поэтому фактическая стоимость не обязательно выше. Первичные данные SemiAnalysis показывают, что коэффициент входов к выходам у Codex составляет 80:1, что ниже, чем 100:1 у Claude Code.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

DeepSeek V4 Pro в Ollama Cloud: однокнопочное подключение Claude Code

Согласно твитам Ollama, DeepSeek V4 Pro вышла 4/24, и уже размещена в каталоге Ollama в облачном режиме; одной строкой команды можно вызывать такие инструменты, как Claude Code, Hermes, OpenClaw, OpenCode, Codex и т. д. Версия V4 Pro1.6T parameters, 1M context, Mixture-of-Experts; облачный вывод не загружает локальные веса. Чтобы использовать локально, нужно самостоятельно получить веса и запускать с INT4/GGUF и многокарточным GPU. Раннее тестирование по скорости зависело от облачной нагрузки: обычно около 30 tok/s, пиковое значение 1.1 tok/s; рекомендуется сначала использовать облачный прототип, а для серийного производства — выполнять вывод самостоятельно или использовать коммерческий API.

ChainNewsAbmedia5м назад

DeepSeek снижает цены на V4-Pro на 75%, урезает затраты на кэш API до одной десятой

Сообщение Gate News, 27 апреля — DeepSeek объявила скидку 75% на свою новую модель V4-Pro для разработчиков и снизила цены на попадания в кэш входных данных по всей линейке API до одной десятой от предыдущих уровней. Модель V4, выпущенная 25 апреля в версиях Pro и Flash, была оптимизирована для процессоров Huawei Ascend

GateNews8м назад

Coachella обращается к ИИ DeepMind от Google, чтобы переосмыслить концерты за пределами сцены

Coachella сотрудничает с Google DeepMind, чтобы протестировать новые инструменты ИИ, которые меняют то, как создаются и воспринимаются живые музыкальные выступления. Краткое содержание Coachella протестировала инструменты ИИ вместе с Google DeepMind, чтобы превратить живые выступления в интерактивные цифровые среды. Были созданы три прототипа,

Cryptonews14м назад

Го Минь-цин: OpenAI собирается сделать AI-агент для смартфонов, MediaTek, Qualcomm и Luxshare Precision становятся ключевыми элементами цепочки поставок

Го Миньцюнь заявляет, что OpenAI ведёт разработку AI Agent-смартфона совместно с MediaTek, Qualcomm и Luxshare Precision, и планирует запустить его в серийное производство в 2028 году. Новый телефон будет ориентирован на завершение задач: AI-агент будет понимать и выполнять требования, сочетая вычисления на облаке и на устройстве. Акцент будет сделан на сенсорах и понимании контекста. Список спецификаций и цепочки поставок, как ожидается, будет согласован в 2026–2027 годах; если проект состоится, то он может создать новый цикл обновления для рынка высокого класса, а Luxshare, вероятно, станет одним из главных бенефициаров.

ChainNewsAbmedia24м назад

МЭА: расходы на ИИ-инфраструктуру уже превысили инвестиции в добычу нефти и газа; в 2026 году ожидается их дальнейший рост на 75%

Согласно анализу и рыночным данным, опубликованным Международным энергетическим агентством (МЭА) 26 апреля, совокупные капитальные затраты пяти крупнейших технологических компаний в 2025 году превысили 400 млрд долларов. Основные вложения направлены на строительство инфраструктуры для ИИ; их масштабы уже превзошли ежегодный объем инвестиций в мировую добычу нефти и природного газа. МЭА оценивает, что в 2026 году соответствующие капитальные затраты могут вырасти еще на 75%.

MarketWhisper56м назад

Сенатор Берни Сандерс выносит предупреждение о экзистенциальной угрозе со стороны ИИ

Сандерс подчеркнул, что даже несмотря на то, что большинство ученых в области ИИ признают возможность того, что ИИ выйдет из-под контроля и станет угрозой для нашего существования, никаких серьезных мер для предотвращения этого предпринято не было. «Мы должны убедиться, что ИИ приносит пользу человечеству, а не причиняет нам вред», — заявил он. Ключевые выводы: Берни Сандерс

Coinpedia1ч назад
комментарий
0/400
Нет комментариев