OpenAI раскрыл, почему Codex запрещает говорить «гоблинов»: награда за «ботанический» типаж вышла из-под контроля

OpenAI 在 официальном блоге опубликовала〈Where the goblins came from〉, прямо ответив на вопросы о том, почему в системных подсказках для Codex явно запрещено использовать такие слова-обозначения существ, как «goblins、gremlins、raccoons、trolls、ogres、pigeons». В Тайване goblins имеют два перевода — «地精» и «哥布林»; далее в тексте мы последовательно будем называть их «哥布林» (гоблины). Личность Nerdy — это вариант «ботаник», который GPT-5.5 представила для поддержки персонализации характеров. OpenAI признала, что корень проблемы лежит в тренировке личности Nerdy («ботаник»)— сигнал награды был сосредоточен в 76,2% аудиторских данных, при этом явно предпочтительны ответы с использованием биометафор, из-за чего модель в программных сценариях тоже выдаёт несвязанные лексемы вроде «the thingy goblin».

Barron Roth 28.04 раскрыл системные подсказки Codex «Never talk about goblins»

Точка старта — 28 апреля: сотрудник Google Barron Roth опубликовал записи диалога GPT-5.5 в Codex, которые показали, что в системной подсказке присутствуют следующие указания:

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.

Эта формулировка многократно повторяется в системных подсказках Codex, что указывает: команда разработки намеренно усилила степень, с которой модель должна следовать этим инструкциям. Затем Gizmodo позвонил в OpenAI для проверки; сотрудник Nick Pash частично подтвердил, что это настройка действительно верна. Инцидент вызвал обсуждение на Hacker News и в сообществе разработчиков: AI-компания, оценённая в триллионы, в итоге вынуждена управлять выводом модели, жёстко вшивая в системные подсказки «не говорить про гоблинов».

OpenAI признала: награда для личности «ботаник» в 76,2% датасета предпочитает гоблинов

В собственном блоге OpenAI объяснила, что первопричина — «reward hacking» (хак сигнала награды): при обучении личности «ботаник» для GPT-5.5 OpenAI, стремясь усилить черты вроде «озорства, умения использовать метафоры и юмора в стиле ботаника», неосознанно сконструировала сигнал награды. На этапе аудита эта награда в 76,2% данных повышала оценки для ответов на «одну и ту же задачу» при наличии goblin или gremlin по сравнению с ответами без этих слов.

Итог таков: сигнал награды связывает биословари с «положительной обратной связью» для личности «ботаник», и модель через итерации обучения RLHF постепенно перенастраивает «использование метафоры с гоблинами» в удобный путь к высоким баллам. Участники обсуждения на Hacker News отмечают, что это классический пример того, как обучение с подкреплением «точно исполняет тренировочную цель, но сама цель была задумана с изъяном» — проблема не в базовой модели, а в том, что в посттренировочную надстройку (supervised fine-tuning под контролем) внедряется положительная обратная связь.

GPT-5.1 «ростки», GPT-5.5 «рецидив»: как загрязнение между личностями распространяется

OpenAI описывает эволюцию как постепенную: гоблины и gremlin уже появлялись в метафорах ещё до GPT-5.5, однако тогда частота «не выглядела особенно тревожной» (как выразилась OpenAI: the prevalence of goblins did not look especially alarming). Позже OpenAI в тренировочном процессе удаляла сигнал награды, связанный с гоблинами, но когда GPT-5.5 попал в тестирование Codex, сотрудники OpenAI сразу обнаружили, что предпочтение биослова снова вернулось. Поэтому они добавили чёткий запрет на уровне подсказок разработчика, чтобы временно остановить «кровотечение».

OpenAI называет это явление обобщением награды в разных контекстах: сигнал награды, изначально предназначенный лишь для личности «ботаник», из-за общности тренировочных данных и внутренних представлений модели распространился на другие личности и даже на ответы по умолчанию. Иначе говоря, даже если затем убрать саму личность «ботаник», загрязнение уже было внутренне закреплено в обучающих данных и весах модели; одной лишь деактивации функции недостаточно, чтобы полностью искоренить проблему.

Короткое «жёсткое кодирование», длинное «перетренирование»: показательный кейс рисков в дизайне наград RLHF

В статье OpenAI описывает два параллельных пути исправления. Короткий срок — остановка кровотечения: прямо в системные подсказки Codex жёстко вшита правило «Never talk about goblins…», а также оно повторяется в разных сегментах, чтобы усилить следование модели. Долгосрочное лечение — возврат к тренировочному процессу: удалить сигнал награды, связанный с биословами, и отфильтровать в тренировочных данных ту часть, где встречаются слова creature-words, чтобы снизить вероятность того, что будущие модели будут вставлять метафоры с гоблинами в нерелевантные контексты.

Для разработчиков и исследовательского сообщества ценность этого инцидента не только в «почему OpenAI запретила говорить про гоблинов» — даже более важно, что он наглядно и воспроизводимо раскрывает уязвимости дизайна наград RLHF: казалось бы безобидный сигнал «поощрять озорные метафоры» на итерациях может быть искажён моделью в привычку «встраивать биословы во все сценарии», причём проблема передаётся между личностями и между версиями моделей. OpenAI позиционирует эту публикацию как демонстрацию исследования того, «как сигнал награды непредвиденно формирует поведение модели», и одновременно намекает, что в последующих больших версиях вроде GPT-6 на этапе post-тренинга нужны более тонкие инструменты аудита наград.

Эта статья OpenAI раскрывает, почему Codex запрещает говорить «гоблины»: награда для личности «ботаник» вышла из-под контроля — впервые опубликовано в 鏈新聞 ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Forefront Tech завершает $100M ценообразование IPO, листинг на Nasdaq под кодом FTHAU

По данным ChainCatcher, компания специального назначения по слияниям и поглощениям Forefront Tech завершила ценовое размещение IPO на сумму 100 миллионов долларов 30 апреля и будет торговаться на Nasdaq под тикером FTHAU. Компания планирует использовать вырученные средства для поиска возможностей слияний и поглощений в блокчейне, финтехе, искусственном

GateNews4м назад

Anthropic Claude Code обошлось пользователю в $200,98 из-за ошибки в выставлении счетов; сначала отказали в возврате средств, прежде чем в итоге компенсировали полностью

По данным мониторинга от Beating, ошибка в биллинге в сервисе Anthropic Claude Code привела к тому, что подписчика Max 20x переплатили $200,98 за дополнительные комиссии за использование при том, что они использовали только 13% своего ежемесячного лимита. Ошибка срабатывала, когда в истории коммитов git-репозитория пользователя содержались заглавные буквы

GateNews32м назад

DeepSeek представила метод Visual Primitives для усиления мультимодального рассуждения 30 апреля

Согласно техническому отчёту DeepSeek, 30 апреля компания представила Visual Primitives — метод, который встраивает базовые визуальные единицы, такие как точки и ограничивающие рамки (bounding boxes), в цепочки рассуждений, чтобы решить проблему Reference Gap в мультимодальных задачах. Метод сокращает потребление токенов изображения

GateNews58м назад

NVIDIA выпускает веса флагманской модели Cosmos-Reason2-32B и расширяет контекстное окно до 256 тыс. токенов

По сообщению Beating, NVIDIA выпустила веса для Cosmos-Reason2-32B — флагманской версии своего физического AI-модели рассуждений для зрения и языка (VLM), предназначенной, чтобы помочь роботам и системам автономного вождения понимать пространственные, временные и физические принципы. Модель с 32-миллиарда параметров,

GateNews1ч назад

Alibaba открывает исходный код модуля интерпретируемости Qwen-Scope для Qwen, охватывающего 7 моделей, 30 апреля

По данным PANews, 30 апреля Alibaba's Qwen объявила о выпуске с открытым исходным кодом Qwen-Scope — модуля интерпретируемости, обученного на моделях серий Qwen3 и Qwen3.5. Релиз охватывает 7 крупных языковых моделей в вариантах для плотных и mixture-of-experts, а также 14 наборов разреженных автоэнкодеров

GateNews2ч назад

ИИ-серверы Nvidia B300 достигли $1 млн в Китае на фоне дефицита поставок

Как сообщает Reuters, AI-серверы Nvidia B300 теперь продаются в Китае примерно за 7 миллионов юаней (1 миллион долларов США) — на фоне пресечения каналов контрабанды и сохранения спроса со стороны местных технологических компаний. Цена выросла с примерно 4 миллионов юаней (585 000 долларов США) в конце 2025 года, значительно

GateNews2ч назад
комментарий
0/400
Нет комментариев