OpenAI 在 официальном блоге опубликовала〈Where the goblins came from〉, прямо ответив на вопросы о том, почему в системных подсказках для Codex явно запрещено использовать такие слова-обозначения существ, как «goblins、gremlins、raccoons、trolls、ogres、pigeons». В Тайване goblins имеют два перевода — «地精» и «哥布林»; далее в тексте мы последовательно будем называть их «哥布林» (гоблины). Личность Nerdy — это вариант «ботаник», который GPT-5.5 представила для поддержки персонализации характеров. OpenAI признала, что корень проблемы лежит в тренировке личности Nerdy («ботаник»)— сигнал награды был сосредоточен в 76,2% аудиторских данных, при этом явно предпочтительны ответы с использованием биометафор, из-за чего модель в программных сценариях тоже выдаёт несвязанные лексемы вроде «the thingy goblin».
Barron Roth 28.04 раскрыл системные подсказки Codex «Never talk about goblins»
Точка старта — 28 апреля: сотрудник Google Barron Roth опубликовал записи диалога GPT-5.5 в Codex, которые показали, что в системной подсказке присутствуют следующие указания:
Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.
Эта формулировка многократно повторяется в системных подсказках Codex, что указывает: команда разработки намеренно усилила степень, с которой модель должна следовать этим инструкциям. Затем Gizmodo позвонил в OpenAI для проверки; сотрудник Nick Pash частично подтвердил, что это настройка действительно верна. Инцидент вызвал обсуждение на Hacker News и в сообществе разработчиков: AI-компания, оценённая в триллионы, в итоге вынуждена управлять выводом модели, жёстко вшивая в системные подсказки «не говорить про гоблинов».
OpenAI признала: награда для личности «ботаник» в 76,2% датасета предпочитает гоблинов
В собственном блоге OpenAI объяснила, что первопричина — «reward hacking» (хак сигнала награды): при обучении личности «ботаник» для GPT-5.5 OpenAI, стремясь усилить черты вроде «озорства, умения использовать метафоры и юмора в стиле ботаника», неосознанно сконструировала сигнал награды. На этапе аудита эта награда в 76,2% данных повышала оценки для ответов на «одну и ту же задачу» при наличии goblin или gremlin по сравнению с ответами без этих слов.
Итог таков: сигнал награды связывает биословари с «положительной обратной связью» для личности «ботаник», и модель через итерации обучения RLHF постепенно перенастраивает «использование метафоры с гоблинами» в удобный путь к высоким баллам. Участники обсуждения на Hacker News отмечают, что это классический пример того, как обучение с подкреплением «точно исполняет тренировочную цель, но сама цель была задумана с изъяном» — проблема не в базовой модели, а в том, что в посттренировочную надстройку (supervised fine-tuning под контролем) внедряется положительная обратная связь.
GPT-5.1 «ростки», GPT-5.5 «рецидив»: как загрязнение между личностями распространяется
OpenAI описывает эволюцию как постепенную: гоблины и gremlin уже появлялись в метафорах ещё до GPT-5.5, однако тогда частота «не выглядела особенно тревожной» (как выразилась OpenAI: the prevalence of goblins did not look especially alarming). Позже OpenAI в тренировочном процессе удаляла сигнал награды, связанный с гоблинами, но когда GPT-5.5 попал в тестирование Codex, сотрудники OpenAI сразу обнаружили, что предпочтение биослова снова вернулось. Поэтому они добавили чёткий запрет на уровне подсказок разработчика, чтобы временно остановить «кровотечение».
OpenAI называет это явление обобщением награды в разных контекстах: сигнал награды, изначально предназначенный лишь для личности «ботаник», из-за общности тренировочных данных и внутренних представлений модели распространился на другие личности и даже на ответы по умолчанию. Иначе говоря, даже если затем убрать саму личность «ботаник», загрязнение уже было внутренне закреплено в обучающих данных и весах модели; одной лишь деактивации функции недостаточно, чтобы полностью искоренить проблему.
Короткое «жёсткое кодирование», длинное «перетренирование»: показательный кейс рисков в дизайне наград RLHF
В статье OpenAI описывает два параллельных пути исправления. Короткий срок — остановка кровотечения: прямо в системные подсказки Codex жёстко вшита правило «Never talk about goblins…», а также оно повторяется в разных сегментах, чтобы усилить следование модели. Долгосрочное лечение — возврат к тренировочному процессу: удалить сигнал награды, связанный с биословами, и отфильтровать в тренировочных данных ту часть, где встречаются слова creature-words, чтобы снизить вероятность того, что будущие модели будут вставлять метафоры с гоблинами в нерелевантные контексты.
Для разработчиков и исследовательского сообщества ценность этого инцидента не только в «почему OpenAI запретила говорить про гоблинов» — даже более важно, что он наглядно и воспроизводимо раскрывает уязвимости дизайна наград RLHF: казалось бы безобидный сигнал «поощрять озорные метафоры» на итерациях может быть искажён моделью в привычку «встраивать биословы во все сценарии», причём проблема передаётся между личностями и между версиями моделей. OpenAI позиционирует эту публикацию как демонстрацию исследования того, «как сигнал награды непредвиденно формирует поведение модели», и одновременно намекает, что в последующих больших версиях вроде GPT-6 на этапе post-тренинга нужны более тонкие инструменты аудита наград.
Эта статья OpenAI раскрывает, почему Codex запрещает говорить «гоблины»: награда для личности «ботаник» вышла из-под контроля — впервые опубликовано в 鏈新聞 ABMedia.
Связанные статьи
Forefront Tech завершает $100M ценообразование IPO, листинг на Nasdaq под кодом FTHAU
Anthropic Claude Code обошлось пользователю в $200,98 из-за ошибки в выставлении счетов; сначала отказали в возврате средств, прежде чем в итоге компенсировали полностью
DeepSeek представила метод Visual Primitives для усиления мультимодального рассуждения 30 апреля
NVIDIA выпускает веса флагманской модели Cosmos-Reason2-32B и расширяет контекстное окно до 256 тыс. токенов
Alibaba открывает исходный код модуля интерпретируемости Qwen-Scope для Qwen, охватывающего 7 моделей, 30 апреля
ИИ-серверы Nvidia B300 достигли $1 млн в Китае на фоне дефицита поставок