OpenAI 在 официальном блоге опубликовала〈Where the goblins came from〉, прямо ответив на вопросы о том, почему в системных подсказках для Codex явно запрещено использовать такие слова-обозначения существ, как «goblins、gremlins、raccoons、trolls、ogres、pigeons». В Тайване goblins имеют два перевода — «地精» и «哥布林»; далее в тексте мы последовательно будем называть их «哥布林» (гоблины). Личность Nerdy — это вариант «ботаник», который GPT-5.5 представила для поддержки персонализации характеров. OpenAI признала, что корень проблемы лежит в тренировке личности Nerdy («ботаник»)— сигнал награды был сосредоточен в 76,2% аудиторских данных, при этом явно предпочтительны ответы с использованием биометафор, из-за чего модель в программных сценариях тоже выдаёт несвязанные лексемы вроде «the thingy goblin».

Barron Roth 28.04 раскрыл системные подсказки Codex «Never talk about goblins»

Точка старта — 28 апреля: сотрудник Google Barron Roth опубликовал записи диалога GPT-5.5 в Codex, которые показали, что в системной подсказке присутствуют следующие указания:

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.

Эта формулировка многократно повторяется в системных подсказках Codex, что указывает: команда разработки намеренно усилила степень, с которой модель должна следовать этим инструкциям. Затем Gizmodo позвонил в OpenAI для проверки; сотрудник Nick Pash частично подтвердил, что это настройка действительно верна. Инцидент вызвал обсуждение на Hacker News и в сообществе разработчиков: AI-компания, оценённая в триллионы, в итоге вынуждена управлять выводом модели, жёстко вшивая в системные подсказки «не говорить про гоблинов».

OpenAI признала: награда для личности «ботаник» в 76,2% датасета предпочитает гоблинов

В собственном блоге OpenAI объяснила, что первопричина — «reward hacking» (хак сигнала награды): при обучении личности «ботаник» для GPT-5.5 OpenAI, стремясь усилить черты вроде «озорства, умения использовать метафоры и юмора в стиле ботаника», неосознанно сконструировала сигнал награды. На этапе аудита эта награда в 76,2% данных повышала оценки для ответов на «одну и ту же задачу» при наличии goblin или gremlin по сравнению с ответами без этих слов.

Итог таков: сигнал награды связывает биословари с «положительной обратной связью» для личности «ботаник», и модель через итерации обучения RLHF постепенно перенастраивает «использование метафоры с гоблинами» в удобный путь к высоким баллам. Участники обсуждения на Hacker News отмечают, что это классический пример того, как обучение с подкреплением «точно исполняет тренировочную цель, но сама цель была задумана с изъяном» — проблема не в базовой модели, а в том, что в посттренировочную надстройку (supervised fine-tuning под контролем) внедряется положительная обратная связь.

GPT-5.1 «ростки», GPT-5.5 «рецидив»: как загрязнение между личностями распространяется

OpenAI описывает эволюцию как постепенную: гоблины и gremlin уже появлялись в метафорах ещё до GPT-5.5, однако тогда частота «не выглядела особенно тревожной» (как выразилась OpenAI: the prevalence of goblins did not look especially alarming). Позже OpenAI в тренировочном процессе удаляла сигнал награды, связанный с гоблинами, но когда GPT-5.5 попал в тестирование Codex, сотрудники OpenAI сразу обнаружили, что предпочтение биослова снова вернулось. Поэтому они добавили чёткий запрет на уровне подсказок разработчика, чтобы временно остановить «кровотечение».

OpenAI называет это явление обобщением награды в разных контекстах: сигнал награды, изначально предназначенный лишь для личности «ботаник», из-за общности тренировочных данных и внутренних представлений модели распространился на другие личности и даже на ответы по умолчанию. Иначе говоря, даже если затем убрать саму личность «ботаник», загрязнение уже было внутренне закреплено в обучающих данных и весах модели; одной лишь деактивации функции недостаточно, чтобы полностью искоренить проблему.

Короткое «жёсткое кодирование», длинное «перетренирование»: показательный кейс рисков в дизайне наград RLHF

В статье OpenAI описывает два параллельных пути исправления. Короткий срок — остановка кровотечения: прямо в системные подсказки Codex жёстко вшита правило «Never talk about goblins…», а также оно повторяется в разных сегментах, чтобы усилить следование модели. Долгосрочное лечение — возврат к тренировочному процессу: удалить сигнал награды, связанный с биословами, и отфильтровать в тренировочных данных ту часть, где встречаются слова creature-words, чтобы снизить вероятность того, что будущие модели будут вставлять метафоры с гоблинами в нерелевантные контексты.

Для разработчиков и исследовательского сообщества ценность этого инцидента не только в «почему OpenAI запретила говорить про гоблинов» — даже более важно, что он наглядно и воспроизводимо раскрывает уязвимости дизайна наград RLHF: казалось бы безобидный сигнал «поощрять озорные метафоры» на итерациях может быть искажён моделью в привычку «встраивать биословы во все сценарии», причём проблема передаётся между личностями и между версиями моделей. OpenAI позиционирует эту публикацию как демонстрацию исследования того, «как сигнал награды непредвиденно формирует поведение модели», и одновременно намекает, что в последующих больших версиях вроде GPT-6 на этапе post-тренинга нужны более тонкие инструменты аудита наград.

Эта статья OpenAI раскрывает, почему Codex запрещает говорить «гоблины»: награда для личности «ботаник» вышла из-под контроля — впервые опубликовано в 鏈新聞 ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Forefront Tech завершает $100M ценообразование IPO, листинг на Nasdaq под кодом FTHAU

Акции Новости индустрии ИИ

По данным ChainCatcher, компания специального назначения по слияниям и поглощениям Forefront Tech завершила ценовое размещение IPO на сумму 100 миллионов долларов 30 апреля и будет торговаться на Nasdaq под тикером FTHAU. Компания планирует использовать вырученные средства для поиска возможностей слияний и поглощений в блокчейне, финтехе, искусственном

GateNews4м назад

Anthropic Claude Code обошлось пользователю в $200,98 из-за ошибки в выставлении счетов; сначала отказали в возврате средств, прежде чем в итоге компенсировали полностью

Новости индустрии ИИ

По данным мониторинга от Beating, ошибка в биллинге в сервисе Anthropic Claude Code привела к тому, что подписчика Max 20x переплатили $200,98 за дополнительные комиссии за использование при том, что они использовали только 13% своего ежемесячного лимита. Ошибка срабатывала, когда в истории коммитов git-репозитория пользователя содержались заглавные буквы

GateNews32м назад

DeepSeek представила метод Visual Primitives для усиления мультимодального рассуждения 30 апреля

Новости индустрии ИИ

Согласно техническому отчёту DeepSeek, 30 апреля компания представила Visual Primitives — метод, который встраивает базовые визуальные единицы, такие как точки и ограничивающие рамки (bounding boxes), в цепочки рассуждений, чтобы решить проблему Reference Gap в мультимодальных задачах. Метод сокращает потребление токенов изображения

GateNews58м назад

NVIDIA выпускает веса флагманской модели Cosmos-Reason2-32B и расширяет контекстное окно до 256 тыс. токенов

Новости индустрии ИИ

По сообщению Beating, NVIDIA выпустила веса для Cosmos-Reason2-32B — флагманской версии своего физического AI-модели рассуждений для зрения и языка (VLM), предназначенной, чтобы помочь роботам и системам автономного вождения понимать пространственные, временные и физические принципы. Модель с 32-миллиарда параметров,

GateNews1ч назад

Alibaba открывает исходный код модуля интерпретируемости Qwen-Scope для Qwen, охватывающего 7 моделей, 30 апреля

Новости индустрии ИИ

По данным PANews, 30 апреля Alibaba's Qwen объявила о выпуске с открытым исходным кодом Qwen-Scope — модуля интерпретируемости, обученного на моделях серий Qwen3 и Qwen3.5. Релиз охватывает 7 крупных языковых моделей в вариантах для плотных и mixture-of-experts, а также 14 наборов разреженных автоэнкодеров

GateNews2ч назад

ИИ-серверы Nvidia B300 достигли $1 млн в Китае на фоне дефицита поставок

Новости индустрии ИИ

Как сообщает Reuters, AI-серверы Nvidia B300 теперь продаются в Китае примерно за 7 миллионов юаней (1 миллион долларов США) — на фоне пресечения каналов контрабанды и сохранения спроса со стороны местных технологических компаний. Цена выросла с примерно 4 миллионов юаней (585 000 долларов США) в конце 2025 года, значительно

GateNews2ч назад

комментарий

0/400

Нет комментариев