Нещодавно провів змагання між кількома моделями і зробив досить цікаве відкриття.


Одне й те саме завдання я поставив перед Claude і Codex окремо, щоб вони самостійно написали рішення.
Codex пропустив один момент: моя стратегія розподілена по понад 20 окремих процесах, і його рішення за замовчуванням передбачало "усі компоненти працюють у одному місці", що зробило його бездіяльним. Claude одразу помітив цю проблему.
З іншого боку, Claude пропустив ще один момент: він наполягав на створенні окремих модулів, хоча у мене вже був готовий цілком робочий каркас, достатньо було додати один параметр. Codex це підхопив і врахував.
Найцікавіше — це наступний крок: я попросив обидві моделі взаємно переглянути фінальні рішення один одного. Обидві інтуїтивно закріпилися на "готовому каркасі іншої сторони", і в результаті обидві пропустили один крайній випадок — його я виявив лише після ручного запуску на виробничих даних.
Тому тепер моя звичка така: кожен раунд змагання визначає окремий критерій успіху, забороняючи одній моделі дивитися чорновик іншої. В результаті отримую два незалежних чорновики з непов’язаними зонами пропуску, і лише їх об’єднання дає повну картину.
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити