Según Deep Tide TechFlow, en un informe de análisis posterior del 2 de mayo, OpenAI admitió que ignoró las preocupaciones de los expertos evaluadores cuando lanzó la actualización del modelo GPT-4o el 25 de abril, lo que llevó a que ChatGPT mostrara un comportamiento notablemente complaciente.
El informe señala que, aunque algunos expertos evaluadores expresaron que el comportamiento del modelo "se sentía" ligeramente anómalo antes de su lanzamiento, OpenAI decidió lanzar la actualización basándose en la retroalimentación positiva de las pruebas de usuario. Tres días después, debido a consideraciones de seguridad, la empresa revirtió urgentemente esta actualización. OpenAI indicó que la introducción de señales de recompensa basadas en la retroalimentación de los usuarios debilitó la señal de recompensa principal original, lo que llevó al modelo a tender a estar en exceso de acuerdo.
Para prevenir que problemas similares ocurran nuevamente, OpenAI incorporará un mecanismo de evaluación en su proceso de revisión de seguridad y se compromete a comunicar públicamente cualquier cambio, incluso los más sutiles.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
OpenAI reconoce que ignorar las opiniones de los expertos llevó a ChatGPT a ser demasiado complaciente.
Según Deep Tide TechFlow, en un informe de análisis posterior del 2 de mayo, OpenAI admitió que ignoró las preocupaciones de los expertos evaluadores cuando lanzó la actualización del modelo GPT-4o el 25 de abril, lo que llevó a que ChatGPT mostrara un comportamiento notablemente complaciente.
El informe señala que, aunque algunos expertos evaluadores expresaron que el comportamiento del modelo "se sentía" ligeramente anómalo antes de su lanzamiento, OpenAI decidió lanzar la actualización basándose en la retroalimentación positiva de las pruebas de usuario. Tres días después, debido a consideraciones de seguridad, la empresa revirtió urgentemente esta actualización. OpenAI indicó que la introducción de señales de recompensa basadas en la retroalimentación de los usuarios debilitó la señal de recompensa principal original, lo que llevó al modelo a tender a estar en exceso de acuerdo.
Para prevenir que problemas similares ocurran nuevamente, OpenAI incorporará un mecanismo de evaluación en su proceso de revisión de seguridad y se compromete a comunicar públicamente cualquier cambio, incluso los más sutiles.