OpenAI випустила бенчмарк тестування GDPval: модель GPT-5 наближається до рівня людських експертів у кількох галузях

2025-09-25 16:40:21

【монета界】OpenAI запустила GDPval, новий бенчмарк-тест, спрямований на вимірювання продуктивності AI та людських професіоналів у дев'яти ключових галузях і 44 професіях. Тест показав, що ймовірність того, що GPT-5-high отримає оцінку, що відповідає або перевищує експертні, становить 40,6%, тоді як оцінка AI-моделі певної компанії склала 49% — хоча OpenAI відзначила високу оцінку цієї моделі завдяки її графічним можливостям. Головний економіст OpenAI визнав, що AI має поточні обмеження, але зазначив, що ці результати свідчать про потенціал AI у виконанні повсякденних завдань, що дозволяє професіоналам зосередитися на більш цінній роботі. У порівнянні з оцінкою GPT-4o 15 місяців тому (13,7%), цей бенчмарк-тест показав прогрес.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

10 лайків