【монета界】OpenAI запустила GDPval, новий бенчмарк-тест, спрямований на вимірювання продуктивності AI та людських професіоналів у дев'яти ключових галузях і 44 професіях. Тест показав, що ймовірність того, що GPT-5-high отримає оцінку, що відповідає або перевищує експертні, становить 40,6%, тоді як оцінка AI-моделі певної компанії склала 49% — хоча OpenAI відзначила високу оцінку цієї моделі завдяки її графічним можливостям. Головний економіст OpenAI визнав, що AI має поточні обмеження, але зазначив, що ці результати свідчать про потенціал AI у виконанні повсякденних завдань, що дозволяє професіоналам зосередитися на більш цінній роботі. У порівнянні з оцінкою GPT-4o 15 місяців тому (13,7%), цей бенчмарк-тест показав прогрес.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
10 лайків
Нагородити
10
6
Репост
Поділіться
Прокоментувати
0/400
RooftopReserver
· 09-27 13:40
Немає освіти, немає роботи, скоро будуть замінені AI.
OpenAI випустила бенчмарк тестування GDPval: модель GPT-5 наближається до рівня людських експертів у кількох галузях
【монета界】OpenAI запустила GDPval, новий бенчмарк-тест, спрямований на вимірювання продуктивності AI та людських професіоналів у дев'яти ключових галузях і 44 професіях. Тест показав, що ймовірність того, що GPT-5-high отримає оцінку, що відповідає або перевищує експертні, становить 40,6%, тоді як оцінка AI-моделі певної компанії склала 49% — хоча OpenAI відзначила високу оцінку цієї моделі завдяки її графічним можливостям. Головний економіст OpenAI визнав, що AI має поточні обмеження, але зазначив, що ці результати свідчать про потенціал AI у виконанні повсякденних завдань, що дозволяє професіоналам зосередитися на більш цінній роботі. У порівнянні з оцінкою GPT-4o 15 місяців тому (13,7%), цей бенчмарк-тест показав прогрес.