Nghiên cứu mới chỉ ra: Khả năng của AI có thể bị phóng đại do các bài kiểm tra có thiếu sót

GateNewsBot

2025-11-06 12:51:57

Đang tạo bản tóm tắt

11月6日讯，金十数据——一项新研究指出，评估人工智能系统能力的方法往往夸大了人工智能的性能，且缺乏科学严谨性。这项由牛津互联网学院牵头、联合其他机构三十余名研究人员开展的研究，考察了445项领先的人工智能测试（称为基准测试），这些测试常用于衡量人工智能模型在不同主题领域的表现。研究指出，这些基础测试可能缺乏可靠性，并质疑了众多基准测试结果的有效性。研究称，大量顶级基准测试未能明确其测试目标，令人担忧地重复使用既有基准的数据和测试方法，且极少采用可靠的统计方法比较不同模型结果。牛津互联网学院高级研究员、该研究的主要作者Adam Mahdi认为，这些基准测试可能会产生令人担忧的误导，他表示：“当我们要求人工智能模型执行特定任务时，我们实际测量的往往是与目标完全不同的概念或构造。”另一位主要作者亦认为，即便是公信力强的基准测试，也常常被盲目信任，值得更深入的审查。

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.