BioMysteryBench: خبير أساطير يحل مسائل لا يمكن حلها 29.6%

ChainNewsAbmedia

أعلنت شركة Anthropic في 29 أبريل ضمن منشور بحثي رسمي عن BioMysteryBench—وهي مجموعة معايير تقييم جديدة لقدرات الذكاء الاصطناعي في تحليل المعلومات الحيوية، وتتكون من أسئلة مفتوحة ضمن سياقات بحثية حقيقية. أكثر البيانات لفتاً للانتباه هي: في المسائل التي لا يزال يتعذر حلها بعد محاولة فريق من الخبراء البشر، تمكن نموذج الشركة الرائد Mythos من حل 29.6%، بينما حل Opus 4.7 ما نسبته 27.0%.

تصميم التقييم: مساران للأسئلة القابلة للحل وغير القابلة للحل للخبراء

تتألف BioMysteryBench من نوعين من الأسئلة. النوع الأول هو “الأسئلة القابلة للحل”—وهي مهام تحليلية صممها باحثون في مجال المعلومات الحيوية، ويمكن مقارنتها بإجابات معيارية. أما النوع الثاني فهو “أسئلة الخبراء غير القابلة للحل”—وهي مسائل لا يستطيع فريق من الخبراء البشر بعد محاولة حلها الوصول إلى إجابات موثوقة، ويُستخدم هذا النوع لاختبار ما إذا كان النموذج قادراً على تجاوز حدود المعرفة الحالية في المجال.

في الجزء الخاص بالأسئلة القابلة للحل، تعرض نماذج Anthropic عبر أجيالها تدرجاً واضحاً في القدرات: حل Claude Haiku 4.5 ما نسبته 36.8%، ووصل Claude Sonnet 4.6 إلى 71.8%، في حين حقق أحدث الطراز الرائد Claude Mythos نسبة 82.6%. يتوافق هذا التدرج

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات