أعلنت شركة Anthropic في 29 أبريل ضمن منشور بحثي رسمي عن BioMysteryBench—وهي مجموعة معايير تقييم جديدة لقدرات الذكاء الاصطناعي في تحليل المعلومات الحيوية، وتتكون من أسئلة مفتوحة ضمن سياقات بحثية حقيقية. أكثر البيانات لفتاً للانتباه هي: في المسائل التي لا يزال يتعذر حلها بعد محاولة فريق من الخبراء البشر، تمكن نموذج الشركة الرائد Mythos من حل 29.6%، بينما حل Opus 4.7 ما نسبته 27.0%.
تصميم التقييم: مساران للأسئلة القابلة للحل وغير القابلة للحل للخبراء
تتألف BioMysteryBench من نوعين من الأسئلة. النوع الأول هو “الأسئلة القابلة للحل”—وهي مهام تحليلية صممها باحثون في مجال المعلومات الحيوية، ويمكن مقارنتها بإجابات معيارية. أما النوع الثاني فهو “أسئلة الخبراء غير القابلة للحل”—وهي مسائل لا يستطيع فريق من الخبراء البشر بعد محاولة حلها الوصول إلى إجابات موثوقة، ويُستخدم هذا النوع لاختبار ما إذا كان النموذج قادراً على تجاوز حدود المعرفة الحالية في المجال.
في الجزء الخاص بالأسئلة القابلة للحل، تعرض نماذج Anthropic عبر أجيالها تدرجاً واضحاً في القدرات: حل Claude Haiku 4.5 ما نسبته 36.8%، ووصل Claude Sonnet 4.6 إلى 71.8%، في حين حقق أحدث الطراز الرائد Claude Mythos نسبة 82.6%. يتوافق هذا التدرج
Related News
تجري شركة Anthropic محادثات لجولة تمويل بتقييم يتجاوز 9000 مليار دولار، ويُفترض أن يبتّ مجلس الإدارة بأمرها في أقرب وقت بحلول مايو
معهد أكسفورد للإنترنت: التدريب الودّي يرفع معدل أخطاء الذكاء الاصطناعي بنسبة 7.43 نقطة مئوية
تدرس شركة أنثروبيك تمويلًا جديدًا، وتحقق تقييمًا يتجاوز OpenAI لتصبح شركة ناشئة في مجال الذكاء الاصطناعي الأعلى تقييمًا
تقرير أبحاث a16z Crypto: نسبة استغلال ثغرات DeFi لوكلاء الذكاء الاصطناعي تصل إلى 70%
وسائل إعلام أمريكية: يتيح مشروع أمر تنفيذي من البيت الأبيض لنماذج Anthropic Mythos بالوصول إلى الحكومة