رأي غير شعبي: إطلاق نماذج الذكاء الاصطناعي أصبح مملًا.


ليس لأن النماذج لا تتطور.. فهي تتطور.
لكن كل إصدار هو فقط.. معايير أداء.
@OpenAI أطلقت للتو GPT-5.4 والإعلان كله في الأساس هذا الجدول.
75% على OSWorld. 57.7% على SWE-Bench Pro. 94.4% على GPQA Diamond.
رائع.. لكن ماذا يعني ذلك بالنسبة لي وأنا أعمل على بناء أشياء في الساعة 2 صباحًا؟
لا أحد خارج تويتر الذكاء الاصطناعي يهتم بتحسين بنسبة 2% على MMLU. لا أحد. صفر أشخاص.
أطرف جزء؟ انظر إلى الجدول عن كثب..
> Opus 4.6 قريب من التنافس على كل معيار تقريبًا.
> Gemini 3.1 Pro يتفوق بصمت على الجميع في BrowseComp بنسبة 85.9%.
الفائز يتغير اعتمادًا على الصف الذي تنظر إليه.
هل تعرف ما أريد أن أراه حقًا؟
أرني المهمة الواقعية الفوضوية التي يتعامل معها بشكل أفضل من قبل. أرني العرض التوضيحي الذي يربك دماغي قليلًا. أرني شخصًا يبني شيئًا معه لم يكن ممكنًا الشهر الماضي.
أفضل معيار هو "هل جعل هذا حياتي أسهل؟"
هذا هو. هذا هو التقييم كله.
الشركات هنا تحتفل بنتائج الرياضيات بينما المستخدمون فقط يريدون أن يعرفوا إذا كان يمكنه أخيرًا التعامل مع قاعدة كود تتكون من 4K سطر بدون كسر نصف الميزات.
ابدأ من هناك.
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.41Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.39Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.42Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • تثبيت