لا زلت أذكر عيد الربيع في سنة التنين، حيث كان DeepSeek يحقق نجاحًا هائلًا، مما أدى إلى إرباك باقي النماذج الكبيرة المحلية في الصين. هذا العام، تتطلع شركات التكنولوجيا الكبرى والنماذج الكبيرة المحلية إلى تكرار معجزة DeepSeek، حيث أعلنت بشكل مكثف عن تحديثاتها قبل عيد الربيع، معتبرين العام الجديد ساحة تدريب مثالية.
في 12 فبراير، أطلقت شركة MiniMax، شركة النماذج الكبيرة في شنغهاي، نموذجها النصي الجديد من الجيل التالي MiniMax M2.5 (المشار إليه فيما بعد بـ “M2.5”) على منصة MiniMax Agent، وفتحت المصدر عالميًا في 13 فبراير، مع دعم النشر المحلي. تبعًا لذلك، قام المستخدمون حول العالم بسرعة ببناء أكثر من عشرة آلاف “خبير” على منصة MiniMax Agent، ولا زال العدد في تزايد سريع.
يُطلق على M2.5 لقب “الملك”، لأنه يكاد يضاهي أداء النموذج Claude Opus 4.6 الذي طورته شركة الذكاء الاصطناعي الأمريكية Anthropic، بينما سعره يترك الجميع مندهشين، حتى أن مؤسس مشروع OpenClaw، بيتر ستانبرغ، الذي يُعد من أبرز رواد مشاريع الوكلاء الشخصيين المفتوحة المصدر، لم يستطع إلا أن يعبر عن إعجابه.
نشر وتقييم بيتر ستانبرغ، مؤسس OpenClaw، لـ M2.5، مشيدًا بأدائه الذي يضاهي Claude Opus 4.6، مع سعر أقل بخمس عشرة مرة.
يُصنف M2.5 كـ “نموذج وكيل أصلي للإنتاج”، قادر على كتابة الشفرات البرمجية، استدعاء الأدوات، تحليل البيانات، وإعداد التقارير تلقائيًا.
وفي قائمة الاختبارات الأكثر صرامة في مجال البرمجة SWE-Bench Verified، حصل M2.5 على نسبة 80.2%، بفارق بسيط عن Claude Opus 4.6. وفي مهمة متعددة اللغات Multi-SWE-Bench، تفوق M2.5 على Claude Opus 4.6 وحصل على المركز الأول.
بالنسبة لسيناريوهات العمل، أظهر M2.5 أداءً مميزًا في تطبيقات Word وPPT وExcel والنمذجة المالية، حيث حقق معدل فوز متوسط قدره 59% في إطار تقييم GDPval-MM مقارنة بالنماذج السائدة. الجداول التي يُنتجها M2.5 واضحة جدًا، وتفصل بين الغلاف، مصدر البيانات، والبيانات التفصيلية، وتنسيقها منظم، كأنها من عمل موظف يعاني من الوسواس القهري.
لا يقل أداء M2.5 عن النماذج الأمريكية الرائدة.
المهم أن M2.5، الذي يركز على “العمل الثقيل”، يملك فقط 10 مليار معلمة، وهو أصغر حجم بين النماذج الرائدة من نفس الفئة على مستوى العالم.
وبينما يتمتع بـ “عقل ذكي”، فإن السلاح السري لـ M2.5 يكمن في حل مشكلتي “التكلفة العالية” و"البطء" في الأداء.
حيث وصلت سرعة الاستدلال إلى 100 عملية في الثانية (TPS)، أي ضعف سرعة النماذج السائدة؛ وتكلفة الإدخال حوالي 0.3 دولار لكل مليون وحدة Token، بينما تكلفة الإخراج حوالي 2.4 دولار لكل مليون Token. وبحساب أن النموذج يُنتج 100 Token في الثانية، فإن دولارًا واحدًا يمكن أن يُشغل الوكيل الذكي لمدة ساعة كاملة، مما يجعله “رخيصًا جدًا”.
في زمن نقص القدرة الحاسوبية، فإن القدرة على تحقيق أداء غير مخفض، بدون توقف، مع تجربة مستخدم ممتازة، هو السلاح الرئيسي الذي يضمن استمرار MiniMax في المنافسة على منصات النماذج الكبيرة.
ومن المثير للاهتمام أن شركة Zhizhi AI، التي أدرجت في بورصة هونغ كونغ قبل يوم واحد من MiniMax، أطلقت مؤخرًا نموذجها Zhizhi GLM-5، الذي يستهدف أيضًا Claude Opus 4.6. ويبدو أن النموذجين يواجهان هجومًا من نموذجين كبيرين من الصين، أحدهما من الشمال والآخر من الجنوب.
حقق Zhizhi GLM-5 نتائج جيدة في قدراته البرمجية والذكية. حيث رأى بعض المطورين أن تجربة استخدامه في سيناريوهات البرمجة الواقعية تقترب من أداء أقوى نماذج Claude، التي تعتبر من الأفضل في المجال. وفي قائمة Artificial Analysis العالمية الموثوقة، احتل GLM-5 المركز الرابع عالميًا، والأول بين النماذج المفتوحة المصدر.
وصف Zhizhi GLM-5 بأنه “مهندس أنظمة”، بمعنى أن مستقبل النماذج الكبيرة لن يقتصر على كتابة الشفرات فقط، بل ستقوم ببناء الأنظمة، وربما توزيع المهام على وكلاء ذكيين مختلفين.
وفي اختبار الوكيل البرمجي، تفوق Zhizhi GLM-5 على Claude بشكل بسيط.
بالإضافة إلى ذلك، أطلقت شركة Qianwen في 10 فبراير نموذجها الجديد لتوليد الصور Qwen-Image 2.0، الذي يدعم أوامر طويلة تصل إلى 1000 وحدة، مع قدرات استدلال محسنة.
وفي ذات الوقت تقريبًا، أطلقت شركة ByteDance نموذجها Seedream 5.0، الذي يعزز قدرات توليد الصور النصية بشكل ملحوظ. وقال فريق تطوير Qianwen: “كان هناك عيب في توليد الصور باستخدام الذكاء الاصطناعي سابقًا، وهو محدودية قدرات الاستدلال، حيث كانت الأحرف الصينية في الصور غالبًا غير مفهومة أو مشوشة.” وأوضح الفريق أن مع تحسين فهم الأوامر وقدرات الاستدلال، ستصبح مشكلة الأحرف الصينية في الصور من الماضي.
وبالإضافة إلى النماذج متعددة الوسائط مثل توليد الصور والفيديو، شهدت النماذج اللغوية الكبيرة الأساسية أيضًا تطورًا كبيرًا. مؤخرًا، أطلقت DeepSeek نموذجًا جديدًا بشكل هادئ، رغم أنه ليس V4 الذي يتطلع إليه الجميع، لكنه لا يقل إثارة.
على الرغم من أن هذا النموذج المحدث لا يمتلك قدرات التعرف المتعدد الوسائط، إلا أنه رفع قدرة معالجة السياق إلى 100 مليون وحدة Token، مما يعادل قراءة وفهم كامل رواية “الثلاثية” التي تتكون من حوالي 900 ألف كلمة دفعة واحدة. وقال مطور ذكاء اصطناعي: “هناك عدد قليل من النماذج التي تدعم فهم السياق بمليون وحدة Token، مثل Gemini من Google وClaude من Anthropic، وDeepSeek هذه المرة انضمت إلى القائمة.”
ومن المعروف أن موجة إطلاق النماذج الكبيرة لم تتوقف بعد، حيث من المتوقع إصدار نماذج مثل Doubao 2.0 وQianwen 3.5 قريبًا.
(المصدر: Shanghai Observation News)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
النموذج الكبير الأمريكي يتعرض لضغط من الشمال والجنوب في الصين، والذكاء الاصطناعي المحلي يهاجم موسم عيد الربيع، يسعى لإعادة إحياء معجزة DeepSeek
لا زلت أذكر عيد الربيع في سنة التنين، حيث كان DeepSeek يحقق نجاحًا هائلًا، مما أدى إلى إرباك باقي النماذج الكبيرة المحلية في الصين. هذا العام، تتطلع شركات التكنولوجيا الكبرى والنماذج الكبيرة المحلية إلى تكرار معجزة DeepSeek، حيث أعلنت بشكل مكثف عن تحديثاتها قبل عيد الربيع، معتبرين العام الجديد ساحة تدريب مثالية.
في 12 فبراير، أطلقت شركة MiniMax، شركة النماذج الكبيرة في شنغهاي، نموذجها النصي الجديد من الجيل التالي MiniMax M2.5 (المشار إليه فيما بعد بـ “M2.5”) على منصة MiniMax Agent، وفتحت المصدر عالميًا في 13 فبراير، مع دعم النشر المحلي. تبعًا لذلك، قام المستخدمون حول العالم بسرعة ببناء أكثر من عشرة آلاف “خبير” على منصة MiniMax Agent، ولا زال العدد في تزايد سريع.
يُطلق على M2.5 لقب “الملك”، لأنه يكاد يضاهي أداء النموذج Claude Opus 4.6 الذي طورته شركة الذكاء الاصطناعي الأمريكية Anthropic، بينما سعره يترك الجميع مندهشين، حتى أن مؤسس مشروع OpenClaw، بيتر ستانبرغ، الذي يُعد من أبرز رواد مشاريع الوكلاء الشخصيين المفتوحة المصدر، لم يستطع إلا أن يعبر عن إعجابه.
نشر وتقييم بيتر ستانبرغ، مؤسس OpenClaw، لـ M2.5، مشيدًا بأدائه الذي يضاهي Claude Opus 4.6، مع سعر أقل بخمس عشرة مرة.
يُصنف M2.5 كـ “نموذج وكيل أصلي للإنتاج”، قادر على كتابة الشفرات البرمجية، استدعاء الأدوات، تحليل البيانات، وإعداد التقارير تلقائيًا.
وفي قائمة الاختبارات الأكثر صرامة في مجال البرمجة SWE-Bench Verified، حصل M2.5 على نسبة 80.2%، بفارق بسيط عن Claude Opus 4.6. وفي مهمة متعددة اللغات Multi-SWE-Bench، تفوق M2.5 على Claude Opus 4.6 وحصل على المركز الأول.
بالنسبة لسيناريوهات العمل، أظهر M2.5 أداءً مميزًا في تطبيقات Word وPPT وExcel والنمذجة المالية، حيث حقق معدل فوز متوسط قدره 59% في إطار تقييم GDPval-MM مقارنة بالنماذج السائدة. الجداول التي يُنتجها M2.5 واضحة جدًا، وتفصل بين الغلاف، مصدر البيانات، والبيانات التفصيلية، وتنسيقها منظم، كأنها من عمل موظف يعاني من الوسواس القهري.
لا يقل أداء M2.5 عن النماذج الأمريكية الرائدة.
المهم أن M2.5، الذي يركز على “العمل الثقيل”، يملك فقط 10 مليار معلمة، وهو أصغر حجم بين النماذج الرائدة من نفس الفئة على مستوى العالم.
وبينما يتمتع بـ “عقل ذكي”، فإن السلاح السري لـ M2.5 يكمن في حل مشكلتي “التكلفة العالية” و"البطء" في الأداء.
حيث وصلت سرعة الاستدلال إلى 100 عملية في الثانية (TPS)، أي ضعف سرعة النماذج السائدة؛ وتكلفة الإدخال حوالي 0.3 دولار لكل مليون وحدة Token، بينما تكلفة الإخراج حوالي 2.4 دولار لكل مليون Token. وبحساب أن النموذج يُنتج 100 Token في الثانية، فإن دولارًا واحدًا يمكن أن يُشغل الوكيل الذكي لمدة ساعة كاملة، مما يجعله “رخيصًا جدًا”.
في زمن نقص القدرة الحاسوبية، فإن القدرة على تحقيق أداء غير مخفض، بدون توقف، مع تجربة مستخدم ممتازة، هو السلاح الرئيسي الذي يضمن استمرار MiniMax في المنافسة على منصات النماذج الكبيرة.
ومن المثير للاهتمام أن شركة Zhizhi AI، التي أدرجت في بورصة هونغ كونغ قبل يوم واحد من MiniMax، أطلقت مؤخرًا نموذجها Zhizhi GLM-5، الذي يستهدف أيضًا Claude Opus 4.6. ويبدو أن النموذجين يواجهان هجومًا من نموذجين كبيرين من الصين، أحدهما من الشمال والآخر من الجنوب.
حقق Zhizhi GLM-5 نتائج جيدة في قدراته البرمجية والذكية. حيث رأى بعض المطورين أن تجربة استخدامه في سيناريوهات البرمجة الواقعية تقترب من أداء أقوى نماذج Claude، التي تعتبر من الأفضل في المجال. وفي قائمة Artificial Analysis العالمية الموثوقة، احتل GLM-5 المركز الرابع عالميًا، والأول بين النماذج المفتوحة المصدر.
وصف Zhizhi GLM-5 بأنه “مهندس أنظمة”، بمعنى أن مستقبل النماذج الكبيرة لن يقتصر على كتابة الشفرات فقط، بل ستقوم ببناء الأنظمة، وربما توزيع المهام على وكلاء ذكيين مختلفين.
وفي اختبار الوكيل البرمجي، تفوق Zhizhi GLM-5 على Claude بشكل بسيط.
بالإضافة إلى ذلك، أطلقت شركة Qianwen في 10 فبراير نموذجها الجديد لتوليد الصور Qwen-Image 2.0، الذي يدعم أوامر طويلة تصل إلى 1000 وحدة، مع قدرات استدلال محسنة.
وفي ذات الوقت تقريبًا، أطلقت شركة ByteDance نموذجها Seedream 5.0، الذي يعزز قدرات توليد الصور النصية بشكل ملحوظ. وقال فريق تطوير Qianwen: “كان هناك عيب في توليد الصور باستخدام الذكاء الاصطناعي سابقًا، وهو محدودية قدرات الاستدلال، حيث كانت الأحرف الصينية في الصور غالبًا غير مفهومة أو مشوشة.” وأوضح الفريق أن مع تحسين فهم الأوامر وقدرات الاستدلال، ستصبح مشكلة الأحرف الصينية في الصور من الماضي.
وبالإضافة إلى النماذج متعددة الوسائط مثل توليد الصور والفيديو، شهدت النماذج اللغوية الكبيرة الأساسية أيضًا تطورًا كبيرًا. مؤخرًا، أطلقت DeepSeek نموذجًا جديدًا بشكل هادئ، رغم أنه ليس V4 الذي يتطلع إليه الجميع، لكنه لا يقل إثارة.
على الرغم من أن هذا النموذج المحدث لا يمتلك قدرات التعرف المتعدد الوسائط، إلا أنه رفع قدرة معالجة السياق إلى 100 مليون وحدة Token، مما يعادل قراءة وفهم كامل رواية “الثلاثية” التي تتكون من حوالي 900 ألف كلمة دفعة واحدة. وقال مطور ذكاء اصطناعي: “هناك عدد قليل من النماذج التي تدعم فهم السياق بمليون وحدة Token، مثل Gemini من Google وClaude من Anthropic، وDeepSeek هذه المرة انضمت إلى القائمة.”
ومن المعروف أن موجة إطلاق النماذج الكبيرة لم تتوقف بعد، حيث من المتوقع إصدار نماذج مثل Doubao 2.0 وQianwen 3.5 قريبًا.
(المصدر: Shanghai Observation News)