ZhipuのGLM-5.2は、44%の成功率でDeepSWEのオープンソースベンチマークを制覇し、主流のクローズドソースモデルを上回りました

(モニタリングアカウントである)Beatingによると、Zhipu AIのオープンソースモデルGLM-5.2は、DeepSWEベンチマークにおける複雑なソフトウェアエンジニアリング課題で、オープンソースモデルの中でも最高の成功率を達成し、最大推論強度でのワンショット成功率は44%でした。これは、Kimi K2.7 Codeの31%を13パーセントポイント上回っています。

1タスクあたり$3.92で、GLM-5.2は、特定の推論設定の下で、いくつかの主要なクローズドソースモデルを上回ります。これには、Claude Sonnet 4.6 [high]が30%、Gemini 3.5 Flash [medium]が37%、Claude Opus 4.8 [low]が41%を含みます。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし