TechWebの9月19日の報道によると、国内権威評価システムFlag_(Libra)は9月のリストに掲載された最新大型モデルの評価結果を発表した。最新の CLCC v2.0 主観的評価データセットに基づいて、Flag_ (Libra) 9 月リストは、最近普及した 7 つのオープンソース対話モデルの評価に焦点を当てています。全体的な結果から判断すると、Baichuan2-13 b-chat、Qwen-7 b-chat、Baichuan2-7 b-chat が最高であり、正解率は 65% を超えています。ベースモデルリストでは、Baichuan 2、Qwen、InternLM、および Aquila の客観的な評価結果はすべて、同じパラメータレベルの Llama および Llama2 モデルを上回りました。 SFT モデル リストでは、Baichuan 2-13 B-chat、YuLan-Chat-2-13 B、AquilaChat-7 B がトップ 3 にランクインしています。どちらの客観的評価リストでも、Baichuan 2 は優れたパフォーマンスを示し、基本モデルのテストでは中国語と英語の両方の分野で Llama 2 を上回りました。 Flag_ (Libra) は、北京知源人工知能研究所が立ち上げた大規模なモデル評価システムおよびオープンプラットフォームであり、研究者が基本モデルやデータを総合的に評価するのを支援する、科学的、公平かつオープンな評価ベンチマーク、方法およびツールセットを確立することを目的としていると報告されています。トレーニング アルゴリズムのパフォーマンス。 Flag_ 大規模言語モデル評価システムには現在、6 つの主要な評価タスク、約 30 の評価データ セット、および 100,000 を超える評価質問が含まれています。