Американські великі моделі під натиском північних і південних сил Китаю — національний штучний інтелект шалено бореться за весняний сезон, прагнучи повторити чудо DeepSeek

robot
Генерація анотацій у процесі

Яскраво пам’ятаю весну року Дракона, коли популярний DeepSeek вибухнув у країні, буквально «засліпивши» інші великі моделі. Цього року великі інтернет-компанії та вітчизняні розробники великих моделей з нетерпінням очікують повторити цей успіх, напередодні святкового сезону активно оголошуючи про нові релізи, використовуючи новорічний період як найкращий полігон для тренувань.

12 лютого компанія MiniMax з Шанхаю, що займається великими моделями, офіційно запустила нове покоління текстових моделей MiniMax M2.5 (далі — «M2.5») у MiniMax Agent, а 13 лютого модель стала доступною для глобального відкритого доступу з підтримкою локалізованого розгортання. Відтоді користувачі по всьому світу швидко створили понад 10 тисяч «експертів» на базі MiniMax Agent, і кількість продовжує швидко зростати.

M2.5 отримала прізвисько «королівський козир» завдяки своїй майже рівній продуктивності з моделлю Claude Opus 4.6, розробленою американською компанією Anthropic, при цьому її ціна вразила всіх — навіть засновника популярного відкритого проекту особистих AI-агентів OpenClaw Пітера Штейнберга, який не міг стримати захоплення.

Пітер Штейнберг, засновник OpenClaw, поширив і оцінив M2.5, зазначивши, що її продуктивність порівнянна з Claude Opus 4.6, але коштує в 20 разів дешевше.

M2.5 позиціонується як «нативна модель для агентів виробничого рівня», здатна автоматично писати код, викликати інструменти, аналізувати дані та генерувати звіти.

У найжорсткішому рейтингу програмування SWE-Bench Verified, M2.5 отримала високий бал 80.2%, майже не поступаючись Claude Opus 4.6. У багатомовних завданнях Multi-SWE-Bench вона перевершила Claude Opus 4.6, посівши перше місце.

Для офісних сценаріїв M2.5 демонструє видатні результати у Word, PowerPoint, Excel, фінансовому моделюванні та інших високорівневих задачах. У тестовій системі GDPval-MM у порівнянні з провідними моделями вона має середню перемогу 59%. Таблиці, створені M2.5, чітко розділяють обкладинку, джерела даних і детальні дані, форматовані акуратно, наче їх створив працівник із обсесивним прагненням до порядку.

M2.5 не поступається американським провідним моделям.

Головна перевага — у тому, що модель, здатна виконувати «важку роботу», має всього 10 мільярдів параметрів, що робить її найменшою у своєму класі серед флагманських моделей у світі.

«Мозок у неї хороший», — кажуть, але ще більш важливою є її «зброя» — вирішення двох головних проблем моделей: високої вартості та повільності.

M2.5 досягає швидкості reasoning у 100 транзакцій за секунду (TPS), що приблизно вдвічі швидше за провідні моделі; ціна за вхідні дані становить близько 0,3 долара за мільйон токенів (основна одиниця вхідних та вихідних даних моделі), а за вихід — близько 2,4 долара за мільйон токенів. За умови обробки 100 токенів за секунду, 1 долар дозволяє працювати агенту протягом однієї години — це справжня «капля у морі» цін.

У часи дефіциту обчислювальних ресурсів здатність до революційних інновацій, що забезпечують беззбиткову, швидку та якісну роботу моделей, є ключовою перевагою MiniMax, що дозволяє їй залишатися у лідерах у змаганні великих моделей.

Цікаво, що компанія Zhipu AI, яка на день раніше вийшла на Гонконгську фондову біржу, також нещодавно представила модель Zhipu GLM-5, яка також орієнтована на Claude Opus 4.6. Ця ситуація стала «двома фронтами» для двох великих моделей у Китаї.

Zhipu GLM-5 досягла хороших результатів у програмуванні та здатності до роботи з агентами. Деякі розробники, випробувавши її, вважають, що GLM-5 вже наближається до найкращих моделей Claude у реальних сценаріях програмування, а сама модель Claude залишається лідером у цій галузі. У авторитетному глобальному рейтингу Artificial Analysis GLM-5 посідає четверте місце у світі та перше серед відкритих моделей.

Zhipu назвала GLM-5 «системним архітектором», що означає, що майбутнє великих моделей AI полягає не лише у написанні коду для виконання окремих функцій, а у створенні систем, подібних до інженерів, з розподілом функцій між різними агентами.

У тестах на агентське програмування GLM-5 трохи випередила Claude.

Крім того, 10 лютого Qiwen представила нову модель для генерації зображень Qwen-Image 2.0, яка підтримує довгі команди до 1000 токенів і має покращену здатність до reasoning.

Практично одночасно ByteDance випустила свою модель Seedream 5.0, яка знову підняла планку у створенні зображень за текстом. «Раніше при генерації зображень AI виникали проблеми з розпізнаванням китайських ієрогліфів — вони часто були «незв’язними» або просто випадковим набором символів», — повідомила команда розробників Qiwen. Завдяки покращенню розуміння команд і reasoning, ця проблема з «китайськими ієрогліфами» у AI-генерації зникне.

Крім мультимодальних моделей для створення зображень і відео, найбільш базові великі мовні моделі також зробили значний крок уперед. Нещодавно DeepSeek тихо запустила нову модель, яка, хоча й не є такою очікуваною, як V4, все ж здивувала.

Ця оновлена модель не має мультимодальних можливостей, але підвищила здатність до обробки контексту до 1 мільйона токенів, що дозволяє одночасно розуміти весь «Триті» обсягом близько 90 тисяч слів. Один із розробників агентів повідомив: «Зараз не багато моделей підтримують таку здатність — наприклад, Gemini від Google та Claude від Anthropic. Ця оновлена модель DeepSeek — це вже «на борту»».

За даними, ця хвиля нових великих моделей ще не завершена: незабаром очікуються релізи флагманських моделей Doubao 2.0, Qwen 3.5 та інших.

(Джерело: Shangguan News)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити