Kimi K2 Thinking се нарежда на второ място в световен мащаб, на първо място сред моделите с отворен код в последния доклад за изкуствен анализ

Нов доклад от водещата фирма за анализи на изкуствен интелект Artificial Analysis разкрива, че Kimi K2 Thinking е постигнала второто най-високо глобално класиране – и първото място сред моделите с отворен код – в последната си оценка на интелигентни и агентни системи за изкуствен интелект.

7-1108Kimi.jpeg

Силни способности за агентиране и разсъждение

Kimi K2 Thinking отбеляза 67 точки в AI Intelligence Index, надминавайки всички други модели с отворен код като MiniMax-M2 (61) и DeepSeek-V3.2-Exp (57). Той изостава само от GPT-5, което подчертава неговите впечатляващи способности за разсъждение и решаване на проблеми.

8-1108Kimi.jpeg

В Agentic Benchmark, който измерва производителността при използване на AI инструменти и автономност, Kimi K2 Thinking се класира на второ място след GPT-5, спечелвайки забележителните 93% на теста 𝜏²-Bench Telecom – най-високият независим резултат, регистриран някога от фирмата.

9-1108Kimi.jpeg

В последния изпит на Humanity, предизвикателен тест за разсъждение без инструменти, Kimi K2 Thinking достигна 22,3%, поставяйки нов рекорд за модели с отворен код и се класира точно зад GPT-5 и Grok 4.

10-1108Kimi.png

Нов лидер в моделите с отворен код

Въпреки че не е най-добрият изпълнител във всеки тест за кодиране, Kimi K2 Thinking постоянно се поставя сред най-високите, класирайки се на 6-то място в Terminal-Bench Hard, 7-мо в SciCode и 2-ро в LiveCodeBench. Тези резултати го увенчаха като нов лидер с отворен код в кодовия индекс на Artificial Analysis, изпреварвайки DeepSeek V3.2.

11-1108Kimi.jpeg

Технически спецификации: 1 трилион параметри, INT4 точност

Kimi K2 Thinking разполага с общо 1 трилион параметри и 32 милиарда активни параметри (~594GB), поддържащи 256K контекстен прозорец с въвеждане само на текст.

Това е разсъждаващ вариант на Kimi K2 Instruct, поддържащ същата архитектура, но използващ естествена прецизност на INT4 вместо FP8.

Това квантуване—постигнато чрез обучение за квантуване (QAT)—намалява размера на модела почти наполовина, като значително подобрява ефективността.

Компромиси: висока подробност, цена и латентност

Kimi K2 Thinking беше отбелязан като изключително „приказлив“, генерирайки 140 милиона токена по време на тестването — 2,5 × DeepSeek V3.2 и 2 × GPT-5.

12-1108Kimi.jpeg

Докато тази многословност повишава разходите за изводи и забавянето, моделът все още предлага конкурентни цени:

  • Основен API: $2,5 за милион токени (изход), обща цена $356 на оценка
  • Turbo API: $8 за милион токени (изход), обща цена $1,172 — на второ място след Grok 4 по разходи

Скоростите на обработка варират от 8 токена/сек (базова) до 50 токена/сек (турбо).

Докладът заключава, че методите след обучението, като обучение с подсилване (RL), продължават да водят до значителни печалби в производителността при разсъждения и дългосрочни задачи за използване на инструменти.

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Scroll to Top