Tencent Hunyuan HPC-Ops с отворен код, твърди до 30% увеличаване на пропускателната способност

4 февруари — Екипът на Hunyuan AI Infrastructure на Tencent обяви изданието с отворен код на HPC-Ops, производствен клас, високопроизводителна операторска библиотека, предназначена за извеждане на големи езикови модели.

Създаден от нулата, за да се справи с тесните места в реалния свят, HPC-Ops използва архитектурна абстракция, дълбока адаптация на микроархитектурата и оптимизация на ниво инструкции, за да приближи основните оператори до границите на производителността на хардуера. При тестове в реалния свят Tencent съобщава, че HPC-Ops е повишил пропускателната способност на изводите (QPM) на моделите Hunyuan с 30% и е подобрил QPM на модела DeepSeek със 17%.

Сравнителните показатели за производителност, публикувани от Tencent, показват значителни печалби от един оператор: операторът за внимание осигурява до 2,22 пъти производителността на FlashInfer/FlashAttention; GroupGEMM постига до 1,88 × над DeepGEMM; и FusedMoE достига до 1,49 пъти производителността на TensorRT-LLM.

Гледайки напред, Tencent каза, че разработката ще се съсредоточи върху операторите с рядко внимание, за да се справят с тесните места с дълъг контекст, разширените стратегии за квантуване и ядрата за съвместна оптимизация на изчислителната комуникация, за да се намалят комуникационните разходи при разпределени изводи.

Източник: IT home

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Like this:

Related Posts