


4 февруари — Екипът на Hunyuan AI Infrastructure на Tencent обяви изданието с отворен код на HPC-Ops, производствен клас, високопроизводителна операторска библиотека, предназначена за извеждане на големи езикови модели.
Създаден от нулата, за да се справи с тесните места в реалния свят, HPC-Ops използва архитектурна абстракция, дълбока адаптация на микроархитектурата и оптимизация на ниво инструкции, за да приближи основните оператори до границите на производителността на хардуера. При тестове в реалния свят Tencent съобщава, че HPC-Ops е повишил пропускателната способност на изводите (QPM) на моделите Hunyuan с 30% и е подобрил QPM на модела DeepSeek със 17%.
Сравнителните показатели за производителност, публикувани от Tencent, показват значителни печалби от един оператор: операторът за внимание осигурява до 2,22 пъти производителността на FlashInfer/FlashAttention; GroupGEMM постига до 1,88 × над DeepGEMM; и FusedMoE достига до 1,49 пъти производителността на TensorRT-LLM.
Гледайки напред, Tencent каза, че разработката ще се съсредоточи върху операторите с рядко внимание, за да се справят с тесните места с дълъг контекст, разширените стратегии за квантуване и ядрата за съвместна оптимизация на изчислителната комуникация, за да се намалят комуникационните разходи при разпределени изводи.
Източник: IT home
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта



