Съобщава се, че DeepSeek подготвя нов флагмански AI модел преди лунната нова година · TechNode

Разработчиците са идентифицирали препратки към неидентифициран „MODEL1“ в хранилището на GitHub на DeepSeek, което предполага подготовка за нов водещ модел. Откритието следва по-ранните съобщения, че DeepSeek планира да пусне своя модел от следващо поколение, DeepSeek V4, около периода на Лунната Нова година в средата на февруари.

Актуализациите на кода в библиотеката FlashMLA показват „MODEL1″, посочен заедно с „V32,“ идентификаторът за DeepSeek V3.2. Разработчиците отбелязаха разлики в оформлението на KV кеша, редката обработка и поддръжката на декодиране на FP8, което показва отделна архитектура на модела.

Констатациите идват след като изследователският екип на DeepSeek наскоро публикува статии за оптимизиран остатъчен метод за свързване, известен като mHC, и био-вдъхновен модул памет, наречен Engram. Някои разработчици спекулират, че тези техники могат да бъдат включени в предстоящия модел. [TechNode reporting]

Свързани

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Свързани

Related Posts