SenseTime пуска SenseNova U1: Нативната унифицирана архитектура бележи края на ерата на „шиене“

Когато вниманието на AI индустрията е фокусирано върху агенти, извикване на инструменти и задачи с дълъг хоризонт на приложния слой, основната мултимодална архитектура претърпява по-тиха и по-задълбочена промяна на парадигмата – такава, която отговаря на привидно прост въпрос: Трябва ли разбирането и генерирането естествено да бъдат едно и също нещо?

Дълго време мултимодалните системи бяха до голяма степен сглобени: възприятие и разбиране на всяка от носещите части от способността, свързани чрез съединяването им. Проблемите бяха очевидни: разбирането разчита на предварително обучени визуални енкодери (VE), докато генерирането зависи от вариационни автоенкодери (VAE). Двете системи имат различни учебни цели и различни пространства за представяне. Информацията постоянно се движи между модулите, като неизбежно претърпява загуба и изкривяване.

Това не е просто инженерна неудобство – това е структурно ограничение, което пречи на формирането на истински естествен мултимодален интелект.

Скорошна вълна от работа пусна изцяло нови сигнали, изоставяйки подхода на “сглобяване на по-добра система” и вместо това работи от самото начало, поставяйки изображения, текст, видео и дори движение в едно и също пространство за представяне за обучение и подравняване. Моделът от следващо поколение с отворен код на SenseTime Technology “Rìrìxīn SenseNova U1” е концентрирана практика в тази посока.

Миналия месец SenseTime отвори SenseNova U1, ново поколение мултимодален голям модел. Неговата основна иновация се крие в Native Unified Architecture – както разбирането, така и генерирането споделят един и същ визуален енкодер и токенизатор, разрушавайки традиционното “зашит” архитектура.

Чрез обединяване на пространството за представяне, SenseNova U1 постига значителни подобрения в множество бенчмаркове. Моделът демонстрира по-силни възможности за визуално разсъждение и по-естествено мултимодално генериране в сравнение със свързаните архитектури.

Тази смяна от “системи за зашиване заедно” към “единна родна архитектура” представлява фундаментално преосмисляне на мултимодалното развитие на ИИ. Тъй като все повече изследователи следват подобни подходи, ерата на “пачуърк” мултимодалните системи може да са към своя край.

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Like this:

Related Posts