Парадигма за обучение с дълъг контекст, управлявана от агент с отворен код на USTC: 30B съответства на Qwen3-235B

Изследователи от Университета за наука и технологии на Китай (USTC) отвориха нова парадигма за обучение с дълъг контекст, управлявана от агенти, която постига революционна ефективност – модел с 30 милиарда параметъра, съответстващ на производителността на Qwen3-235B на Alibaba, който е почти осем пъти по-голям.

Основната иновация се крие в начина, по който се извличат и структурират данните за обучението. Традиционните подходи за изграждане на способности за дълъг контекст попадат в два лагера, като и двата имат значителни недостатъци. Първият е скъпо ръчно етикетиране, при което човешки анотатори старателно създават примери с дълъг контекст – процес, който не се мащабира добре. Второто е евристично конкатениране на кратък текст, което съединява несвързани фрагменти, но не успява да произведе последователните, богати на зависимости последователности, от които моделите се нуждаят, за да научат истинско дългосрочно разсъждение.

Екипът на USTC възприе фундаментално различен подход: те се обърнаха към траекториите на AI агенти. Вместо да измислят изкуствено данни с дълъг контекст, те компилираха хронологията на взаимодействие с няколко хода, създадена от автономни агенти, докато навигират в реални задачи. Тези траектории естествено съдържат вида разширен, зависим от контекста обмен, който е точно това, което изисква обучението с дълъг контекст – последователности от наблюдения, стъпки на разсъждение и действия, които се основават на информация, въведена много по-рано.

Като третира траекториите на агентите като първокласен източник на данни, парадигмата директно адресира това, което изследователите идентифицират като пречка за възможностите за дълъг контекст за агентите на ИИ. Получените висококачествени данни за обучение учат моделите да поддържат и манипулират информация в разширени контексти по начин, който се чувства органичен, а не произведен.

Резултатите говорят сами за себе си. Само с 30 милиарда параметъра, моделът, обучен от USTC, постига паритет на производителността с Qwen3-235B в редица бенчмаркове с дълъг контекст. Това представлява драматично подобрение на ефективността — приблизително 8 пъти намаление на размера на модела, без да се жертват способностите. За практиците това означава, че разсъжденията в дълъг контекст, които преди това изискваха огромни, интензивни изчислителни модели, сега са достъпни с много по-малък отпечатък.

Версията с отворен код позволява на по-широката AI общност да надгражда върху тази работа, потенциално ускорявайки напредъка в системи, базирани на агенти, разбиране на дълги документи, многооборотен диалог и всяко приложение, при което поддържането на съгласуваност в разширените взаимодействия е критично. Като демонстрира, че качеството на данните може да замени необработения мащаб, екипът на USTC предложи завладяващ път напред, за да направи способните агенти с дълъг контекст по-широко достъпни.

Промяната на парадигмата е ясна: вместо да мащабираме все по-големи модели, за да се справят с по-дълги контексти, можем да обучим по-малки модели по-интелигентно – използвайки естествената структура на поведението на агента като наш учител.

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта