Българо-китайска търговско-промишлена палата

Моделите с изкуствен интелект се нуждаят от сън: Изследванията на CMU показват повишаване на производителността от „дремки“ LLM

May 29, 2026

Изследователи от университета Карнеги Мелън и университета на Мериленд публикуваха проучване, озаглавено „Езиковите модели се нуждаят от сън“, демонстрирайки, че големите езикови модели се възползват от период на почивка, който имитира моделите на човешки сън.

Изследването черпи вдъхновение от неврологията: по време на човешкия сън хипокампусът възпроизвежда краткосрочните спомени от деня, като ги консолидира в кортикални синапси като дългосрочно знание. Екипът приложи този принцип към LLM чрез проектиране на механизъм за заспиване, когато контекстният прозорец на модела достигне капацитет.

Вместо да продължи да обработва нови токени, моделът влиза в офлайн състояние, изпълнявайки множество кръгове на рекурсивно разпространение напред върху натрупания контекст. Това позволява на модела да компресира скорошна информация в своите бързи тегла, да изчисти KV кеша и да възобнови обработката с актуализирани дългосрочни знания.

Екипът тества механизма на три категории задачи: клетъчни автомати, извличане на графики с няколко прехода и GSM-Infinite математически разсъждения. Тези задачи позволиха прецизен контрол върху дълбочината на разсъжденията и променливите за натоварване на паметта.

Резултатите показват, че увеличаването на итерационните кръгове на заспиване постоянно подобрява производителността, особено при сложни задачи за разсъждение, изискващи извеждане стъпка по стъпка. Простите задачи можеха да бъдат решени, докато сте „будни“, но трудните проблеми изискваха период на офлайн консолидация, за да се постигнат оптимални резултати.

Документът отбелязва, че пречка при обработката на дълъг контекст не е капацитетът за съхранение на информация, а по-скоро способността за дълбоко разсъждение. Когато историческата информация бъде извадена от KV кеша, моделът има само едно преминаване напред, за да я интернализира, което е недостатъчно за сложна логическа дедукция.

Този подход допълва възникващите хибридни SSM-Attention архитектури като Samba и Qwen3.5, които използват бързи тегла за компресиране на по-стара информация. Механизмът за заспиване адресира това, което екипът идентифицира като фундаментално ограничение в настоящите архитектури, базирани на трансформатори: невъзможността за дълбоко обработване на дълги вериги на разсъждения с едно преминаване.

Документът е достъпен на arXiv (2605.26099) и предизвика дискусия за биологично вдъхновени подходи за подобряване на способностите за разсъждение на AI.

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Свързани публикации

Българо-китайска търговско-промишлена палата

Моделите с изкуствен интелект се нуждаят от сън: Изследванията на CMU показват повишаване на производителността от „дремки“ LLM

Like this:

Свързани публикации

Хонконг е идеалната платформа за узбекските фирми да разширят крилата си в световен мащаб, казва Джон Лий

Как китайските вериги за напитки тестват границите на меката сила

Тежка категория в индустрията стартира алианс за космическа слънчева енергия

Не пропускай

До световния връх: Верадина Начева донесе световната титла по скайрънинг за България

Омбудсманът отправи препоръки за по-добра защита на децата със СОП в Закона за предучилищното и училищното образование

“Club 33” спечели Купата на Община Русе по мини футбол

Започна изграждането на нова база за академично гребане в Лесопарк „Липник“