

Изследователи от университета Карнеги Мелън и университета на Мериленд публикуваха проучване, озаглавено „Езиковите модели се нуждаят от сън“, демонстрирайки, че големите езикови модели се възползват от период на почивка, който имитира моделите на човешки сън.
Изследването черпи вдъхновение от неврологията: по време на човешкия сън хипокампусът възпроизвежда краткосрочните спомени от деня, като ги консолидира в кортикални синапси като дългосрочно знание. Екипът приложи този принцип към LLM чрез проектиране на механизъм за заспиване, когато контекстният прозорец на модела достигне капацитет.
Вместо да продължи да обработва нови токени, моделът влиза в офлайн състояние, изпълнявайки множество кръгове на рекурсивно разпространение напред върху натрупания контекст. Това позволява на модела да компресира скорошна информация в своите бързи тегла, да изчисти KV кеша и да възобнови обработката с актуализирани дългосрочни знания.
Екипът тества механизма на три категории задачи: клетъчни автомати, извличане на графики с няколко прехода и GSM-Infinite математически разсъждения. Тези задачи позволиха прецизен контрол върху дълбочината на разсъжденията и променливите за натоварване на паметта.
Резултатите показват, че увеличаването на итерационните кръгове на заспиване постоянно подобрява производителността, особено при сложни задачи за разсъждение, изискващи извеждане стъпка по стъпка. Простите задачи можеха да бъдат решени, докато сте „будни“, но трудните проблеми изискваха период на офлайн консолидация, за да се постигнат оптимални резултати.
Документът отбелязва, че пречка при обработката на дълъг контекст не е капацитетът за съхранение на информация, а по-скоро способността за дълбоко разсъждение. Когато историческата информация бъде извадена от KV кеша, моделът има само едно преминаване напред, за да я интернализира, което е недостатъчно за сложна логическа дедукция.
Този подход допълва възникващите хибридни SSM-Attention архитектури като Samba и Qwen3.5, които използват бързи тегла за компресиране на по-стара информация. Механизмът за заспиване адресира това, което екипът идентифицира като фундаментално ограничение в настоящите архитектури, базирани на трансформатори: невъзможността за дълбоко обработване на дълги вериги на разсъждения с едно преминаване.
Документът е достъпен на arXiv (2605.26099) и предизвика дискусия за биологично вдъхновени подходи за подобряване на способностите за разсъждение на AI.
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта