Meituan Open-Sources LongCat-Video-Avatar 1.5: Фотореалистична рамка за цифрово човешко видео

Meituan пусна версия 1.5 на LongCat-Video-Avatar, своята рамка за генериране на цифрови човешки видео с отворен код, предоставяща значителни подобрения както в точността на синхронизиране на устните, така и в ефективността на изводите, които според компанията правят технологията практична за реални сценарии за комерсиално внедряване в електронна търговия, виртуално закотвяне и приложения за интерактивно цифрово преживяване.

Главното подобрение във версия 1.5 включва замяна на компонента за аудио енкодер от Wav2Vec2 — широко използван модел за самоконтролирано представяне на реч — с Whisper-Large, широкомащабния модел за разпознаване на реч на OpenAI, който се превърна в индустриален еталон за задачи за преобразуване на реч в текст. Тази архитектурна промяна значително подобрява точността на синхронизиране на устните, което исторически е представлявало едно от най-упоритите технически предизвикателства при създаването на реалистично цифрово човешко видео. Фините несъответствия между аудио и визуалните движения на устата незабавно нарушават илюзията за реализъм и извличат зрителите от изживяването, което прави това измерение на качеството особено критично за търговски приложения.

Превъзходната способност на Whisper-Large за улавяне на фина времева информация от аудио сигнали се превежда директно в по-естествена и прецизна динамика на устните в генерирания видео изход, позволявайки на цифровия човек да поддържа кохерентни движения на устните дори чрез сложни фонемни последователности и естествени ритми на речта, които обикновено карат по-простите енкодерни системи да произвеждат видими артефакти.

Вторият значителен напредък е насочен към скоростта на извеждане, която директно определя практическата осъществимост на внедряването на генериране на цифрово човешко видео в производствени среди, където латентността на генериране влияе както на потребителското изживяване, така и на разходите за инфраструктура. Версия 1.5 прилага Distribution Matching Destillation 2 (DMD2) за стъпкова дестилация, като компресира необходимите стъпки за извод от по-високото отброяване на стъпки на предишната версия до само 8 стъпки, като същевременно поддържа визуално качество — намаление, което значително намалява изчислителните изисквания за приложения в реално време.

В широкомащабни оценки, включващи 770 индивида в набор от данни от 13 240 проби за субективно оценяване на качеството, LongCat-Video-Avatar 1.5 постигна водещи резултати във всички измерения на оценката на изчерпателни показатели на радарната диаграма. Версията с отворен код прави тези възможности достъпни за разработчици и търговски организации, които искат да интегрират фотореалистично генериране на цифрово човешко видео в своите продукти без лицензионни такси или разчитане на патентовани API услуги от големи AI платформи, което потенциално ускорява приемането на цифрова човешка технология в по-широка гама от приложения, насочени към клиентите.

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта