

Екипът на Qwen на Alibaba пусна Qwen3.5-Omni, напълно мултимодален голям модел, поддържащ текстови, изображения, аудио и видео входове и изходи.
Моделът се предлага във варианти Plus, Flash и Light, поддържа 256K контекстна дължина и може да обработва над 10 часа аудио и 400+ секунди 720p видео вход.
Обучен на широкомащабни мултимодални масиви от данни – включително над 100 милиона часа аудио и видео – моделът демонстрира интегрирани възможности за възприемане и генериране.
В сравнение с по-ранните версии, Qwen3.5-Omni значително подобрява многоезичната производителност, като поддържа разпознаване на реч на 113 езика и диалекта и генериране на реч на 36 езика. Той също така въвежда функции за взаимодействие в реално време, като семантично прекъсване, гласово клониране и гласов контрол, подобрени от технологията ARIA на Alibaba за по-стабилен и естествен говорен изход.
Моделът постигна 215 най-съвременни (SOTA) резултата в тестове за аудио, аудиовизуално разбиране, разпознаване на реч, превод и разговорни задачи. Общите му аудиовизуални възможности са наравно с Google Gemini 3.1 Pro, като същевременно го превъзхождат при общи аудио задачи.
Qwen3.5-Omni в момента е достъпен чрез офлайн API и API в реално време.
Източник: CLS AIDaily
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта