

26 януари — Tencent HY официално пусна HunyuanImage 3.0-Instruct, модел от изображение към изображение, който поддържа редактиране на изображения и сливане на множество изображения. Моделът също беше пуснат едновременно на Yuanbao, което позволява на потребителите да имат достъп до него във всички платформи на Yuanbao, както и чрез официалния уебсайт на Tencent HY Hunyuan.
HunyuanImage 3.0-Instruct разполага с общо 8 милиарда параметъра, с приблизително 1,3 милиарда активирани параметри, и приема архитектура Mixture-of-Experts (MoE). Изграден на базата на собствения мултимодален основен модел на Hunyuan Image 3.0, той включва многозадачни данни от изображение към изображение. Чрез фина настройка на инструкциите и последващо обучение, моделът постига дълбоко разбиране и обработка както на въведени от потребителя изображения, така и на инструкции за редактиране.
HunyuanImage 3.0-Instruct е проектиран като модел за редактиране на изображения, който може да разбира визуални входове и да извършва разсъждения. След получаване на изображение и подкана, моделът първо анализира самото съдържание на изображението, а след това причини, базирани на инструкциите на потребителя, за да идентифицира конкретните региони, които изискват редактиране, да определи подробни стъпки за редактиране и да определи кои области трябва да бъдат запазени. Този процес води до по-подробни вътрешни инструкции за редактиране и подобрено качество на изхода.
Моделът поддържа широка гама от възможности за редактиране на изображения и комбиниране на множество изображения, включително добавяне, премахване и модифициране на елементи, трансформация на стил, възстановяване на стари снимки, редактиране на портрети и текст, както и извличане на хора или елементи от множество изображения за създаване на групови снимки или генериране на изцяло нови изображения.
В Yuanbao потребителите могат директно да използват модела, за да създават мемета, да генерират групови снимки на виртуални герои, да проектират съдържание за социално споделяне, да произвеждат плакати за електронна търговия, да персонализират героите на играта и да създават различни видове креативни изображения.
На ниво данни екипът на Hunyuan конструира десетки милиони образци от изображение към изображение, покриващи повече от 80 задачи чрез извличане на необработени изображения и видео данни, съчетани със синтез на експертна мрежа. Тези набори от данни бяха инжектирани по време на фазата на непрекъснато обучение (CT), позволявайки на модела да овладее основните възможности за редактиране. В допълнение, екипът въведе логическа верига в данните от изображение към изображение, което позволява на модела първо да анализира потребителски изображения и намерения и след това да генерира по-подробни инструкции за редактиране, за да подобри резултатите от редактирането.
По време на етапа след обучението, HunyuanImage 3.0-Instruct приема собствения алгоритъм MixGRPO на Tencent HY, комбиниран с многократни итерации, използващи модели за възнаграждение, за по-добро привеждане в съответствие с предпочитанията на потребителите, подобрявайки отзивчивостта на инструкциите, като същевременно поддържа последователност в нередактираните региони.
Опитайте сега:
https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=Hunyuan-Image-3.0-Instruct
Източник: ITHome
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта