Модел на най-добрия отворен код BitCPM-CANN: 1,58-битово обучение, постижимо на домашни компютри

Model Best има BitCPM-CANN с отворен код, пълна рамка за обучение, позволяваща обучение на 1,58-битов модел на домашни AI ускорители, като според съобщенията се намаляват изискванията за памет за изводи до шест пъти в сравнение с обучението с пълна точност.

Моментът е важен: през 2026 г. се наблюдава рязък скок в цените на HBM паметта — ключов компонент за обучението на AI — с нарастване на разходите с повече от 165% на годишна база, което прави честотната лента на паметта един от най-скъпите и оскъдни ресурси за обучение на модели в мащаб. На този фон изключително нискобитовите методи за обучение като 1,58-битовия привлякоха силен интерес както от академични изследователи, така и от практици в индустрията, тъй като те обещават драстични намаления на потреблението на памет без пропорционални загуби в точността на модела.

BitCPM-CANN е забележителен с това, че е един от първите пълни тръбопроводи за обучение — не просто моделна архитектура — за демонстриране, че 1,58-битовото прецизно обучение е практически постижимо на вътрешни китайски AI ускорители, включително Huawei Ascend и други местни изчислителни платформи. Това има значение, тъй като контролът върху износа ограничи достъпа на китайските компании до чипове на NVIDIA от висок клас, тласкайки индустрията към местни алтернативи, които се сблъскват със собствената си честотна лента на паметта и изчислителни ограничения.

aad7a9101831d45077b824b217c2c2ef.jpg

The “CANN” в BitCPM-CANN се отнася до изчислителната архитектура за невронни мрежи, което предполага тясна интеграция със специфични вътрешни архитектури на AI чипове. Изданието с отворен код на Bingbi AI включва пълния код за обучение, предварително обучени контролни точки и показатели за оценка, което позволява на други изследователи и компании да възпроизвеждат резултатите на техния собствен хардуер.

За екосистемата на ИИ в Китай практическите последици са значителни. Ако 1,58-битовото обучение може да бъде валидирано в мащаб, това може значително да намали пречките в паметта, които ограничават разработването на модели за компании без достъп до най-новия хардуер с висока честотна лента. Рамката също така напредва в по-широкия индустриален разговор около обучението с съзнание за квантуване и изводите с изключително ниска точност като истински алтернативи на конвенционалната парадигма с пълна точност.

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта