Zhipu разкрива GLM-5.1, своя най-напреднал модел с отворен код с 8-часова възможност за автономна работа

Китайската компания за изкуствен интелект Zhipu AI официално пусна GLM-5.1, своя най-усъвършенстван водещ модел до момента и в момента един от най-мощните модели с отворен код в световен мащаб.

Ключов пробив на GLM-5.1 се крие в способността му да поддържа автономна работа в продължение на над осем часа върху една задача – отбелязвайки първия път, когато модел с отворен код е достигнал това ниво на дългосрочно изпълнение. За разлика от по-ранните модели, предназначени за взаимодействия на ниво минута, GLM-5.1 може независимо да планира, изпълнява, итерира и в крайна сметка да доставя пълни резултати от инженерно ниво в рамките на един работен процес.

Моделът също така показва значителни подобрения в възможностите за кодиране, критичен показател за AI интелигентността. В три основни индустриални показателя – SWE-Bench Pro (коригиране на програмни грешки в реалния свят), Terminal-Bench 2.0 (разрешаване на проблеми от командния ред) и NL2Repo (генериране на кодова база от край до край) – GLM-5.1 се нарежда на трето място в световен мащаб, на първо място сред китайските модели и на първо място сред моделите с отворен код.

GLM-5.1.png

Трябва да се отбележи, че на SWE-Bench Pro – широко считан за най-реалистичния тест за способности за софтуерно инженерство – GLM-5.1 постигна нов глобален най-добър резултат, надминавайки водещи патентовани модели като GPT-5.4 и Claude Opus 4.6. Бенчмаркът изисква моделите да идентифицират и коригират сложни грешки в реални хранилища на GitHub, което го прави един от най-трудните показатели за производителност на кодиране в реалния свят.

GLM-5.1b.png

Zhipu твърди, че следващата граница в оценката на AI вече не е само колко „умен“ е моделът, но колко дълго може да работи ефективно – неговото представяне при дългосрочни задачи. Тези задачи изискват не само работа с по-големи кодови бази, но навигиране в последователност от сложни инженерни решения: изпълнение на бенчмаркове, идентифициране на пречки, преразглеждане на стратегии и повторно тестване – отразявайки пълен цикъл „експеримент → анализ → оптимизация“, типичен за човешките инженери.

Съгласно стандартите за оценка на METR, GLM-5.1 е единственият модел с отворен код, способен да поддържа 8-часова непрекъсната работа, и един от малкото в световен мащаб – заедно с Claude Opus 4.6 – който демонстрира тази способност. Дългосрочната цел на Zhipu е да изгради напълно автономни агенти, способни да работят 24/7, непрекъснато да декомпозират цели, да изпълняват задачи, да се самооценяват и да се развиват без човешка намеса.

Тази промяна сигнализира за по-широка трансформация: тъй като AI преминава от предоставяне на „отговори“ към предоставяне на „проекти“, той би могъл да промени фундаментално софтуерното инженерство, корпоративния софтуер и високопроизводителните компютърни индустрии.

Технически, предизвикателството не е просто да се удължи времето за изпълнение, но и да се поддържа ефективността във времето. По-ранните модели, включително GLM-5, често оставаха на плато след първоначалните печалби, многократно прилагайки известни оптимизации без адаптиране на стратегии. GLM-5.1 се справя с това чрез активно идентифициране на тесните места и смяна на подходите – демонстрирайки цикъл на оптимизация „счупване и поправка“, който отразява по-дълбока способност за решаване на проблеми.

Например при задачите за оптимизиране на векторни бази данни, моделът показва поетапни подобрения: когато напредъкът спре, той анализира регистрационни файлове, идентифицира ограничения и преминава към структурно различни стратегии – като преминаване от сканиране на пълна база данни към IVF индексиране или от единична точност към квантови подходи – преди прецизиране на резултатите.

При по-отворени задачи като изграждане на настолна система Linux, където нито една метрика не определя успеха, GLM-5.1 показва ранни признаци на самооценка – оценявайки своите резултати по отношение на функционалността, използваемостта и последователността на дизайна и итерирайки съответно. Това бележи стъпка към по-обобщена автономна интелигентност.

Zhipu признава, че удължаването на „ефективното работно време“ остава основно предизвикателство, включително преодоляване на ограниченията на контекста, поддържане на последователност в хиляди извиквания на инструменти, избягване на локални оптимуми и разработване на надеждна самооценка без ясни показатели. GLM-5.1 представлява важна стъпка напред в тази посока.

Източник: IPO Zaozhidao

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin