

12 февруари — Xiaohongshu (RED) отвори своя нов основен модел за редактиране на изображения, FireRed-Image-Edit, пускайки код, технически доклад и демонстрационни страници в GitHub и Hugging Face. Теглото на модела се очаква да бъде последвано през следващите дни.

Моделът е постигнал най-съвременни (SOTA) резултати на няколко водещи бенчмарка за редактиране на изображения, включително ImgEdit и GEdit.
Екипът също така представи RedEdit Bench, собствена рамка за оценка, обхващаща 15 подзадачи като вмъкване/премахване на обекти, подобряване на портрети и възстановяване на изображения с ниско качество. Бенчмаркът също ще бъде с отворен код.
Технически, FireRed-Image-Edit възприема триетапна стратегия за обучение:
- Предварително обучение: Многоусловно вземане на проби от кофа за възприемане и динамично увеличаване на инструкциите за подобряване на генерализацията.
- Фина настройка: Висококачествени подбрани данни за усъвършенстване на производителността при редактиране.
- Обучение за подсилване: нов механизъм за възнаграждение, базиран на Layout-Aware OCR, който наказва правописни грешки, неправилно подравнени знаци, необичайно мащабиране на шрифта и изкривявания на оформлението – значително подобрява точността на редактиране на текст и стилистичната последователност.

Основните възможности включват строго следване на инструкции, прецизно редактиране на текст, прехвърляне на стилове, сливане на изображения с множество препратки, възстановяване на стари снимки и подобряване на изображения с висока точност.
Xiaohongshu каза, че бъдещите актуализации допълнително ще подобрят ретуширането на портрети, прецизността при редактиране на текст и запазването на последователността, с допълнителни издания с отворен код – включително основни модели текст към изображение – планирани през следващите месеци.
Източник: QbitAI
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта