MGIE — новая нейросеть от Apple, редактирующая изображения в один клик

Apple представила новую нейросеть MGIE (MLLM-Guided Image Editing), спроектированную совместно с Калифорнийским университетом в Санта-Барбаре. Эта модель машинного обучения предназначена для редактирования изображений по текстовым командам.

MGIE является мультимодальной моделью, способной работать с различными типами данных. Она может распознавать естественный язык, а также анализировать изображения и генерировать новые объекты с помощью диффузионной модели. Такой подход объединяет несколько задач в одной нейросети.

Модель получает на входе изображение и текстовое описание необходимых изменений. Затем она перерисовывает изображение в соответствии с указанными инструкциями. Например, пользователь может запросить добавление нового фона на фото, удаление объектов или добавление новых элементов.

На портале arxiv. org инженеры Apple опубликовали подробности исследования, а код и веса доступны в открытом GitHub-репозитории. Энтузиасты также развернули тестовое веб-приложение на базе MGIE на Hugging Face.

Новая нейросеть MGIE от Apple обещает упростить процесс редактирования изображений, предоставляя пользователю удобный инструмент для работы с фотографиями. Она объединяет в себе множество функций и доступна для ознакомления на различных онлайн-ресурсах, что делает ее перспективной и доступной для широкой аудитории.