Apple демонстрирует новую модель искусственного интеллекта под названием MGIE

Apple демонстрирует новую модель искусственного интеллекта под названием MGIE

После того, как несколько лет назад ChatGPT стал общедоступным, несколько брендов в области искусственного интеллекта начали бурно развиваться. Работа Apple до сих пор в этом отношении была сдержанной. Однако это не означает, что Apple не добилась никакого прогресса в области искусственного интеллекта. Недавно Apple выпустила новую модель искусственного интеллекта с открытым исходным кодом под названием «MGIE». Эта модель искусственного интеллекта может редактировать изображения на основе инструкций на естественном языке. Полное название MGIE — «Редактирование изображений под руководством MLLM». Он использует мультимодальную модель большого языка (MLLM) для интерпретации пользовательских инструкций и выполнения операций на уровне пикселей. MGIE может понимать команды на естественном языке, вводимые пользователями. Он может выполнять такие операции, как модификации в стиле Photoshop, глобальную оптимизацию фотографий и локальное редактирование.

Apple и исследователи из Калифорнийского университета в Санта-Барбаре совместно публикуют результаты исследований, связанных с MGIE. Результаты будут опубликованы на Международной конференции по обучению представлений (ICLR) 2024 года. Эта конференция является одной из ведущих конференций по исследованиям искусственного интеллекта в мире.

Что такое МЛЛМ?

Чтобы правильно понять MGIE, мы должны сначала обсудить MLLM, поскольку MGIE использует MLLM. MLLM — это мощная модель искусственного интеллекта, которая может одновременно обрабатывать текст и изображения, тем самым расширяя возможности редактирования изображений на основе инструкций. MLLM продемонстрировали отличные возможности в кросс-модальном понимании и формировании реакций визуального восприятия. Однако он еще не нашел широкого применения в задачах редактирования изображений.

MGIE интегрирует MLLM в процесс редактирования изображений двумя способами. Во-первых, он использует MLLM для получения выразительных инструкций на основе пользовательского ввода. Инструкции краткие и дают четкое руководство по процессу редактирования.

Например, при вводе «сделать небо голубее» MGIE может сгенерировать команду «увеличить насыщенность области неба на 20%».

Во-вторых, он использует MLLM для создания визуального воображения, то есть скрытого представления желаемых изменений. Это представление отражает суть редактирования и может использоваться для управления операциями на уровне пикселей. MGIE использует новую схему сквозного обучения, которая совместно оптимизирует модули вывода инструкций, визуального воображения и редактирования изображений.

Модель AI для редактирования изображений

Особенности МГИЭ

MGIE может обрабатывать различные ситуации редактирования: от простой настройки цвета до сложных манипуляций с объектами. Модель также может выполнять глобальное и локальное редактирование в зависимости от предпочтений пользователя. Некоторые особенности и функциональные возможности MGIE включают в себя:

  • Выразительное редактирование на основе инструкций: MGIE может генерировать краткие и четкие инструкции для эффективного управления процессом редактирования. Это не только улучшает качество редактирования, но и улучшает общий пользовательский опыт.

  • Редактирование стилей Photoshop: MGIE может выполнять стандартное редактирование в стиле Photoshop, такое как обрезка, изменение размера, вращение, переворачивание и добавление фильтров. В макете также можно применять более сложные изменения, такие как изменение фона, добавление или удаление объектов и смешивание изображений.

    Новости недели


  • Глобальная оптимизация фотографий: MGIE может оптимизировать общее качество ваших фотографий, например яркость, контрастность, резкость и цветовой баланс. Модель также может применять художественные эффекты, такие как рисование, рисование и карикатура.

  • Локальное редактирование: MGIE может редактировать определенные области или объекты изображения, такие как лицо, глаза, волосы, одежда и аксессуары. Модель также может изменять свойства этих областей или объектов, такие как форма, размер, цвет, текстура и стиль.

MGIE — проект с открытым исходным кодом на GitHub. Пользователи могут найти код, данные и предварительно обученные модели. здесь. Проект также предоставляет демонстрационный блокнот, показывающий, как использовать MGIE для выполнения различных задач редактирования.

Модель AI для редактирования изображений

Последствия и перспективы на будущее

Выпуск MGIE подчеркивает растущее мастерство Apple в исследованиях и разработках в области искусственного интеллекта. Этот новый инструмент не только имеет практическое применение для личных и профессиональных целей редактирования изображений, таких как социальные сети, электронная коммерция, образование, развлечения и искусство, но также представляет собой значительный прогресс в области мультимодального искусственного интеллекта. Открытый исходный код модели и ее доступность на таких платформах, как GitHub и Hugging Face Spaces, указывают на ее потенциал для дальнейших исследований и разработок за пределами ее текущего состояния.

Заключительные слова

В заключение отметим, что недавний выпуск Apple модели MGIE (MLLM-Guided Image Editing) знаменует собой важную веху в области искусственного интеллекта и редактирования изображений. Используя возможности мультимодальных моделей большого языка (MLLM), MGIE позволяет пользователям выполнять сложные задачи редактирования изображений с помощью инструкций на естественном языке. Этот инновационный подход, разработанный в сотрудничестве с исследователями из Калифорнийского университета в Санта-Барбаре, демонстрирует стремление Apple продвигать технологии искусственного интеллекта и их практическое применение.

Интеграция MLLM в процесс редактирования изображений не только улучшает пользовательский опыт, но и открывает новые возможности для творческого самовыражения и производительности. Способность MGIE понимать и выполнять сложные команды редактирования, от простой настройки цвета до сложных манипуляций с объектами, устанавливает новый стандарт для инструментов редактирования изображений на основе искусственного интеллекта. Кроме того, его открытый исходный код способствует сотрудничеству и инновациям в исследовательском сообществе, открывая путь для будущих достижений в области мультимодального искусственного интеллекта и методов обработки изображений.

Поскольку MGIE продолжает развиваться и набирать популярность как среди разработчиков, так и среди пользователей, его значение выходит за рамки сценариев личного и профессионального редактирования изображений. Его доступность на таких платформах, как GitHub и Hugging Face Spaces, подчеркивает его потенциал для более широкого применения в различных областях, включая социальные сети, электронную коммерцию, образование, развлечения и цифровое искусство.

По сути, выпуск MGIE подчеркивает стремление Apple расширить границы технологий искусственного интеллекта, одновременно предоставляя пользователям интуитивно понятные и мощные инструменты для творческого самовыражения и визуального повествования. Поскольку инновации, основанные на искусственном интеллекте, продолжают формировать цифровой ландшафт, MGIE является свидетельством преобразующего потенциала совместных исследований и междисциплинарных инноваций в стремлении к технологическому совершенству.

Биография автора

Эфе Удин — опытный технический писатель с более чем семилетним опытом. Он освещает широкий спектр тем в сфере высоких технологий: от отраслевой политики до производительности мобильных телефонов. От мобильных телефонов до планшетов, Efe также внимательно следит за последними достижениями и тенденциями. Он предоставляет глубокий анализ и обзоры, чтобы информировать и обучать читателей. Эфе очень увлечен технологиями и рассказывает интересные истории, а также предлагает решения, где это возможно.

Отказ от ответственности: Мы можем получать вознаграждение от некоторых компаний, о продуктах которых мы говорим, но наши статьи и обзоры всегда являются нашим честным мнением. Для получения более подробной информации вы можете ознакомиться с нашими редакционными правилами и узнать, как мы используем партнерские ссылки.

0

Комментариев нет

Нет комментариев

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *