После того, как несколько лет назад ChatGPT стал общедоступным, несколько брендов в области искусственного интеллекта начали бурно развиваться. Работа Apple до сих пор в этом отношении была сдержанной. Однако это не означает, что Apple не добилась никакого прогресса в области искусственного интеллекта. Недавно Apple выпустила новую модель искусственного интеллекта с открытым исходным кодом под названием «MGIE». Эта модель искусственного интеллекта может редактировать изображения на основе инструкций на естественном языке. Полное название MGIE — «Редактирование изображений под руководством MLLM». Он использует мультимодальную модель большого языка (MLLM) для интерпретации пользовательских инструкций и выполнения операций на уровне пикселей. MGIE может понимать команды на естественном языке, вводимые пользователями. Он может выполнять такие операции, как модификации в стиле Photoshop, глобальную оптимизацию фотографий и локальное редактирование.
Apple и исследователи из Калифорнийского университета в Санта-Барбаре совместно публикуют результаты исследований, связанных с MGIE. Результаты будут опубликованы на Международной конференции по обучению представлений (ICLR) 2024 года. Эта конференция является одной из ведущих конференций по исследованиям искусственного интеллекта в мире.
Что такое МЛЛМ?
Чтобы правильно понять MGIE, мы должны сначала обсудить MLLM, поскольку MGIE использует MLLM. MLLM — это мощная модель искусственного интеллекта, которая может одновременно обрабатывать текст и изображения, тем самым расширяя возможности редактирования изображений на основе инструкций. MLLM продемонстрировали отличные возможности в кросс-модальном понимании и формировании реакций визуального восприятия. Однако он еще не нашел широкого применения в задачах редактирования изображений.
MGIE интегрирует MLLM в процесс редактирования изображений двумя способами. Во-первых, он использует MLLM для получения выразительных инструкций на основе пользовательского ввода. Инструкции краткие и дают четкое руководство по процессу редактирования.
Например, при вводе «сделать небо голубее» MGIE может сгенерировать команду «увеличить насыщенность области неба на 20%».
Во-вторых, он использует MLLM для создания визуального воображения, то есть скрытого представления желаемых изменений. Это представление отражает суть редактирования и может использоваться для управления операциями на уровне пикселей. MGIE использует новую схему сквозного обучения, которая совместно оптимизирует модули вывода инструкций, визуального воображения и редактирования изображений.
Особенности МГИЭ
MGIE может обрабатывать различные ситуации редактирования: от простой настройки цвета до сложных манипуляций с объектами. Модель также может выполнять глобальное и локальное редактирование в зависимости от предпочтений пользователя. Некоторые особенности и функциональные возможности MGIE включают в себя:
-
Выразительное редактирование на основе инструкций: MGIE может генерировать краткие и четкие инструкции для эффективного управления процессом редактирования. Это не только улучшает качество редактирования, но и улучшает общий пользовательский опыт.
-
Редактирование стилей Photoshop: MGIE может выполнять стандартное редактирование в стиле Photoshop, такое как обрезка, изменение размера, вращение, переворачивание и добавление фильтров. В макете также можно применять более сложные изменения, такие как изменение фона, добавление или удаление объектов и смешивание изображений.
Новости недели
[embed]https://www.youtube.com/watch?v=aiR5xlf63ZM[/embed]
-
Глобальная оптимизация фотографий: MGIE может оптимизировать общее качество ваших фотографий, например яркость, контрастность, резкость и цветовой баланс. Модель также может применять художественные эффекты, такие как рисование, рисование и карикатура.
-
Локальное редактирование: MGIE может редактировать определенные области или объекты изображения, такие как лицо, глаза, волосы, одежда и аксессуары. Модель также может изменять свойства этих областей или объектов, такие как форма, размер, цвет, текстура и стиль.
MGIE — проект с открытым исходным кодом на GitHub. Пользователи могут найти код, данные и предварительно обученные модели. здесь. Проект также предоставляет демонстрационный блокнот, показывающий, как использовать MGIE для выполнения различных задач редактирования.
Последствия и перспективы на будущее
Выпуск MGIE подчеркивает растущее мастерство Apple в исследованиях и разработках в области искусственного интеллекта. Этот новый инструмент не только имеет практическое применение для личных и профессиональных целей редактирования изображений, таких как социальные сети, электронная коммерция, образование, развлечения и искусство, но также представляет собой значительный прогресс в области мультимодального искусственного интеллекта. Открытый исходный код модели и ее доступность на таких платформах, как GitHub и Hugging Face Spaces, указывают на ее потенциал для дальнейших исследований и разработок за пределами ее текущего состояния.
Заключительные слова
В заключение отметим, что недавний выпуск Apple модели MGIE (MLLM-Guided Image Editing) знаменует собой важную веху в области искусственного интеллекта и редактирования изображений. Используя возможности мультимодальных моделей большого языка (MLLM), MGIE позволяет пользователям выполнять сложные задачи редактирования изображений с помощью инструкций на естественном языке. Этот инновационный подход, разработанный в сотрудничестве с исследователями из Калифорнийского университета в Санта-Барбаре, демонстрирует стремление Apple продвигать технологии искусственного интеллекта и их практическое применение.
Интеграция MLLM в процесс редактирования изображений не только улучшает пользовательский опыт, но и открывает новые возможности для творческого самовыражения и производительности. Способность MGIE понимать и выполнять сложные команды редактирования, от простой настройки цвета до сложных манипуляций с объектами, устанавливает новый стандарт для инструментов редактирования изображений на основе искусственного интеллекта. Кроме того, его открытый исходный код способствует сотрудничеству и инновациям в исследовательском сообществе, открывая путь для будущих достижений в области мультимодального искусственного интеллекта и методов обработки изображений.
Поскольку MGIE продолжает развиваться и набирать популярность как среди разработчиков, так и среди пользователей, его значение выходит за рамки сценариев личного и профессионального редактирования изображений. Его доступность на таких платформах, как GitHub и Hugging Face Spaces, подчеркивает его потенциал для более широкого применения в различных областях, включая социальные сети, электронную коммерцию, образование, развлечения и цифровое искусство.
По сути, выпуск MGIE подчеркивает стремление Apple расширить границы технологий искусственного интеллекта, одновременно предоставляя пользователям интуитивно понятные и мощные инструменты для творческого самовыражения и визуального повествования. Поскольку инновации, основанные на искусственном интеллекте, продолжают формировать цифровой ландшафт, MGIE является свидетельством преобразующего потенциала совместных исследований и междисциплинарных инноваций в стремлении к технологическому совершенству.
Биография автора
Эфе Удин — опытный технический писатель с более чем семилетним опытом. Он освещает широкий спектр тем в сфере высоких технологий: от отраслевой политики до производительности мобильных телефонов. От мобильных телефонов до планшетов, Efe также внимательно следит за последними достижениями и тенденциями. Он предоставляет глубокий анализ и обзоры, чтобы информировать и обучать читателей. Эфе очень увлечен технологиями и рассказывает интересные истории, а также предлагает решения, где это возможно.
Отказ от ответственности: Мы можем получать вознаграждение от некоторых компаний, о продуктах которых мы говорим, но наши статьи и обзоры всегда являются нашим честным мнением. Для получения более подробной информации вы можете ознакомиться с нашими редакционными правилами и узнать, как мы используем партнерские ссылки.
(function(d, s, id) {
var js, fjs = d.getElementsByTagName(s)[0];
if (d.getElementById(id)) return;
js = d.createElement(s);
js.id = id;
js.src="https://connect.facebook.net/en_US/sdk.js#xfbml=1&version=v3.2&appId=1623298447970991&autoLogAppEvents=1";
fjs.parentNode.insertBefore(js, fjs);
}(document, 'script', 'facebook-jssdk'));
После того, как несколько лет назад ChatGPT стал общедоступным, несколько брендов в области искусственного интеллекта начали бурно развиваться. Работа Apple до сих пор в этом отношении была сдержанной. Однако это не означает, что Apple не добилась никакого прогресса в области искусственного интеллекта. Недавно Apple выпустила новую модель искусственного интеллекта с открытым исходным кодом под названием «MGIE». Эта модель искусственного интеллекта может редактировать изображения на основе инструкций на естественном языке. Полное название MGIE — «Редактирование изображений под руководством MLLM». Он использует мультимодальную модель большого языка (MLLM) для интерпретации пользовательских инструкций и выполнения операций на уровне пикселей. MGIE может понимать команды на естественном языке, вводимые пользователями. Он может выполнять такие операции, как модификации в стиле Photoshop, глобальную оптимизацию фотографий и локальное редактирование.
Apple и исследователи из Калифорнийского университета в Санта-Барбаре совместно публикуют результаты исследований, связанных с MGIE. Результаты будут опубликованы на Международной конференции по обучению представлений (ICLR) 2024 года. Эта конференция является одной из ведущих конференций по исследованиям искусственного интеллекта в мире.
Что такое МЛЛМ?
Чтобы правильно понять MGIE, мы должны сначала обсудить MLLM, поскольку MGIE использует MLLM. MLLM — это мощная модель искусственного интеллекта, которая может одновременно обрабатывать текст и изображения, тем самым расширяя возможности редактирования изображений на основе инструкций. MLLM продемонстрировали отличные возможности в кросс-модальном понимании и формировании реакций визуального восприятия. Однако он еще не нашел широкого применения в задачах редактирования изображений.
MGIE интегрирует MLLM в процесс редактирования изображений двумя способами. Во-первых, он использует MLLM для получения выразительных инструкций на основе пользовательского ввода. Инструкции краткие и дают четкое руководство по процессу редактирования.
Например, при вводе «сделать небо голубее» MGIE может сгенерировать команду «увеличить насыщенность области неба на 20%».
Во-вторых, он использует MLLM для создания визуального воображения, то есть скрытого представления желаемых изменений. Это представление отражает суть редактирования и может использоваться для управления операциями на уровне пикселей. MGIE использует новую схему сквозного обучения, которая совместно оптимизирует модули вывода инструкций, визуального воображения и редактирования изображений.
Особенности МГИЭ
MGIE может обрабатывать различные ситуации редактирования: от простой настройки цвета до сложных манипуляций с объектами. Модель также может выполнять глобальное и локальное редактирование в зависимости от предпочтений пользователя. Некоторые особенности и функциональные возможности MGIE включают в себя:
-
Выразительное редактирование на основе инструкций: MGIE может генерировать краткие и четкие инструкции для эффективного управления процессом редактирования. Это не только улучшает качество редактирования, но и улучшает общий пользовательский опыт.
-
Редактирование стилей Photoshop: MGIE может выполнять стандартное редактирование в стиле Photoshop, такое как обрезка, изменение размера, вращение, переворачивание и добавление фильтров. В макете также можно применять более сложные изменения, такие как изменение фона, добавление или удаление объектов и смешивание изображений.
Новости недели
[embed]https://www.youtube.com/watch?v=aiR5xlf63ZM[/embed] -
Глобальная оптимизация фотографий: MGIE может оптимизировать общее качество ваших фотографий, например яркость, контрастность, резкость и цветовой баланс. Модель также может применять художественные эффекты, такие как рисование, рисование и карикатура.
-
Локальное редактирование: MGIE может редактировать определенные области или объекты изображения, такие как лицо, глаза, волосы, одежда и аксессуары. Модель также может изменять свойства этих областей или объектов, такие как форма, размер, цвет, текстура и стиль.
MGIE — проект с открытым исходным кодом на GitHub. Пользователи могут найти код, данные и предварительно обученные модели. здесь. Проект также предоставляет демонстрационный блокнот, показывающий, как использовать MGIE для выполнения различных задач редактирования.
Последствия и перспективы на будущее
Выпуск MGIE подчеркивает растущее мастерство Apple в исследованиях и разработках в области искусственного интеллекта. Этот новый инструмент не только имеет практическое применение для личных и профессиональных целей редактирования изображений, таких как социальные сети, электронная коммерция, образование, развлечения и искусство, но также представляет собой значительный прогресс в области мультимодального искусственного интеллекта. Открытый исходный код модели и ее доступность на таких платформах, как GitHub и Hugging Face Spaces, указывают на ее потенциал для дальнейших исследований и разработок за пределами ее текущего состояния.
Заключительные слова
В заключение отметим, что недавний выпуск Apple модели MGIE (MLLM-Guided Image Editing) знаменует собой важную веху в области искусственного интеллекта и редактирования изображений. Используя возможности мультимодальных моделей большого языка (MLLM), MGIE позволяет пользователям выполнять сложные задачи редактирования изображений с помощью инструкций на естественном языке. Этот инновационный подход, разработанный в сотрудничестве с исследователями из Калифорнийского университета в Санта-Барбаре, демонстрирует стремление Apple продвигать технологии искусственного интеллекта и их практическое применение.
Интеграция MLLM в процесс редактирования изображений не только улучшает пользовательский опыт, но и открывает новые возможности для творческого самовыражения и производительности. Способность MGIE понимать и выполнять сложные команды редактирования, от простой настройки цвета до сложных манипуляций с объектами, устанавливает новый стандарт для инструментов редактирования изображений на основе искусственного интеллекта. Кроме того, его открытый исходный код способствует сотрудничеству и инновациям в исследовательском сообществе, открывая путь для будущих достижений в области мультимодального искусственного интеллекта и методов обработки изображений.
Поскольку MGIE продолжает развиваться и набирать популярность как среди разработчиков, так и среди пользователей, его значение выходит за рамки сценариев личного и профессионального редактирования изображений. Его доступность на таких платформах, как GitHub и Hugging Face Spaces, подчеркивает его потенциал для более широкого применения в различных областях, включая социальные сети, электронную коммерцию, образование, развлечения и цифровое искусство.
По сути, выпуск MGIE подчеркивает стремление Apple расширить границы технологий искусственного интеллекта, одновременно предоставляя пользователям интуитивно понятные и мощные инструменты для творческого самовыражения и визуального повествования. Поскольку инновации, основанные на искусственном интеллекте, продолжают формировать цифровой ландшафт, MGIE является свидетельством преобразующего потенциала совместных исследований и междисциплинарных инноваций в стремлении к технологическому совершенству.
Биография автора
Эфе Удин — опытный технический писатель с более чем семилетним опытом. Он освещает широкий спектр тем в сфере высоких технологий: от отраслевой политики до производительности мобильных телефонов. От мобильных телефонов до планшетов, Efe также внимательно следит за последними достижениями и тенденциями. Он предоставляет глубокий анализ и обзоры, чтобы информировать и обучать читателей. Эфе очень увлечен технологиями и рассказывает интересные истории, а также предлагает решения, где это возможно.