Двома клацаннями миші об’єкт можна плавно «передати» на фотосцену, а також автоматично адаптувати кут освітлення та перспективу.
ШІ-версія «Any Gate» Алі та HKU реалізує вбудовування зображень із нульовою вибіркою.
З його допомогою онлайн-магазини одягу також можуть безпосередньо побачити ефект верхньої частини тіла.
Оскільки функція дуже схожа на будь-які двері, команда дослідників і розробників назвала їх AnyDoor.
AnyDoor може телепортувати кілька об'єктів одночасно.
Мало того, він також може переміщувати існуючі об’єкти на зображенні.
Переглянувши це, деякі користувачі мережі захоплювалися тим, що, можливо, згодом воно перетвориться на (передаючи об’єкти) відео.
Реалістичний ефект створення нульової вибірки
У порівнянні з існуючими аналогічними моделями, AnyDoor має можливість роботи з нульовою вибіркою, і немає необхідності налаштовувати модель для конкретних елементів.
На додаток до цих моделей, які вимагають налаштування параметрів, AnyDoor також більш точна, ніж інші еталонні моделі.
Насправді інші моделі класів Reference можуть підтримувати лише семантичну узгодженість.
З точки зору неспеціаліста, якщо об’єктом, який потрібно передати, є кіт, інші моделі можуть лише гарантувати, що в результаті також є кіт, але подібність не може бути гарантована.
Ми могли б також збільшити масштаб ефекту AnyDoor, хіба ми не можемо побачити недоліки?
Результати відгуків користувачів також підтверджують, що AnyDoor перевершує існуючі моделі як за якістю, так і за точністю (із 4 балів).
Для переміщення, транспонування та навіть зміни положення об’єктів на існуючих зображеннях AnyDoor також може добре працювати.
Отже, як AnyDoor досягає цих функцій?
принцип роботи
Щоб здійснити передачу об’єкта, його потрібно спочатку витягти.
Однак перед подачею зображення, що містить цільовий об’єкт, до екстрактора AnyDoor спершу виконує для нього видалення фону.
Потім AnyDoor виконає самоконтрольоване вилучення об’єкта та перетворить його на маркер.
Кодер, який використовується на цьому етапі, розроблено на основі найкращої на даний момент моделі DINO-V2 із самоконтролем.
Для того, щоб адаптуватися до змін кута й світла, окрім вилучення загальних характеристик об’єкта, необхідно витягнути додаткову детальну інформацію.
На цьому кроці, щоб уникнути надмірних обмежень, команда розробила спосіб представлення інформації про функції за допомогою високочастотних карт.
Згортаючи цільове зображення за допомогою високочастотного фільтра, такого як оператор Собеля, можна отримати зображення з високочастотними деталями.
У той же час AnyDoor використовує Hadamard для отримання інформації про колір RGB із зображення.
Поєднання цієї інформації з маскою, яка фільтрує інформацію про край, дає HF-карту, яка містить лише високочастотні деталі.
Останнім кроком є введення цієї інформації.
Використовуючи отриманий токен, AnyDoor синтезує зображення через модель графа Вінсена.
Зокрема, AnyDoor використовує Stable Diffusion з ControlNet.
Робочий процес AnyDoor виглядає приблизно так. Що стосується тренувань, також є деякі спеціальні стратегії.
###### △Набір навчальних даних, який використовує AnyDoor
Хоча AnyDoor націлений на нерухомі зображення, частина даних, які використовуються для навчання, витягується з відео.
Для того самого об’єкта з відео можна витягти зображення з різним фоном.
Навчальні дані AnyDoor формуються шляхом відділення об'єкта від фону та позначення пари.
Але хоча відеодані корисні для навчання, є проблеми з якістю, які потрібно вирішити.
Тож команда розробила адаптивну стратегію вибірки за часом для збору змін і детальної інформації в різний час.
З результатів експериментів з абляції можна побачити, що з додаванням цих стратегій показники CLIP і DINO поступово збільшувалися.
Профіль команди
Першим автором статті є Сі Чен, докторант Університету Гонконгу, який раніше працював інженером-алгоритмістом у Alibaba Group.
Керівник Chen Xi, Hengshuang Zhao, є відповідним автором цієї статті. Його сфери досліджень включають машинне зір і машинне навчання.
Крім того, в цьому проекті брали участь дослідники з Alibaba DAMO Academy і Cainiao Group.
Адреса паперу:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
«Візуальний штучний інтелект будь-які двері» від HKU-Alibaba може легко передавати об’єкти на сцену одним клацанням миші
Джерело: Qubit
Двома клацаннями миші об’єкт можна плавно «передати» на фотосцену, а також автоматично адаптувати кут освітлення та перспективу.
ШІ-версія «Any Gate» Алі та HKU реалізує вбудовування зображень із нульовою вибіркою.
З його допомогою онлайн-магазини одягу також можуть безпосередньо побачити ефект верхньої частини тіла.
AnyDoor може телепортувати кілька об'єктів одночасно.
Реалістичний ефект створення нульової вибірки
У порівнянні з існуючими аналогічними моделями, AnyDoor має можливість роботи з нульовою вибіркою, і немає необхідності налаштовувати модель для конкретних елементів.
Насправді інші моделі класів Reference можуть підтримувати лише семантичну узгодженість.
З точки зору неспеціаліста, якщо об’єктом, який потрібно передати, є кіт, інші моделі можуть лише гарантувати, що в результаті також є кіт, але подібність не може бути гарантована.
Для переміщення, транспонування та навіть зміни положення об’єктів на існуючих зображеннях AnyDoor також може добре працювати.
принцип роботи
Однак перед подачею зображення, що містить цільовий об’єкт, до екстрактора AnyDoor спершу виконує для нього видалення фону.
Потім AnyDoor виконає самоконтрольоване вилучення об’єкта та перетворить його на маркер.
Кодер, який використовується на цьому етапі, розроблено на основі найкращої на даний момент моделі DINO-V2 із самоконтролем.
Для того, щоб адаптуватися до змін кута й світла, окрім вилучення загальних характеристик об’єкта, необхідно витягнути додаткову детальну інформацію.
На цьому кроці, щоб уникнути надмірних обмежень, команда розробила спосіб представлення інформації про функції за допомогою високочастотних карт.
У той же час AnyDoor використовує Hadamard для отримання інформації про колір RGB із зображення.
Поєднання цієї інформації з маскою, яка фільтрує інформацію про край, дає HF-карту, яка містить лише високочастотні деталі.
Використовуючи отриманий токен, AnyDoor синтезує зображення через модель графа Вінсена.
Зокрема, AnyDoor використовує Stable Diffusion з ControlNet.
Робочий процес AnyDoor виглядає приблизно так. Що стосується тренувань, також є деякі спеціальні стратегії.
Хоча AnyDoor націлений на нерухомі зображення, частина даних, які використовуються для навчання, витягується з відео.
Навчальні дані AnyDoor формуються шляхом відділення об'єкта від фону та позначення пари.
Але хоча відеодані корисні для навчання, є проблеми з якістю, які потрібно вирішити.
Тож команда розробила адаптивну стратегію вибірки за часом для збору змін і детальної інформації в різний час.
З результатів експериментів з абляції можна побачити, що з додаванням цих стратегій показники CLIP і DINO поступово збільшувалися.
Профіль команди
Першим автором статті є Сі Чен, докторант Університету Гонконгу, який раніше працював інженером-алгоритмістом у Alibaba Group.
Керівник Chen Xi, Hengshuang Zhao, є відповідним автором цієї статті. Його сфери досліджень включають машинне зір і машинне навчання.
Крім того, в цьому проекті брали участь дослідники з Alibaba DAMO Academy і Cainiao Group.
Адреса паперу: