Con dos clics del mouse, el objeto se puede "transmitir" sin problemas a la escena de la foto, y el ángulo de luz y la perspectiva también se pueden adaptar automáticamente.
La versión AI de Ali y HKU de "Any Gate" realiza la incrustación de imágenes de muestra cero.
Con él, la ropa de compras en línea también puede ver directamente el efecto de la parte superior del cuerpo.
Debido a que la función es muy similar a la de cualquier puerta, el equipo de I+D la denominó AnyDoor.
AnyDoor puede teletransportar varios objetos a la vez.
No solo eso, sino que también puede mover objetos existentes en la imagen.
Algunos internautas admiraron después de verlo, tal vez evolucione a (pasar objetos a) video a continuación.
Efecto realista de generación de muestra cero
En comparación con modelos similares existentes, AnyDoor tiene la capacidad de operación de muestra cero y no es necesario ajustar el modelo para artículos específicos.
Además de estos modelos que requieren ajuste de parámetros, AnyDoor también es más preciso que otros modelos de referencia.
De hecho, otros modelos de clase de referencia solo pueden mantener la coherencia semántica.
En términos simples, si el objeto a transmitir es un gato, otros modelos solo pueden garantizar que también hay un gato en el resultado, pero no se puede garantizar la similitud.
También podríamos acercarnos al efecto de AnyDoor, ¿no podemos ver ningún defecto?
Los resultados de las reseñas de los usuarios también confirman que AnyDoor supera a los modelos existentes tanto en calidad como en precisión (de 4 puntos).
Para el movimiento, la transposición e incluso el cambio de postura de objetos en imágenes existentes, AnyDoor también puede funcionar bien.
Entonces, ¿cómo logra AnyDoor estas funciones?
principio de funcionamiento
Para realizar la transmisión de un objeto, primero se debe extraer.
Sin embargo, antes de enviar la imagen que contiene el objeto de destino al extractor, AnyDoor primero elimina el fondo.
Luego, AnyDoor realizará una extracción de objetos autosupervisada y la convertirá en un token.
El codificador utilizado en este paso está diseñado en base al mejor modelo actual autosupervisado DINO-V2.
Para adaptarse a los cambios de ángulo y luz, además de extraer las características generales del artículo, es necesario extraer información detallada adicional.
En este paso, para evitar restricciones excesivas, el equipo diseñó una forma de representar la información de las características con mapas de alta frecuencia.
Convolucionando la imagen de destino con un filtro de paso alto, como un operador de Sobel, se puede obtener una imagen con detalles de alta frecuencia.
Al mismo tiempo, AnyDoor utiliza Hadamard para extraer la información de color RGB de la imagen.
La combinación de esta información con una máscara que filtra la información de los bordes produce un mapa HF que contiene solo detalles de alta frecuencia.
El último paso es inyectar esta información.
Utilizando el token obtenido, AnyDoor sintetiza la imagen a través del modelo gráfico de Vinsen.
Específicamente, AnyDoor usa Stable Diffusion con ControlNet.
El flujo de trabajo de AnyDoor es más o menos así. En términos de entrenamiento, también hay algunas estrategias especiales.
###### △El conjunto de datos de entrenamiento utilizado por AnyDoor
Aunque AnyDoor apunta a imágenes fijas, parte de los datos utilizados para el entrenamiento se extrae de videos.
Para el mismo objeto, se pueden extraer del video imágenes que contienen diferentes fondos.
Los datos de entrenamiento de AnyDoor se forman separando el objeto del fondo y marcando el par.
Pero si bien los datos de video son buenos para el aprendizaje, hay problemas de calidad que deben abordarse.
Por lo tanto, el equipo diseñó una estrategia de muestreo adaptativa de pasos de tiempo para recopilar cambios e información detallada en diferentes momentos.
A partir de los resultados de los experimentos de ablación, se puede ver que con la adición de estas estrategias, las puntuaciones CLIP y DINO aumentaron gradualmente.
Perfil del equipo
El primer autor del artículo es Xi Chen, estudiante de doctorado en la Universidad de Hong Kong, que solía ser ingeniero de algoritmos en Alibaba Group.
El supervisor de Chen Xi, Hengshuang Zhao, es el autor correspondiente de este artículo. Sus campos de investigación incluyen la visión artificial y el aprendizaje automático.
Además, investigadores de Alibaba DAMO Academy y Cainiao Group también participaron en este proyecto.
Dirección en papel:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
"Visual AI Any Door" de HKU-Alibaba puede transmitir objetos a la escena sin problemas con un solo clic
Fuente: Qubit
Con dos clics del mouse, el objeto se puede "transmitir" sin problemas a la escena de la foto, y el ángulo de luz y la perspectiva también se pueden adaptar automáticamente.
La versión AI de Ali y HKU de "Any Gate" realiza la incrustación de imágenes de muestra cero.
Con él, la ropa de compras en línea también puede ver directamente el efecto de la parte superior del cuerpo.
AnyDoor puede teletransportar varios objetos a la vez.
Efecto realista de generación de muestra cero
En comparación con modelos similares existentes, AnyDoor tiene la capacidad de operación de muestra cero y no es necesario ajustar el modelo para artículos específicos.
De hecho, otros modelos de clase de referencia solo pueden mantener la coherencia semántica.
En términos simples, si el objeto a transmitir es un gato, otros modelos solo pueden garantizar que también hay un gato en el resultado, pero no se puede garantizar la similitud.
Para el movimiento, la transposición e incluso el cambio de postura de objetos en imágenes existentes, AnyDoor también puede funcionar bien.
principio de funcionamiento
Sin embargo, antes de enviar la imagen que contiene el objeto de destino al extractor, AnyDoor primero elimina el fondo.
Luego, AnyDoor realizará una extracción de objetos autosupervisada y la convertirá en un token.
El codificador utilizado en este paso está diseñado en base al mejor modelo actual autosupervisado DINO-V2.
Para adaptarse a los cambios de ángulo y luz, además de extraer las características generales del artículo, es necesario extraer información detallada adicional.
En este paso, para evitar restricciones excesivas, el equipo diseñó una forma de representar la información de las características con mapas de alta frecuencia.
Al mismo tiempo, AnyDoor utiliza Hadamard para extraer la información de color RGB de la imagen.
La combinación de esta información con una máscara que filtra la información de los bordes produce un mapa HF que contiene solo detalles de alta frecuencia.
Utilizando el token obtenido, AnyDoor sintetiza la imagen a través del modelo gráfico de Vinsen.
Específicamente, AnyDoor usa Stable Diffusion con ControlNet.
El flujo de trabajo de AnyDoor es más o menos así. En términos de entrenamiento, también hay algunas estrategias especiales.
Aunque AnyDoor apunta a imágenes fijas, parte de los datos utilizados para el entrenamiento se extrae de videos.
Los datos de entrenamiento de AnyDoor se forman separando el objeto del fondo y marcando el par.
Pero si bien los datos de video son buenos para el aprendizaje, hay problemas de calidad que deben abordarse.
Por lo tanto, el equipo diseñó una estrategia de muestreo adaptativa de pasos de tiempo para recopilar cambios e información detallada en diferentes momentos.
A partir de los resultados de los experimentos de ablación, se puede ver que con la adición de estas estrategias, las puntuaciones CLIP y DINO aumentaron gradualmente.
Perfil del equipo
El primer autor del artículo es Xi Chen, estudiante de doctorado en la Universidad de Hong Kong, que solía ser ingeniero de algoritmos en Alibaba Group.
El supervisor de Chen Xi, Hengshuang Zhao, es el autor correspondiente de este artículo. Sus campos de investigación incluyen la visión artificial y el aprendizaje automático.
Además, investigadores de Alibaba DAMO Academy y Cainiao Group también participaron en este proyecto.
Dirección en papel: