En deux clics de souris, l'objet peut être "transmis" de manière transparente à la scène photo, et l'angle d'éclairage et la perspective peuvent également être automatiquement adaptés.
La version IA d'Ali et HKU de "Any Gate" réalise l'intégration d'images sans échantillon.
Avec lui, les vêtements d'achat en ligne peuvent également voir directement l'effet du haut du corps.
Parce que la fonction est très similaire à n'importe quelle porte, l'équipe R&D l'a nommée AnyDoor.
AnyDoor peut téléporter plusieurs objets à la fois.
Non seulement cela, mais il peut également déplacer des objets existants dans l'image.
Certains internautes ont admiré après l'avoir regardé, peut-être qu'il évoluera vers (passer des objets dans) la vidéo ensuite.
Effet réaliste de génération d'échantillon zéro
Par rapport aux modèles similaires existants, AnyDoor a la capacité de fonctionner sans échantillon, et il n'est pas nécessaire d'ajuster le modèle pour des éléments spécifiques.
En plus de ces modèles qui nécessitent un ajustement des paramètres, AnyDoor est également plus précis que les autres modèles de référence.
En fait, les autres modèles de classe Reference ne peuvent maintenir que la cohérence sémantique.
En termes simples, si l'objet à transmettre est un chat, d'autres modèles peuvent seulement garantir qu'il y a aussi un chat dans le résultat, mais la similitude ne peut pas être garantie.
Autant zoomer sur l'effet d'AnyDoor, ne voit-on pas de défauts ?
Les résultats des avis des utilisateurs confirment également qu'AnyDoor surpasse les modèles existants en termes de qualité et de précision (sur 4 points).
Pour le mouvement, la transposition et même le changement de posture des objets dans les images existantes, AnyDoor peut également bien fonctionner.
Alors, comment AnyDoor réalise-t-il ces fonctions ?
principe de fonctionnement
Pour réaliser la transmission d'un objet, il faut d'abord l'extraire.
Cependant, avant de charger l'image contenant l'objet cible dans l'extracteur, AnyDoor effectue d'abord une suppression d'arrière-plan sur celle-ci.
Ensuite, AnyDoor effectuera une extraction d'objet auto-supervisée et le convertira en jeton.
L'encodeur utilisé dans cette étape est conçu sur la base du meilleur modèle auto-supervisé actuel DINO-V2.
Afin de s'adapter aux changements d'angle et de lumière, en plus d'extraire les caractéristiques générales de l'article, des informations détaillées supplémentaires doivent être extraites.
Dans cette étape, afin d'éviter des contraintes excessives, l'équipe a conçu un moyen de représenter les informations sur les caractéristiques avec des cartes à haute fréquence.
En faisant convoluer l'image cible avec un filtre passe-haut tel qu'un opérateur de Sobel, une image avec des détails haute fréquence peut être obtenue.
Dans le même temps, AnyDoor utilise Hadamard pour extraire les informations de couleur RVB de l'image.
La combinaison de ces informations avec un masque qui filtre les informations de bord donne une carte HF qui ne contient que des détails à haute fréquence.
La dernière étape consiste à injecter ces informations.
En utilisant le jeton obtenu, AnyDoor synthétise l'image à travers le modèle graphique de Vinsen.
Plus précisément, AnyDoor utilise Stable Diffusion avec ControlNet.
Le flux de travail d'AnyDoor ressemble à peu près à ceci. En termes de formation, il existe également des stratégies particulières.
###### △ L'ensemble de données d'entraînement utilisé par AnyDoor
Bien qu'AnyDoor cible les images fixes, une partie des données utilisées pour la formation est extraite des vidéos.
Pour un même objet, des images contenant des arrière-plans différents peuvent être extraites de la vidéo.
Les données d'apprentissage d'AnyDoor sont formées en séparant l'objet de l'arrière-plan et en marquant la paire.
Mais si les données vidéo sont bonnes pour l'apprentissage, il existe des problèmes de qualité qui doivent être résolus.
L'équipe a donc conçu une stratégie d'échantillonnage adaptatif à pas de temps pour collecter des informations sur les changements et les détails à différents moments.
D'après les résultats des expériences d'ablation, on peut voir qu'avec l'ajout de ces stratégies, les scores CLIP et DINO ont progressivement augmenté.
Profil d'équipe
Le premier auteur de l'article est Xi Chen, doctorant à l'Université de Hong Kong, qui était ingénieur en algorithme chez Alibaba Group.
Le superviseur de Chen Xi, Hengshuang Zhao, est l'auteur correspondant de cet article.Ses domaines de recherche incluent la vision et l'apprentissage automatiques.
De plus, des chercheurs de l'Alibaba DAMO Academy et du groupe Cainiao ont également participé à ce projet.
Adresse papier :
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
"Visual AI Any Door" de HKU-Alibaba peut transmettre de manière transparente des objets à la scène en un seul clic
Source : Qubit
En deux clics de souris, l'objet peut être "transmis" de manière transparente à la scène photo, et l'angle d'éclairage et la perspective peuvent également être automatiquement adaptés.
La version IA d'Ali et HKU de "Any Gate" réalise l'intégration d'images sans échantillon.
Avec lui, les vêtements d'achat en ligne peuvent également voir directement l'effet du haut du corps.
AnyDoor peut téléporter plusieurs objets à la fois.
Effet réaliste de génération d'échantillon zéro
Par rapport aux modèles similaires existants, AnyDoor a la capacité de fonctionner sans échantillon, et il n'est pas nécessaire d'ajuster le modèle pour des éléments spécifiques.
En fait, les autres modèles de classe Reference ne peuvent maintenir que la cohérence sémantique.
En termes simples, si l'objet à transmettre est un chat, d'autres modèles peuvent seulement garantir qu'il y a aussi un chat dans le résultat, mais la similitude ne peut pas être garantie.
Pour le mouvement, la transposition et même le changement de posture des objets dans les images existantes, AnyDoor peut également bien fonctionner.
principe de fonctionnement
Cependant, avant de charger l'image contenant l'objet cible dans l'extracteur, AnyDoor effectue d'abord une suppression d'arrière-plan sur celle-ci.
Ensuite, AnyDoor effectuera une extraction d'objet auto-supervisée et le convertira en jeton.
L'encodeur utilisé dans cette étape est conçu sur la base du meilleur modèle auto-supervisé actuel DINO-V2.
Afin de s'adapter aux changements d'angle et de lumière, en plus d'extraire les caractéristiques générales de l'article, des informations détaillées supplémentaires doivent être extraites.
Dans cette étape, afin d'éviter des contraintes excessives, l'équipe a conçu un moyen de représenter les informations sur les caractéristiques avec des cartes à haute fréquence.
Dans le même temps, AnyDoor utilise Hadamard pour extraire les informations de couleur RVB de l'image.
La combinaison de ces informations avec un masque qui filtre les informations de bord donne une carte HF qui ne contient que des détails à haute fréquence.
En utilisant le jeton obtenu, AnyDoor synthétise l'image à travers le modèle graphique de Vinsen.
Plus précisément, AnyDoor utilise Stable Diffusion avec ControlNet.
Le flux de travail d'AnyDoor ressemble à peu près à ceci. En termes de formation, il existe également des stratégies particulières.
Bien qu'AnyDoor cible les images fixes, une partie des données utilisées pour la formation est extraite des vidéos.
Les données d'apprentissage d'AnyDoor sont formées en séparant l'objet de l'arrière-plan et en marquant la paire.
Mais si les données vidéo sont bonnes pour l'apprentissage, il existe des problèmes de qualité qui doivent être résolus.
L'équipe a donc conçu une stratégie d'échantillonnage adaptatif à pas de temps pour collecter des informations sur les changements et les détails à différents moments.
D'après les résultats des expériences d'ablation, on peut voir qu'avec l'ajout de ces stratégies, les scores CLIP et DINO ont progressivement augmenté.
Profil d'équipe
Le premier auteur de l'article est Xi Chen, doctorant à l'Université de Hong Kong, qui était ingénieur en algorithme chez Alibaba Group.
Le superviseur de Chen Xi, Hengshuang Zhao, est l'auteur correspondant de cet article.Ses domaines de recherche incluent la vision et l'apprentissage automatiques.
De plus, des chercheurs de l'Alibaba DAMO Academy et du groupe Cainiao ont également participé à ce projet.
Adresse papier :