Com dois cliques do mouse, o objeto pode ser "transmitido" perfeitamente para a cena da foto, e o ângulo de luz e a perspectiva também podem ser adaptados automaticamente.
A versão AI de Ali e HKU de "Any Gate" realiza a incorporação de imagem de amostra zero.
Com ele, as roupas de compras online também podem ver diretamente o efeito da parte superior do corpo.
Como a função é muito semelhante a qualquer porta, a equipe de P&D a chamou de AnyDoor.
AnyDoor pode teletransportar vários objetos ao mesmo tempo.
Não apenas isso, mas também pode mover objetos existentes na imagem.
Alguns internautas admiraram depois de assistir, talvez ele evolua para (passar objetos para) vídeo a seguir.
Efeito realista de geração de amostra zero
Comparado com modelos semelhantes existentes, o AnyDoor tem a capacidade de operação de amostra zero e não há necessidade de ajustar o modelo para itens específicos.
Além desses modelos que requerem ajuste de parâmetros, o AnyDoor também é mais preciso que os outros modelos Reference.
Na verdade, outros modelos de classe Reference podem apenas manter a consistência semântica.
Em termos leigos, se o objeto a ser transmitido for um gato, outros modelos podem apenas garantir que haja também um gato no resultado, mas a semelhança não pode ser garantida.
Podemos também ampliar o efeito de AnyDoor, não podemos ver nenhuma falha?
Os resultados das avaliações dos usuários também confirmam que o AnyDoor supera os modelos existentes em qualidade e precisão (em 4 pontos).
Para o movimento, transposição e até mudança de postura de objetos em imagens existentes, o AnyDoor também pode ter um bom desempenho.
Então, como o AnyDoor consegue essas funções?
princípio de trabalho
Para realizar a transmissão de um objeto, ele deve primeiro ser extraído.
No entanto, antes de alimentar a imagem que contém o objeto de destino para o extrator, o AnyDoor primeiro executa a remoção do plano de fundo.
Em seguida, o AnyDoor executará a extração auto-supervisionada do objeto e o converterá em token.
O codificador usado nesta etapa é projetado com base no melhor modelo autossupervisionado atual DINO-V2.
Para se adaptar às mudanças de ângulo e luz, além de extrair as características gerais do item, informações adicionais de detalhes precisam ser extraídas.
Nesta etapa, a fim de evitar restrições excessivas, a equipe projetou uma forma de representar informações de feições com mapas de alta frequência.
Convoluindo a imagem de destino com um filtro passa-alto, como um operador de Sobel, pode-se obter uma imagem com detalhes de alta frequência.
Ao mesmo tempo, o AnyDoor usa o Hadamard para extrair as informações de cores RGB da imagem.
A combinação dessas informações com uma máscara que filtra informações de borda produz um HF-Map que contém apenas detalhes de alta frequência.
A última etapa é injetar essas informações.
Usando o token obtido, o AnyDoor sintetiza a imagem por meio do modelo de gráfico de Vinsen.
Especificamente, AnyDoor usa difusão estável com ControlNet.
O fluxo de trabalho do AnyDoor é mais ou menos assim. Em termos de treinamento, também existem algumas estratégias especiais.
###### △O conjunto de dados de treinamento usado por AnyDoor
Embora o AnyDoor tenha como alvo imagens estáticas, parte dos dados usados para treinamento são extraídos de vídeos.
Para o mesmo objeto, imagens com fundos diferentes podem ser extraídas do vídeo.
Os dados de treinamento do AnyDoor são formados separando o objeto do fundo e marcando o par.
Mas, embora os dados de vídeo sejam bons para o aprendizado, há problemas de qualidade que precisam ser resolvidos.
Portanto, a equipe projetou uma estratégia adaptativa de amostragem de etapas de tempo para coletar informações detalhadas e de mudança em momentos diferentes.
A partir dos resultados dos experimentos de ablação, pode-se ver que, com a adição dessas estratégias, os escores CLIP e DINO aumentaram gradualmente.
Perfil da Equipe
O primeiro autor do artigo é Xi Chen, estudante de doutorado na Universidade de Hong Kong, que costumava ser engenheiro de algoritmos do Alibaba Group.
O supervisor de Chen Xi, Hengshuang Zhao, é o autor correspondente deste artigo. Seus campos de pesquisa incluem visão de máquina e aprendizado de máquina.
Além disso, pesquisadores da Alibaba DAMO Academy e Cainiao Group também participaram deste projeto.
Endereço de papel:
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O "Visual AI Any Door" da HKU-Alibaba pode transmitir objetos perfeitamente para a cena com um clique
Fonte: Qubit See More
Com dois cliques do mouse, o objeto pode ser "transmitido" perfeitamente para a cena da foto, e o ângulo de luz e a perspectiva também podem ser adaptados automaticamente.
A versão AI de Ali e HKU de "Any Gate" realiza a incorporação de imagem de amostra zero.
Com ele, as roupas de compras online também podem ver diretamente o efeito da parte superior do corpo.
AnyDoor pode teletransportar vários objetos ao mesmo tempo.
Efeito realista de geração de amostra zero
Comparado com modelos semelhantes existentes, o AnyDoor tem a capacidade de operação de amostra zero e não há necessidade de ajustar o modelo para itens específicos.
Na verdade, outros modelos de classe Reference podem apenas manter a consistência semântica.
Em termos leigos, se o objeto a ser transmitido for um gato, outros modelos podem apenas garantir que haja também um gato no resultado, mas a semelhança não pode ser garantida.
Para o movimento, transposição e até mudança de postura de objetos em imagens existentes, o AnyDoor também pode ter um bom desempenho.
princípio de trabalho
No entanto, antes de alimentar a imagem que contém o objeto de destino para o extrator, o AnyDoor primeiro executa a remoção do plano de fundo.
Em seguida, o AnyDoor executará a extração auto-supervisionada do objeto e o converterá em token.
O codificador usado nesta etapa é projetado com base no melhor modelo autossupervisionado atual DINO-V2.
Para se adaptar às mudanças de ângulo e luz, além de extrair as características gerais do item, informações adicionais de detalhes precisam ser extraídas.
Nesta etapa, a fim de evitar restrições excessivas, a equipe projetou uma forma de representar informações de feições com mapas de alta frequência.
Ao mesmo tempo, o AnyDoor usa o Hadamard para extrair as informações de cores RGB da imagem.
A combinação dessas informações com uma máscara que filtra informações de borda produz um HF-Map que contém apenas detalhes de alta frequência.
Usando o token obtido, o AnyDoor sintetiza a imagem por meio do modelo de gráfico de Vinsen.
Especificamente, AnyDoor usa difusão estável com ControlNet.
O fluxo de trabalho do AnyDoor é mais ou menos assim. Em termos de treinamento, também existem algumas estratégias especiais.
Embora o AnyDoor tenha como alvo imagens estáticas, parte dos dados usados para treinamento são extraídos de vídeos.
Os dados de treinamento do AnyDoor são formados separando o objeto do fundo e marcando o par.
Mas, embora os dados de vídeo sejam bons para o aprendizado, há problemas de qualidade que precisam ser resolvidos.
Portanto, a equipe projetou uma estratégia adaptativa de amostragem de etapas de tempo para coletar informações detalhadas e de mudança em momentos diferentes.
A partir dos resultados dos experimentos de ablação, pode-se ver que, com a adição dessas estratégias, os escores CLIP e DINO aumentaram gradualmente.
Perfil da Equipe
O primeiro autor do artigo é Xi Chen, estudante de doutorado na Universidade de Hong Kong, que costumava ser engenheiro de algoritmos do Alibaba Group.
O supervisor de Chen Xi, Hengshuang Zhao, é o autor correspondente deste artigo. Seus campos de pesquisa incluem visão de máquina e aprendizado de máquina.
Além disso, pesquisadores da Alibaba DAMO Academy e Cainiao Group também participaram deste projeto.
Endereço de papel: