من خلال نقرتين بالماوس ، يمكن "نقل" الكائن بسلاسة إلى مشهد الصورة ، ويمكن أيضًا تكييف زاوية الضوء والمنظور تلقائيًا.
تدرك نسخة الذكاء الاصطناعي الخاصة بعلي و HKU من "Any Gate" تضمين صورة عينة صفرية.
مع ذلك ، يمكن لملابس التسوق عبر الإنترنت أن ترى تأثير الجزء العلوي من الجسم مباشرة.
نظرًا لأن الوظيفة تشبه إلى حد كبير أي باب ، أطلق عليها فريق البحث والتطوير اسم AnyDoor.
يمكن لـ AnyDoor نقل كائنات متعددة في وقت واحد.
ليس ذلك فحسب ، بل يمكنه أيضًا نقل الكائنات الموجودة في الصورة.
أعجب بعض مستخدمي الإنترنت بعد مشاهدته ، وربما يتطور إلى (تمرير الأشياء إلى) الفيديو التالي.
** توليد عينة صفرية تأثير واقعي **
بالمقارنة مع النماذج المماثلة الحالية ، يتمتع AnyDoor بالقدرة على تشغيل العينة الصفرية ، ولا توجد حاجة لضبط النموذج لعناصر محددة.
بالإضافة إلى هذه النماذج التي تتطلب تعديل المعلمة ، يعد AnyDoor أيضًا أكثر دقة من النماذج المرجعية الأخرى.
في الواقع ، يمكن لنماذج الفئة المرجعية الأخرى الحفاظ على الاتساق الدلالي فقط.
من منظور الشخص العادي ، إذا كان الكائن المراد نقله قطة ، فإن النماذج الأخرى يمكنها فقط ضمان وجود قطة أيضًا في النتيجة ، ولكن لا يمكن ضمان التشابه.
قد نقوم أيضًا بتكبير تأثير AnyDoor ، ألا يمكننا رؤية أي عيوب؟
تؤكد نتائج مراجعات المستخدمين أيضًا أن AnyDoor يتفوق على النماذج الحالية من حيث الجودة والدقة (من 4 نقاط).
بالنسبة للحركة ، والتبديل ، وحتى تغيير وضع الكائنات في الصور الموجودة ، يمكن أن يؤدي AnyDoor أيضًا أداءً جيدًا.
لذا ، كيف يحقق AnyDoor هذه الوظائف؟
مبدأ العمل
من أجل إدراك انتقال الشيء ، يجب أولاً استخراجه.
ومع ذلك ، قبل تغذية الصورة التي تحتوي على الكائن المستهدف للمستخرج ، يقوم AnyDoor أولاً بإزالة الخلفية عليها.
بعد ذلك ، سيقوم AnyDoor بإجراء استخراج كائن تحت الإشراف الذاتي وتحويله إلى رمز مميز.
تم تصميم برنامج التشفير المستخدم في هذه الخطوة بناءً على أفضل طراز يتم الإشراف عليه ذاتيًا حاليًا DINO-V2.
من أجل التكيف مع التغييرات في الزاوية والضوء ، بالإضافة إلى استخراج الميزات العامة للعنصر ، يجب استخراج معلومات تفصيلية إضافية.
في هذه الخطوة ، لتجنب القيود المفرطة ، صمم الفريق طريقة لتمثيل معلومات الميزة باستخدام خرائط عالية التردد.
من خلال تحويل الصورة المستهدفة باستخدام مرشح تمرير عالي مثل مشغل Sobel ، يمكن الحصول على صورة بتفاصيل عالية التردد.
في نفس الوقت ، يستخدم AnyDoor Hadamard لاستخراج معلومات ألوان RGB في الصورة.
يؤدي دمج هذه المعلومات مع قناع يقوم بتصفية معلومات الحافة إلى إنتاج خريطة HF تحتوي فقط على تفاصيل عالية التردد.
الخطوة الأخيرة هي حقن هذه المعلومات.
باستخدام الرمز الذي تم الحصول عليه ، يقوم AnyDoor بتجميع الصورة من خلال نموذج الرسم البياني Vinsen.
على وجه التحديد ، يستخدم AnyDoor الانتشار المستقر مع ControlNet.
سير عمل AnyDoor يشبه هذا تقريبًا. فيما يتعلق بالتدريب ، هناك أيضًا بعض الاستراتيجيات الخاصة.
###### ** △ ** مجموعة بيانات التدريب التي يستخدمها AnyDoor
على الرغم من أن أهداف AnyDoor لا تزال صورًا ، إلا أن جزءًا من البيانات المستخدمة للتدريب يتم استخراجه من مقاطع الفيديو.
لنفس الكائن ، يمكن استخراج الصور التي تحتوي على خلفيات مختلفة من الفيديو.
يتم تكوين بيانات التدريب الخاصة بـ AnyDoor عن طريق فصل الكائن عن الخلفية وتمييز الزوج.
ولكن في حين أن بيانات الفيديو مفيدة للتعلم ، إلا أن هناك مشكلات تتعلق بالجودة يجب معالجتها.
لذلك صمم الفريق إستراتيجية تكيفية لأخذ عينات من خطوة زمنية لجمع معلومات التغيير والتفصيل في أوقات مختلفة.
من نتائج تجارب الاجتثاث ، يمكن ملاحظة أنه مع إضافة هذه الاستراتيجيات ، زادت درجات CLIP و DINO تدريجيًا.
** الملف الشخصي للفريق **
المؤلف الأول للورقة هو Xi Chen ، طالب الدكتوراه في جامعة هونغ كونغ ، والذي اعتاد أن يكون مهندس خوارزميات في Alibaba Group.
المشرف على Chen Xi ، Hengshuang Zhao ، هو المؤلف المقابل لهذه الورقة ، وتشمل مجالات بحثه الرؤية الآلية والتعلم الآلي.
بالإضافة إلى ذلك ، شارك باحثون من Alibaba DAMO Academy و Cainiao Group أيضًا في هذا المشروع.
عنوان الورق:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
يمكن لبرنامج "Visual AI Any Door" الخاص بـ HKU-Alibaba نقل الأشياء بسلاسة إلى المشهد بنقرة واحدة
المصدر: Qubit
من خلال نقرتين بالماوس ، يمكن "نقل" الكائن بسلاسة إلى مشهد الصورة ، ويمكن أيضًا تكييف زاوية الضوء والمنظور تلقائيًا.
تدرك نسخة الذكاء الاصطناعي الخاصة بعلي و HKU من "Any Gate" تضمين صورة عينة صفرية.
مع ذلك ، يمكن لملابس التسوق عبر الإنترنت أن ترى تأثير الجزء العلوي من الجسم مباشرة.
يمكن لـ AnyDoor نقل كائنات متعددة في وقت واحد.
** توليد عينة صفرية تأثير واقعي **
بالمقارنة مع النماذج المماثلة الحالية ، يتمتع AnyDoor بالقدرة على تشغيل العينة الصفرية ، ولا توجد حاجة لضبط النموذج لعناصر محددة.
في الواقع ، يمكن لنماذج الفئة المرجعية الأخرى الحفاظ على الاتساق الدلالي فقط.
من منظور الشخص العادي ، إذا كان الكائن المراد نقله قطة ، فإن النماذج الأخرى يمكنها فقط ضمان وجود قطة أيضًا في النتيجة ، ولكن لا يمكن ضمان التشابه.
بالنسبة للحركة ، والتبديل ، وحتى تغيير وضع الكائنات في الصور الموجودة ، يمكن أن يؤدي AnyDoor أيضًا أداءً جيدًا.
مبدأ العمل
ومع ذلك ، قبل تغذية الصورة التي تحتوي على الكائن المستهدف للمستخرج ، يقوم AnyDoor أولاً بإزالة الخلفية عليها.
بعد ذلك ، سيقوم AnyDoor بإجراء استخراج كائن تحت الإشراف الذاتي وتحويله إلى رمز مميز.
تم تصميم برنامج التشفير المستخدم في هذه الخطوة بناءً على أفضل طراز يتم الإشراف عليه ذاتيًا حاليًا DINO-V2.
من أجل التكيف مع التغييرات في الزاوية والضوء ، بالإضافة إلى استخراج الميزات العامة للعنصر ، يجب استخراج معلومات تفصيلية إضافية.
في هذه الخطوة ، لتجنب القيود المفرطة ، صمم الفريق طريقة لتمثيل معلومات الميزة باستخدام خرائط عالية التردد.
في نفس الوقت ، يستخدم AnyDoor Hadamard لاستخراج معلومات ألوان RGB في الصورة.
يؤدي دمج هذه المعلومات مع قناع يقوم بتصفية معلومات الحافة إلى إنتاج خريطة HF تحتوي فقط على تفاصيل عالية التردد.
باستخدام الرمز الذي تم الحصول عليه ، يقوم AnyDoor بتجميع الصورة من خلال نموذج الرسم البياني Vinsen.
على وجه التحديد ، يستخدم AnyDoor الانتشار المستقر مع ControlNet.
سير عمل AnyDoor يشبه هذا تقريبًا. فيما يتعلق بالتدريب ، هناك أيضًا بعض الاستراتيجيات الخاصة.
على الرغم من أن أهداف AnyDoor لا تزال صورًا ، إلا أن جزءًا من البيانات المستخدمة للتدريب يتم استخراجه من مقاطع الفيديو.
يتم تكوين بيانات التدريب الخاصة بـ AnyDoor عن طريق فصل الكائن عن الخلفية وتمييز الزوج.
ولكن في حين أن بيانات الفيديو مفيدة للتعلم ، إلا أن هناك مشكلات تتعلق بالجودة يجب معالجتها.
لذلك صمم الفريق إستراتيجية تكيفية لأخذ عينات من خطوة زمنية لجمع معلومات التغيير والتفصيل في أوقات مختلفة.
من نتائج تجارب الاجتثاث ، يمكن ملاحظة أنه مع إضافة هذه الاستراتيجيات ، زادت درجات CLIP و DINO تدريجيًا.
** الملف الشخصي للفريق **
المؤلف الأول للورقة هو Xi Chen ، طالب الدكتوراه في جامعة هونغ كونغ ، والذي اعتاد أن يكون مهندس خوارزميات في Alibaba Group.
المشرف على Chen Xi ، Hengshuang Zhao ، هو المؤلف المقابل لهذه الورقة ، وتشمل مجالات بحثه الرؤية الآلية والتعلم الآلي.
بالإضافة إلى ذلك ، شارك باحثون من Alibaba DAMO Academy و Cainiao Group أيضًا في هذا المشروع.
عنوان الورق: