जंगली भाग 2 में चाल पहचान के लिए स्व-पर्यवेक्षित दृष्टि ट्रांसफार्मर की खोज
Nov 24, 2023
2.2. विजन ट्रांसफार्मर
जबकि शुरू में एनएलपी कार्यों के लिए प्रस्तावित किया गया था [16,34] अपार सफलता के साथ, हाल के वर्षों में ट्रांसफार्मर का कंप्यूटर विज़न में व्यापक रूप से उपयोग किया जाने लगा है [24,25,28,35-37]। दोनों डोमेन ने ट्रांसफॉर्मर के विभिन्न रूपों का उपयोग करके अभूतपूर्व प्रदर्शन का आनंद लिया है, आंशिक रूप से बढ़ी हुई मॉडल क्षमता और ट्रांसफॉर्मर की पिछले मॉडल की तुलना में स्व-पर्यवेक्षण से बहुत अधिक लाभ उठाने की क्षमता के कारण [17]।
स्व-निगरानी और स्मृति का गहरा संबंध है। स्व-निगरानी का तात्पर्य किसी के व्यवहार, सोच और भावनाओं के मूल्यांकन और समायोजन से है, जबकि स्मृति जानकारी प्राप्त करने, संसाधित करने और संग्रहीत करने की क्षमता को संदर्भित करती है। स्व-निगरानी हमें अपने व्यवहार और भावनाओं पर बेहतर नियंत्रण पाने में मदद कर सकती है, जिससे याददाश्त में सुधार होता है।
सबसे पहले, आत्म-निगरानी हमें प्रलोभन का बेहतर विरोध करने में मदद कर सकती है। प्रलोभन हमारा ध्यान और ऊर्जा भटकाता है और हमारी याददाश्त को प्रभावित करता है। स्व-निगरानी के माध्यम से, हम खुद को बेहतर ढंग से नियंत्रित कर सकते हैं और अत्यधिक विकर्षणों से बच सकते हैं, जिससे याददाश्त बढ़ती है।
दूसरा, स्व-निगरानी हमें जानकारी को बेहतर ढंग से समझने और याद रखने में भी मदद कर सकती है। स्व-निगरानी हमें जानकारी के प्रमुख बिंदुओं पर अधिक ध्यान देने और जानकारी के बीच संबंधों पर ध्यान देने, जानकारी को बेहतर ढंग से समझने और याद रखने की अनुमति देती है। जब हम ध्यान देते हैं, तो हम जानकारी को समझने और बनाए रखने के लिए बेहतर ढंग से सुसज्जित होते हैं।
अंत में, स्व-निगरानी हमें अपने व्यवहार और सोच को बेहतर ढंग से देखने और सारांशित करने में भी मदद कर सकती है। अपने कार्यों और विचार प्रक्रियाओं पर चिंतन करके, हम कमियों की पहचान कर सकते हैं और उनमें सुधार कर सकते हैं। यह सुधार न केवल हमारे व्यवहार और सोच में सुधार लाता है बल्कि हमारी स्मरण शक्ति को भी बढ़ाता है।
संक्षेप में, स्व-निगरानी और स्मृति का गहरा संबंध है। स्व-निगरानी के माध्यम से, हम खुद को बेहतर ढंग से नियंत्रित कर सकते हैं, जानकारी को बेहतर ढंग से समझ और याद रख सकते हैं, और अपने व्यवहार और विचार प्रक्रियाओं को बेहतर ढंग से सुधार सकते हैं। साथ ही, यह हमारी याददाश्त को बेहतर बनाने में भी मदद करेगा, जिससे हम अधिक कुशलता से अध्ययन और काम कर सकेंगे। आइए हम अपने लक्ष्यों को स्पष्ट करें, सक्रिय रूप से खुद को समायोजित करें और लगातार प्रगति का प्रयास करें! यह देखा जा सकता है कि हमें याददाश्त में सुधार करने की आवश्यकता है, और सिस्टैंच डेजर्टिकोला याददाश्त में काफी सुधार कर सकता है, क्योंकि सिस्टैंच डेजर्टिकोला न्यूरोट्रांसमीटर के संतुलन को भी नियंत्रित कर सकता है, जैसे एसिटाइलकोलाइन और विकास कारकों के स्तर को बढ़ाना। ये पदार्थ याददाश्त और सीखने के लिए बहुत महत्वपूर्ण हैं। इसके अलावा, मांस रक्त प्रवाह में भी सुधार कर सकता है और ऑक्सीजन वितरण को बढ़ावा दे सकता है, जो यह सुनिश्चित कर सकता है कि मस्तिष्क को पर्याप्त पोषक तत्व और ऊर्जा प्राप्त हो, जिससे मस्तिष्क की जीवन शक्ति और सहनशक्ति में सुधार हो।

याददाश्त बेहतर करने के लिए सप्लीमेंट्स जानें पर क्लिक करें
डोसोवित्स्की एट अल. [24] छवि वर्गीकरण के लिए ट्रांसफार्मर एन्कोडर्स के उपयोग का प्रस्ताव देने वाले पहले व्यक्ति थे, जिन्होंने विज़न ट्रांसफार्मर (वीआईटी) की शुरुआत की। आर्किटेक्चर इनपुट छवि को 16x16 के निश्चित आकार के पैच में विभाजित करता है, समतल करता है, और उन्हें एम्बेडिंग आयाम में एक रैखिक परत के साथ प्रोजेक्ट करता है। अनुक्रम में एक अतिरिक्त वर्ग टोकन (सीएलएस) डाला जाता है और प्रत्येक वेक्टर में स्थितीय एन्कोडिंग जोड़ी जाती है।
एम्बेडिंग का परिणामी क्रम एक ट्रांसफॉर्मर एनकोडर के इनपुट के रूप में दिया जाता है, जिसकी संरचना [34] के समान होती है, लेकिन बाद (पूर्व-मानक) के बजाय प्रत्येक ब्लॉक से पहले लेयरनॉर्म ऑपरेटर का उपयोग करता है। क्लास टोकन में विश्व स्तर पर एकत्रित जानकारी से क्लास लेबल प्राप्त करने के लिए एक एमएलपीहेड का उपयोग किया जाता है।
वासवानी एट अल द्वारा शुरू किया गया आत्म-ध्यान तंत्र। [34] वस्तुओं के अनुक्रम को इनपुट के रूप में लेता है और अनुक्रम में प्रत्येक तत्व के लिए वैश्विक जानकारी एकत्र करके उन सभी के बीच बातचीत का अनुमान लगाता है। अनुक्रम के तत्वों के बीच अलग-अलग इंटरैक्शन की गणना करने के लिए, मल्टी-हेड सेल्फ-अटेंशन (एमएसए) मॉड्यूल कई सेल्फ-अटेंशन ब्लॉक के परिणामों को जोड़ता है और आउटपुट को सीखने योग्य वजन मैट्रिक्स पर प्रोजेक्ट करता है। [34] में पेश किया गया ट्रांसफार्मर एनकोडर कई स्टैक्ड परतों से बना है जिसमें एक एमएसए ब्लॉक, एक फीडफॉरवर्ड (एफएफएन) ब्लॉक, प्रत्येक ब्लॉक के बीच अवशिष्ट कनेक्शन और प्रत्येक ब्लॉक के बाद एक लेयरनॉर्म (एलएन) शामिल है।
टौव्रॉन एट अल. [25] डीप विज़न ट्रांसफार्मर के प्रदर्शन को बेहतर बनाने के लिए दो वास्तुशिल्प परिवर्तनों का प्रस्ताव है। उनका पहला योगदान, लेयरस्केल, एक सीखने योग्य विकर्ण मैट्रिक्स को जोड़कर गहरे मॉडल के प्रशिक्षण की सुविधा प्रदान करता है जिसे अवशिष्ट ब्लॉकों के आउटपुट से गुणा किया जाता है। क्योंकि मैट्रिक्स को छोटे मानों के साथ आरंभ किया गया है, यह प्रशिक्षण की शुरुआत में ट्रांसफार्मर एनकोडर परतों के परिणामों को अवशिष्ट ब्लॉक के आउटपुट में एक छोटा योगदान देने के लिए मजबूर करता है।
उनका दूसरा योगदान वर्ग-ध्यान तंत्र है। प्रारंभ में सीएलएस टोकन को जोड़ने के बजाय, जैसे कि मानक वीआईटी में, इसे कई एनकोडर ब्लॉक के बाद जोड़ा जाता है। इस चरण के बाद, केवल क्लास टोकन को अपडेट किया जाता है और पैच टोकन को फ़्रीज़ रखा जाता है। यह तंत्र वर्गीकरण के लिए उपयोग की जाने वाली जानकारी को एकत्रित करने से पैच के बीच आत्म-ध्यान संचालन को अलग करने में मदद करता है।
युआन एट अल. [28] तर्क है कि वेनिला वीआईटी में पैच के सरल टोकनाइजेशन में छवि की स्थानीय संरचना और पड़ोसी पैच के बीच बातचीत को मॉडल करने में सक्षम नहीं होने की सीमा है। नतीजतन, वे एक प्रगतिशील टोकननाइजेशन प्रक्रिया पेश करते हैं जो पड़ोसी टोकन को एक में जोड़ती है।
इस प्रक्रिया में रीशेप मॉड्यूल शामिल है, जो पिछली परत से टोकन का अनुक्रम लेता है और स्थानिक निकटता के आधार पर उनसे एक छवि बनाता है। सॉफ्ट स्प्लिट मॉड्यूल निर्मित छवि को टोकन के ओवरलैपिंग पैच में विभाजित करता है और उन्हें अगले एनकोडर को फीड करता है। टोकननाइजेशन प्रक्रिया के बाद उत्पन्न टोकन को वर्गीकरण के लिए एक गहरी संकीर्ण वीआईटी रीढ़ में फीड किया जाता है।

जैसा कि वांग एट अल ने नोट किया है। [35] मानक विज़न ट्रांसफार्मर विशेष रूप से छवि वर्गीकरण के लिए डिज़ाइन किया गया था और यह ऑब्जेक्ट डिटेक्शन या सेगमेंटेशन जैसे अन्य कार्यों के लिए उपयुक्त नहीं है। इस वजह से, उन्होंने पिरामिड विज़न ट्रांसफार्मर (पीवीटी) का प्रस्ताव रखा है जो घटते स्थानिक आयामों और चैनलों की बढ़ती संख्या के साथ मध्यस्थ फीचर मानचित्र तैयार करके सीएनएन आर्किटेक्चर से प्रेरणा लेता है।
यह पिरामिड संरचना मॉडल को बहु-स्तरीय सुविधाओं को सीखने में मदद करती है जिनका उपयोग विभिन्न कार्यों के लिए किया जा सकता है। मॉडल पहले 4 × 4 आयामों के पैच से प्राप्त टोकन को संसाधित करता है, और प्रत्येक चरण में, टोकन पैच के बड़े स्थानिक आयामों के अनुरूप होते हैं।
क्लासिक आत्म-ध्यान की कम्प्यूटेशनल लागत O(N2·d) है जहां N अनुक्रम में टोकन की संख्या है और d वेक्टर आयाम है। टोकन की संख्या के संदर्भ में द्विघात कम्प्यूटेशनल लागत बढ़ती इनपुट छवि रिज़ॉल्यूशन के साथ एक व्यावहारिक समस्या बन जाती है क्योंकि अनुक्रम में प्रत्येक टोकन छवि में एक पैच से मेल खाता है।
साहित्य में, ऐसी कई तकनीकें हैं जिनकी मदद से वेनिला आत्म-ध्यान की कम्प्यूटेशनल लागत को कम किया जा सकता है [26,35,36]। पीवीटी [35] स्थानिक कमी ध्यान का उपयोग करता है, जो एक पुनर्आकार संचालन और एक रैखिक प्रक्षेपण के साथ आत्म-ध्यान से पहले कुंजी और मूल्य वैक्टर के स्थानिक आकार को कम करता है।
स्वाइन ट्रांसफार्मर [36] जिसमें एक पिरामिड संरचना भी है, स्व-ध्यान ब्लॉक को एक मॉड्यूल से बदल देता है जो इसे अनुमानित करता है। मॉड्यूल स्थानीय विंडो में पड़ोसी पैच को समूहित करता है और केवल इन विंडो के अंदर स्व-ध्यान ऑपरेशन करता है।
अन्य विंडो के साथ जानकारी संचारित करने के लिए, यह स्थानीय विंडो को स्थानांतरित कर देता है ताकि उनमें पड़ोसी विंडो के पैच भी शामिल हो जाएं और फिर से आत्म-ध्यान की गणना की जा सके। चू एट अल. [27] पीवीटी वास्तुकला को अपनाया और आत्म-ध्यान का अनुमान लगाने के लिए एक समान विधि का प्रस्ताव दिया। उन्होंने स्वाइन ट्रांसफार्मर के समान विंडो में पैच के बीच स्थानीय ध्यान भी दिया।
अन्य विंडो के साथ जानकारी संप्रेषित करने के लिए, उन्होंने प्रत्येक विंडो के एक प्रतिनिधि और अन्य सभी विंडो के बीच आत्म-ध्यान का आयोजन किया। क्रॉसफॉर्मर [26] भी पीवीटी पर आधारित है। यह कम दूरी के ध्यान का उपयोग करता है, जो स्विन ट्रांसफार्मर में स्थानीय ध्यान के समान है, लेकिन अन्य विंडो में जानकारी लीक करने के लिए यह लंबी दूरी के ध्यान का उपयोग करता है, जो पैच के बीच की बातचीत की गणना करता है, जिनके बीच एक निश्चित दूरी होती है। यह ट्रांसफार्मर ब्लॉक के लिए टोकन प्राप्त करने के लिए एक ही पिक्सेल के आसपास केंद्रित मल्टी-स्केल पैच को भी जोड़ता है, जो मॉडल को क्रॉस-स्केल इंटरैक्शन सीखने में मदद करता है।
यांग एट अल. [37] टोकन के बीच छोटी और लंबी दूरी की बातचीत को सीखने के लिए फोकल ध्यान तंत्र का प्रस्ताव है जो दृष्टि ट्रांसफार्मर को उच्च-रिज़ॉल्यूशन छवियों को संसाधित करने में सक्षम बनाता है। प्रत्येक छवि पैच के लिए, फोकल सेल्फ-अटेंशन मॉड्यूल स्थानिक रूप से बंद पैच और अधिक दूर के पैच की सारांशित विंडो के साथ इंटरैक्शन की गणना करता है। पैच की खिड़कियों का सारांश पूलिंग के माध्यम से किया जाता है और जब पैच दूर होते हैं तो यह कम जानकारी कैप्चर करता है।
रीजनवीआईटी [38] पीवीआर्किटेक्चर का उपयोग करता है और प्रत्येक फीचर मैप के लिए दो टोकनाइजेशन पथ जोड़ता है। पहला टोकनाइजेशन पथ क्षेत्रीय टोकन प्राप्त करता है जिसमें पैच शामिल होते हैं जो बड़ी संख्या में पिक्सेल को कवर करते हैं। दूसरा टोकनाइजेशन पथ स्थानीय टोकन प्राप्त करता है जो कुछ पिक्सेल युक्त निम्न-स्तरीय जानकारी कैप्चर करता है। इन दो प्रकार के टोकन को क्षेत्रीय-से-स्थानीय ट्रांसफार्मर एनकोडर में इनपुट के रूप में फीड किया जाता है, जिसमें पहले क्षेत्रों के बीच आत्म-ध्यान की गणना की जाती है, फिर प्रत्येक क्षेत्रीय टोकन और उसके संबंधित स्थानीय टोकन के बीच।
LeViT आर्किटेक्चर [39] सीएनएन और आत्म-ध्यान तंत्र दोनों को जोड़ता है। एक छवि को पहले सीएनएन एनकोडर में फीड किया जाता है, जो स्थानिक आयामों को कम करता है और चैनल आयाम को बढ़ाता है। परिणामी फीचर मानचित्रों को एक पदानुक्रमित वीआईटी में फीड किया जाता है जिसमें स्थानिक आयामों को और कम करने और फीचर मानचित्रों के चैनल आयाम को बढ़ाने के लिए इसके एन्कोडर्स के बीच एक सिकुड़ने वाला ध्यान मॉड्यूल होता है।
ध्यान पर आधारित आर्किटेक्चर को वीडियो-आधारित कार्यों में भी नियोजित किया गया है जहां अस्थायी जानकारी को ध्यान में रखना आवश्यक है। आर्किटेक्चर, जैसे कि ViViT [40] और टाइमफॉर्मर [41], स्थानिक और अस्थायी दोनों आयामों पर आत्म-ध्यान तंत्र का उपयोग करते हैं। इस वजह से, मॉडल प्रत्येक फ्रेम से स्थानिक जानकारी और समय के साथ परिवर्तन को कैप्चर करना सीखता है।
3. विधि
इस अनुभाग में, हम प्रत्येक आर्किटेक्चर और चुने गए हाइपरपैरामीटर का विस्तृत विवरण प्रदान करते हैं। इसके अलावा, हम कंकाल अनुक्रमों के साथ काम करने के लिए दृष्टि ट्रांसफार्मर को अनुकूलित करने के लिए डेटा प्रोसेसिंग और प्रस्तावित डिज़ाइन निर्णयों का वर्णन करते हैं। अंत में, हम आरंभीकरण विधियों, मूल्यांकन प्रोटोकॉल और मूल्यांकन डेटासेट का वर्णन करते हैं।
3.1. वास्तुकला विवरण
हमने विज़न ट्रांसफॉर्मर्स (चित्रा 1) के पांच अलग-अलग वेरिएंट की खोज की, जो डाउनस्ट्रीम प्रदर्शन और अनुमान समय के संदर्भ में छवियों पर अधिक अनुकूलित गणना के लिए विकसित किए गए थे। विशेष रूप से, हम क्लासिक ViT [24], CaiT [25], टोकन2टोकन ViT [28], और ट्विन्स-एसवीटी [27] का पता लगाते हैं।
सामान्य तौर पर, दृष्टि ट्रांसफार्मर के फ्लेवर ट्रांसफार्मर के साथ छवियों को संसाधित करने के "क्लासिक" तरीके में सुधार से निपट रहे हैं, जैसा कि वीआईटी में प्रस्तावित है: छवियों को समान आकार और गैर-अतिव्यापी पैच में विभाजित किया जाता है, जिन्हें चपटा किया जाता है और निचले आयामी स्थान में प्रक्षेपित किया जाता है। फिर इसे एनएलपी अनुप्रयोगों के समान "टोकन" के रूप में माना जाएगा। चाल विश्लेषण के मामले में, एक चौकोर पैच जोड़ों के एक समूह से मेल खाता है जो एक छोटी अस्थायी खिड़की में भिन्न होता है।

मानक ट्रांसफार्मर एनकोडर इनपुट के रूप में आइटमों का एक अनुक्रम लेता है (X ∈ Rn×d जहां-आइटमों की संख्या, डी-एम्बेडिंग आयाम) और उन्हें क्वेरीज़ (Q ∈ Rn×dq), कुंजी प्राप्त करने वाले तीन अलग-अलग सीखने योग्य वजन मैट्रिक्स पर प्रोजेक्ट करता है (K ∈ Rn×dk, dk=dq), और मान (V ∈ Rn×dv ), जहां dq, dk, और dv क्रमशः प्रश्नों, कुंजियों और मानों के आयाम हैं। ध्यान की गणना इस प्रकार की जाती है:

अधिकांश आर्किटेक्चर के लिए, जब भी संभव हो, हमने परतों की संख्या, ध्यान प्रमुख और फीचरआयामीताएं तय कीं। इस प्रकार, हम 4 ध्यान हेडसीच के साथ 4 परतें चुनते हैं, फीडफॉरवर्ड नेटवर्क के लिए 512 का आयाम और 128 का अंतिम एम्बेडिंग आकार।

वीआईटी विज़न ट्रांसफार्मर [24] छवि को पैच में विभाजित करके और उन्हें एम्बेडिंग आयाम पर रैखिक रूप से प्रक्षेपित करके टोकन का एक इनपुट अनुक्रम प्राप्त करता है। एक अतिरिक्त वर्ग टोकन (सीएलएस) के साथ परिणामी अनुक्रम एक ट्रांसफार्मर एनकोडर के इनपुट के रूप में दिया जाता है। इसके अलावा, वीआईटी एनकोडर पोस्ट-सामान्यीकरण के विपरीत, पूर्व-मानदंड का उपयोग करता है। एक परत के आउटपुट की गणना इस प्रकार की जा सकती है:

जहां λl, i और λ0l, सीखने योग्य पैरामीटर हैं। मॉडल क्लास एम्बेडिंग की गणना से इनपुट टोकन के बीच इंटरैक्शन की गणना को भी अलग करता है जो सभी वैश्विक जानकारी को एकत्रित करता है। यह वर्ग ध्यान के साथ किया जाता है जो इंटरैक्शन प्राप्त होने के बाद सीएलएस टोकन को इनपुट अनुक्रम में पेश करता है और अन्य सभी टोकन को फ्रीज कर देता है। CaiT एनकोडर के लिए, हमने ViT के समान कॉन्फ़िगरेशन का उपयोग किया, लेकिन CLS एनकोडर के लिए, हमने 2 परतों की गहराई का उपयोग किया।
टोकन2टोकन वीआईटी टोकन2टोकन आर्किटेक्चर [28] में एक प्रगतिशील टोकननाइजेशन प्रक्रिया शामिल है जो पड़ोसी टोकन को मिलाकर एक छवि की स्थानीय संरचना को मॉडल करती है। टोकननाइजेशन प्रक्रिया पहले रीशेप मॉड्यूल की मदद से टोकन के इनपुट अनुक्रम से एक छवि जैसी संरचना का निर्माण करती है। फिर छवि को सॉफ्ट स्प्लिट (एसएस) मॉड्यूल के माध्यम से टोकन के ओवरलैपिंग पैच में विभाजित किया गया है। टोकननाइज़ेशनमॉड्यूल से परिणामी आउटपुट की गणना इस प्रकार की जाती है:

टोकन2टोकन के लिए, हमने पहली परत के लिए {2, 8} और {2, 4} के पैच आकार वाली 2 परतों का उपयोग किया, और दूसरी परत के लिए {4, 16} का उपयोग किया।
ट्विन्स-एसवीटी ट्विन्स-एसवीटी [27] आर्किटेक्चर क्लासिक सेल्फ-अटेंशन ब्लॉक को एक मॉड्यूल से प्रतिस्थापित करता है जिसे स्थानिक रूप से अलग करने योग्य सेल्फ-अटेंशन (एसए) कहा जाता है जो ऑपरेशन का अनुमान लगाता है। एसएसएसए में स्थानीय रूप से समूहीकृत सेल्फ-अटेंशन (एलएसए) होता है जो गणना करता है केवल एक ही स्थानीय विंडो के अंदर टोकन और वैश्विक उप-नमूना ध्यान (जीएसए) के बीच बातचीत, जो पड़ोसी टोकन को मिलाकर गणना की गई प्रत्येक स्थानीय विंडो के सभी प्रतिनिधियों के बीच आत्म-ध्यान करके वैश्विक जानकारी एकत्र करती है। एट्विन्स परत के संचालन को इस प्रकार लिखा जा सकता है:

क्रॉसफ़ॉर्मर एनकोडर के लिए, हमने परतों के लिए {16, 32, 64, 128} के आयामों का उपयोग किया, वैश्विक विंडो आकार {4, 2, 2, 1}, स्थानीय विंडो आकार 2, क्रॉस-एंबेडिंग स्ट्राइड्स 2, और क्रॉस - {{2, 4, 8, 16}, {2, 4}, {2, 4}, {2, 4}} के कर्नेल आकार एम्बेड करना।
3.2. डेटा प्रीप्रोसेसिंग
DenseGait और GREW डेटासेट दोनों के लिए, हम एक ही प्रीप्रोसेसिंग प्रक्रिया का उपयोग करते हैं। और क्षैतिज और लंबवत रूप से स्केल करके, मानव शरीर के अनुपात के अनुसार (यानी, कंधों के बीच की दूरी: |xR.कंधे - xL.कंधे| और गर्दन से श्रोणि तक की दूरी: |yneck - ypelvis|)। COCO पोज़ प्रारूप में 18 जोड़ों में से प्रत्येक के प्रत्येक समन्वय (संयुक्त, जोड़) के लिए, हम निम्नलिखित सामान्यीकरण प्रक्रिया लागू करते हैं:

सामान्यीकरण प्रक्रिया के माध्यम से, कैमरे के रिज़ॉल्यूशन और कैमरे से विषय की दूरी के बीच अंतर समाप्त हो जाता है। इसके अलावा, हम किसी विषय की ऊंचाई और चौड़ाई के संबंध में उपस्थिति जानकारी को हटा देते हैं, जो आंदोलन की जानकारी से संबंधित नहीं है। यह चरण आधुनिक चेहरा पहचान मॉडल [42] में संरेखण चरण के समान है। इसके अलावा, हम परिणामी छवि को और सामान्य बनाने के लिए प्रत्येक मॉडल की शुरुआत में एक बैच सामान्यीकरण [43] परत का भी उपयोग करते हैं।
अस्थायी आयाम टी (यानी, फ्रेम की संख्या) और कंकाल स्थानिक आयाम जे (यानी, जोड़ों की संख्या) को देखते हुए, भोले कंकाल अनुक्रमों को आकार (टी, जे, 3) की छवियों के रूप में एन्कोड किया गया है, जहां, हमारे मामले में, टी {{ 1}} और जे=18।

हालाँकि, अधिकांश दृष्टि ट्रांसफार्मर यह मानते हैं कि छवियाँ वर्गाकार हैं। इसलिए, हम स्थानिक आयाम का आकार बदलने के कई प्रकार प्रस्तावित करते हैं जैसे कि छवि (टी, टी, 3) में बदल जाती है, जो जोड़ों की संख्या को कृत्रिम रूप से बढ़ाने के बराबर है (चित्र 2 देखें)।

For more information:1950477648nn@gmail.com






