जंगली भाग 2 में चाल पहचान के लिए स्व-पर्यवेक्षित दृष्टि ट्रांसफार्मर की खोज

2.2. विजन ट्रांसफार्मर

जबकि शुरू में एनएलपी कार्यों के लिए प्रस्तावित किया गया था [16,34] अपार सफलता के साथ, हाल के वर्षों में ट्रांसफार्मर का कंप्यूटर विज़न में व्यापक रूप से उपयोग किया जाने लगा है [24,25,28,35-37]। दोनों डोमेन ने ट्रांसफॉर्मर के विभिन्न रूपों का उपयोग करके अभूतपूर्व प्रदर्शन का आनंद लिया है, आंशिक रूप से बढ़ी हुई मॉडल क्षमता और ट्रांसफॉर्मर की पिछले मॉडल की तुलना में स्व-पर्यवेक्षण से बहुत अधिक लाभ उठाने की क्षमता के कारण [17]।

स्व-निगरानी और स्मृति का गहरा संबंध है। स्व-निगरानी का तात्पर्य किसी के व्यवहार, सोच और भावनाओं के मूल्यांकन और समायोजन से है, जबकि स्मृति जानकारी प्राप्त करने, संसाधित करने और संग्रहीत करने की क्षमता को संदर्भित करती है। स्व-निगरानी हमें अपने व्यवहार और भावनाओं पर बेहतर नियंत्रण पाने में मदद कर सकती है, जिससे याददाश्त में सुधार होता है।

सबसे पहले, आत्म-निगरानी हमें प्रलोभन का बेहतर विरोध करने में मदद कर सकती है। प्रलोभन हमारा ध्यान और ऊर्जा भटकाता है और हमारी याददाश्त को प्रभावित करता है। स्व-निगरानी के माध्यम से, हम खुद को बेहतर ढंग से नियंत्रित कर सकते हैं और अत्यधिक विकर्षणों से बच सकते हैं, जिससे याददाश्त बढ़ती है।

दूसरा, स्व-निगरानी हमें जानकारी को बेहतर ढंग से समझने और याद रखने में भी मदद कर सकती है। स्व-निगरानी हमें जानकारी के प्रमुख बिंदुओं पर अधिक ध्यान देने और जानकारी के बीच संबंधों पर ध्यान देने, जानकारी को बेहतर ढंग से समझने और याद रखने की अनुमति देती है। जब हम ध्यान देते हैं, तो हम जानकारी को समझने और बनाए रखने के लिए बेहतर ढंग से सुसज्जित होते हैं।

अंत में, स्व-निगरानी हमें अपने व्यवहार और सोच को बेहतर ढंग से देखने और सारांशित करने में भी मदद कर सकती है। अपने कार्यों और विचार प्रक्रियाओं पर चिंतन करके, हम कमियों की पहचान कर सकते हैं और उनमें सुधार कर सकते हैं। यह सुधार न केवल हमारे व्यवहार और सोच में सुधार लाता है बल्कि हमारी स्मरण शक्ति को भी बढ़ाता है।

संक्षेप में, स्व-निगरानी और स्मृति का गहरा संबंध है। स्व-निगरानी के माध्यम से, हम खुद को बेहतर ढंग से नियंत्रित कर सकते हैं, जानकारी को बेहतर ढंग से समझ और याद रख सकते हैं, और अपने व्यवहार और विचार प्रक्रियाओं को बेहतर ढंग से सुधार सकते हैं। साथ ही, यह हमारी याददाश्त को बेहतर बनाने में भी मदद करेगा, जिससे हम अधिक कुशलता से अध्ययन और काम कर सकेंगे। आइए हम अपने लक्ष्यों को स्पष्ट करें, सक्रिय रूप से खुद को समायोजित करें और लगातार प्रगति का प्रयास करें! यह देखा जा सकता है कि हमें याददाश्त में सुधार करने की आवश्यकता है, और सिस्टैंच डेजर्टिकोला याददाश्त में काफी सुधार कर सकता है, क्योंकि सिस्टैंच डेजर्टिकोला न्यूरोट्रांसमीटर के संतुलन को भी नियंत्रित कर सकता है, जैसे एसिटाइलकोलाइन और विकास कारकों के स्तर को बढ़ाना। ये पदार्थ याददाश्त और सीखने के लिए बहुत महत्वपूर्ण हैं। इसके अलावा, मांस रक्त प्रवाह में भी सुधार कर सकता है और ऑक्सीजन वितरण को बढ़ावा दे सकता है, जो यह सुनिश्चित कर सकता है कि मस्तिष्क को पर्याप्त पोषक तत्व और ऊर्जा प्राप्त हो, जिससे मस्तिष्क की जीवन शक्ति और सहनशक्ति में सुधार हो।

supplements to boost memory

याददाश्त बेहतर करने के लिए सप्लीमेंट्स जानें पर क्लिक करें

डोसोवित्स्की एट अल. [24] छवि वर्गीकरण के लिए ट्रांसफार्मर एन्कोडर्स के उपयोग का प्रस्ताव देने वाले पहले व्यक्ति थे, जिन्होंने विज़न ट्रांसफार्मर (वीआईटी) की शुरुआत की। आर्किटेक्चर इनपुट छवि को 16x16 के निश्चित आकार के पैच में विभाजित करता है, समतल करता है, और उन्हें एम्बेडिंग आयाम में एक रैखिक परत के साथ प्रोजेक्ट करता है। अनुक्रम में एक अतिरिक्त वर्ग टोकन (सीएलएस) डाला जाता है और प्रत्येक वेक्टर में स्थितीय एन्कोडिंग जोड़ी जाती है।

एम्बेडिंग का परिणामी क्रम एक ट्रांसफॉर्मर एनकोडर के इनपुट के रूप में दिया जाता है, जिसकी संरचना [34] के समान होती है, लेकिन बाद (पूर्व-मानक) के बजाय प्रत्येक ब्लॉक से पहले लेयरनॉर्म ऑपरेटर का उपयोग करता है। क्लास टोकन में विश्व स्तर पर एकत्रित जानकारी से क्लास लेबल प्राप्त करने के लिए एक एमएलपीहेड का उपयोग किया जाता है।

वासवानी एट अल द्वारा शुरू किया गया आत्म-ध्यान तंत्र। [34] वस्तुओं के अनुक्रम को इनपुट के रूप में लेता है और अनुक्रम में प्रत्येक तत्व के लिए वैश्विक जानकारी एकत्र करके उन सभी के बीच बातचीत का अनुमान लगाता है। अनुक्रम के तत्वों के बीच अलग-अलग इंटरैक्शन की गणना करने के लिए, मल्टी-हेड सेल्फ-अटेंशन (एमएसए) मॉड्यूल कई सेल्फ-अटेंशन ब्लॉक के परिणामों को जोड़ता है और आउटपुट को सीखने योग्य वजन मैट्रिक्स पर प्रोजेक्ट करता है। [34] में पेश किया गया ट्रांसफार्मर एनकोडर कई स्टैक्ड परतों से बना है जिसमें एक एमएसए ब्लॉक, एक फीडफॉरवर्ड (एफएफएन) ब्लॉक, प्रत्येक ब्लॉक के बीच अवशिष्ट कनेक्शन और प्रत्येक ब्लॉक के बाद एक लेयरनॉर्म (एलएन) शामिल है।

टौव्रॉन एट अल. [25] डीप विज़न ट्रांसफार्मर के प्रदर्शन को बेहतर बनाने के लिए दो वास्तुशिल्प परिवर्तनों का प्रस्ताव है। उनका पहला योगदान, लेयरस्केल, एक सीखने योग्य विकर्ण मैट्रिक्स को जोड़कर गहरे मॉडल के प्रशिक्षण की सुविधा प्रदान करता है जिसे अवशिष्ट ब्लॉकों के आउटपुट से गुणा किया जाता है। क्योंकि मैट्रिक्स को छोटे मानों के साथ आरंभ किया गया है, यह प्रशिक्षण की शुरुआत में ट्रांसफार्मर एनकोडर परतों के परिणामों को अवशिष्ट ब्लॉक के आउटपुट में एक छोटा योगदान देने के लिए मजबूर करता है।

उनका दूसरा योगदान वर्ग-ध्यान तंत्र है। प्रारंभ में सीएलएस टोकन को जोड़ने के बजाय, जैसे कि मानक वीआईटी में, इसे कई एनकोडर ब्लॉक के बाद जोड़ा जाता है। इस चरण के बाद, केवल क्लास टोकन को अपडेट किया जाता है और पैच टोकन को फ़्रीज़ रखा जाता है। यह तंत्र वर्गीकरण के लिए उपयोग की जाने वाली जानकारी को एकत्रित करने से पैच के बीच आत्म-ध्यान संचालन को अलग करने में मदद करता है।

युआन एट अल. [28] तर्क है कि वेनिला वीआईटी में पैच के सरल टोकनाइजेशन में छवि की स्थानीय संरचना और पड़ोसी पैच के बीच बातचीत को मॉडल करने में सक्षम नहीं होने की सीमा है। नतीजतन, वे एक प्रगतिशील टोकननाइजेशन प्रक्रिया पेश करते हैं जो पड़ोसी टोकन को एक में जोड़ती है।

इस प्रक्रिया में रीशेप मॉड्यूल शामिल है, जो पिछली परत से टोकन का अनुक्रम लेता है और स्थानिक निकटता के आधार पर उनसे एक छवि बनाता है। सॉफ्ट स्प्लिट मॉड्यूल निर्मित छवि को टोकन के ओवरलैपिंग पैच में विभाजित करता है और उन्हें अगले एनकोडर को फीड करता है। टोकननाइजेशन प्रक्रिया के बाद उत्पन्न टोकन को वर्गीकरण के लिए एक गहरी संकीर्ण वीआईटी रीढ़ में फीड किया जाता है।

ways to improve your memory

जैसा कि वांग एट अल ने नोट किया है। [35] मानक विज़न ट्रांसफार्मर विशेष रूप से छवि वर्गीकरण के लिए डिज़ाइन किया गया था और यह ऑब्जेक्ट डिटेक्शन या सेगमेंटेशन जैसे अन्य कार्यों के लिए उपयुक्त नहीं है। इस वजह से, उन्होंने पिरामिड विज़न ट्रांसफार्मर (पीवीटी) का प्रस्ताव रखा है जो घटते स्थानिक आयामों और चैनलों की बढ़ती संख्या के साथ मध्यस्थ फीचर मानचित्र तैयार करके सीएनएन आर्किटेक्चर से प्रेरणा लेता है।

यह पिरामिड संरचना मॉडल को बहु-स्तरीय सुविधाओं को सीखने में मदद करती है जिनका उपयोग विभिन्न कार्यों के लिए किया जा सकता है। मॉडल पहले 4 × 4 आयामों के पैच से प्राप्त टोकन को संसाधित करता है, और प्रत्येक चरण में, टोकन पैच के बड़े स्थानिक आयामों के अनुरूप होते हैं।

क्लासिक आत्म-ध्यान की कम्प्यूटेशनल लागत O(N2·d) है जहां N अनुक्रम में टोकन की संख्या है और d वेक्टर आयाम है। टोकन की संख्या के संदर्भ में द्विघात कम्प्यूटेशनल लागत बढ़ती इनपुट छवि रिज़ॉल्यूशन के साथ एक व्यावहारिक समस्या बन जाती है क्योंकि अनुक्रम में प्रत्येक टोकन छवि में एक पैच से मेल खाता है।

साहित्य में, ऐसी कई तकनीकें हैं जिनकी मदद से वेनिला आत्म-ध्यान की कम्प्यूटेशनल लागत को कम किया जा सकता है [26,35,36]। पीवीटी [35] स्थानिक कमी ध्यान का उपयोग करता है, जो एक पुनर्आकार संचालन और एक रैखिक प्रक्षेपण के साथ आत्म-ध्यान से पहले कुंजी और मूल्य वैक्टर के स्थानिक आकार को कम करता है।

स्वाइन ट्रांसफार्मर [36] जिसमें एक पिरामिड संरचना भी है, स्व-ध्यान ब्लॉक को एक मॉड्यूल से बदल देता है जो इसे अनुमानित करता है। मॉड्यूल स्थानीय विंडो में पड़ोसी पैच को समूहित करता है और केवल इन विंडो के अंदर स्व-ध्यान ऑपरेशन करता है।

अन्य विंडो के साथ जानकारी संचारित करने के लिए, यह स्थानीय विंडो को स्थानांतरित कर देता है ताकि उनमें पड़ोसी विंडो के पैच भी शामिल हो जाएं और फिर से आत्म-ध्यान की गणना की जा सके। चू एट अल. [27] पीवीटी वास्तुकला को अपनाया और आत्म-ध्यान का अनुमान लगाने के लिए एक समान विधि का प्रस्ताव दिया। उन्होंने स्वाइन ट्रांसफार्मर के समान विंडो में पैच के बीच स्थानीय ध्यान भी दिया।

अन्य विंडो के साथ जानकारी संप्रेषित करने के लिए, उन्होंने प्रत्येक विंडो के एक प्रतिनिधि और अन्य सभी विंडो के बीच आत्म-ध्यान का आयोजन किया। क्रॉसफॉर्मर [26] भी पीवीटी पर आधारित है। यह कम दूरी के ध्यान का उपयोग करता है, जो स्विन ट्रांसफार्मर में स्थानीय ध्यान के समान है, लेकिन अन्य विंडो में जानकारी लीक करने के लिए यह लंबी दूरी के ध्यान का उपयोग करता है, जो पैच के बीच की बातचीत की गणना करता है, जिनके बीच एक निश्चित दूरी होती है। यह ट्रांसफार्मर ब्लॉक के लिए टोकन प्राप्त करने के लिए एक ही पिक्सेल के आसपास केंद्रित मल्टी-स्केल पैच को भी जोड़ता है, जो मॉडल को क्रॉस-स्केल इंटरैक्शन सीखने में मदद करता है।

यांग एट अल. [37] टोकन के बीच छोटी और लंबी दूरी की बातचीत को सीखने के लिए फोकल ध्यान तंत्र का प्रस्ताव है जो दृष्टि ट्रांसफार्मर को उच्च-रिज़ॉल्यूशन छवियों को संसाधित करने में सक्षम बनाता है। प्रत्येक छवि पैच के लिए, फोकल सेल्फ-अटेंशन मॉड्यूल स्थानिक रूप से बंद पैच और अधिक दूर के पैच की सारांशित विंडो के साथ इंटरैक्शन की गणना करता है। पैच की खिड़कियों का सारांश पूलिंग के माध्यम से किया जाता है और जब पैच दूर होते हैं तो यह कम जानकारी कैप्चर करता है।

रीजनवीआईटी [38] पीवीआर्किटेक्चर का उपयोग करता है और प्रत्येक फीचर मैप के लिए दो टोकनाइजेशन पथ जोड़ता है। पहला टोकनाइजेशन पथ क्षेत्रीय टोकन प्राप्त करता है जिसमें पैच शामिल होते हैं जो बड़ी संख्या में पिक्सेल को कवर करते हैं। दूसरा टोकनाइजेशन पथ स्थानीय टोकन प्राप्त करता है जो कुछ पिक्सेल युक्त निम्न-स्तरीय जानकारी कैप्चर करता है। इन दो प्रकार के टोकन को क्षेत्रीय-से-स्थानीय ट्रांसफार्मर एनकोडर में इनपुट के रूप में फीड किया जाता है, जिसमें पहले क्षेत्रों के बीच आत्म-ध्यान की गणना की जाती है, फिर प्रत्येक क्षेत्रीय टोकन और उसके संबंधित स्थानीय टोकन के बीच।

LeViT आर्किटेक्चर [39] सीएनएन और आत्म-ध्यान तंत्र दोनों को जोड़ता है। एक छवि को पहले सीएनएन एनकोडर में फीड किया जाता है, जो स्थानिक आयामों को कम करता है और चैनल आयाम को बढ़ाता है। परिणामी फीचर मानचित्रों को एक पदानुक्रमित वीआईटी में फीड किया जाता है जिसमें स्थानिक आयामों को और कम करने और फीचर मानचित्रों के चैनल आयाम को बढ़ाने के लिए इसके एन्कोडर्स के बीच एक सिकुड़ने वाला ध्यान मॉड्यूल होता है।

ध्यान पर आधारित आर्किटेक्चर को वीडियो-आधारित कार्यों में भी नियोजित किया गया है जहां अस्थायी जानकारी को ध्यान में रखना आवश्यक है। आर्किटेक्चर, जैसे कि ViViT [40] और टाइमफॉर्मर [41], स्थानिक और अस्थायी दोनों आयामों पर आत्म-ध्यान तंत्र का उपयोग करते हैं। इस वजह से, मॉडल प्रत्येक फ्रेम से स्थानिक जानकारी और समय के साथ परिवर्तन को कैप्चर करना सीखता है।

3. विधि

इस अनुभाग में, हम प्रत्येक आर्किटेक्चर और चुने गए हाइपरपैरामीटर का विस्तृत विवरण प्रदान करते हैं। इसके अलावा, हम कंकाल अनुक्रमों के साथ काम करने के लिए दृष्टि ट्रांसफार्मर को अनुकूलित करने के लिए डेटा प्रोसेसिंग और प्रस्तावित डिज़ाइन निर्णयों का वर्णन करते हैं। अंत में, हम आरंभीकरण विधियों, मूल्यांकन प्रोटोकॉल और मूल्यांकन डेटासेट का वर्णन करते हैं।

3.1. वास्तुकला विवरण

हमने विज़न ट्रांसफॉर्मर्स (चित्रा 1) के पांच अलग-अलग वेरिएंट की खोज की, जो डाउनस्ट्रीम प्रदर्शन और अनुमान समय के संदर्भ में छवियों पर अधिक अनुकूलित गणना के लिए विकसित किए गए थे। विशेष रूप से, हम क्लासिक ViT [24], CaiT [25], टोकन2टोकन ViT [28], और ट्विन्स-एसवीटी [27] का पता लगाते हैं।

सामान्य तौर पर, दृष्टि ट्रांसफार्मर के फ्लेवर ट्रांसफार्मर के साथ छवियों को संसाधित करने के "क्लासिक" तरीके में सुधार से निपट रहे हैं, जैसा कि वीआईटी में प्रस्तावित है: छवियों को समान आकार और गैर-अतिव्यापी पैच में विभाजित किया जाता है, जिन्हें चपटा किया जाता है और निचले आयामी स्थान में प्रक्षेपित किया जाता है। फिर इसे एनएलपी अनुप्रयोगों के समान "टोकन" के रूप में माना जाएगा। चाल विश्लेषण के मामले में, एक चौकोर पैच जोड़ों के एक समूह से मेल खाता है जो एक छोटी अस्थायी खिड़की में भिन्न होता है।

increase brain power

मानक ट्रांसफार्मर एनकोडर इनपुट के रूप में आइटमों का एक अनुक्रम लेता है (X ∈ Rn×d जहां-आइटमों की संख्या, डी-एम्बेडिंग आयाम) और उन्हें क्वेरीज़ (Q ∈ Rn×dq), कुंजी प्राप्त करने वाले तीन अलग-अलग सीखने योग्य वजन मैट्रिक्स पर प्रोजेक्ट करता है (K ∈ Rn×dk, dk=dq), और मान (V ∈ Rn×dv ), जहां dq, dk, और dv क्रमशः प्रश्नों, कुंजियों और मानों के आयाम हैं। ध्यान की गणना इस प्रकार की जाती है:

increase memory power

अधिकांश आर्किटेक्चर के लिए, जब भी संभव हो, हमने परतों की संख्या, ध्यान प्रमुख और फीचरआयामीताएं तय कीं। इस प्रकार, हम 4 ध्यान हेडसीच के साथ 4 परतें चुनते हैं, फीडफॉरवर्ड नेटवर्क के लिए 512 का आयाम और 128 का अंतिम एम्बेडिंग आकार।

improve brain

वीआईटी विज़न ट्रांसफार्मर [24] छवि को पैच में विभाजित करके और उन्हें एम्बेडिंग आयाम पर रैखिक रूप से प्रक्षेपित करके टोकन का एक इनपुट अनुक्रम प्राप्त करता है। एक अतिरिक्त वर्ग टोकन (सीएलएस) के साथ परिणामी अनुक्रम एक ट्रांसफार्मर एनकोडर के इनपुट के रूप में दिया जाता है। इसके अलावा, वीआईटी एनकोडर पोस्ट-सामान्यीकरण के विपरीत, पूर्व-मानदंड का उपयोग करता है। एक परत के आउटपुट की गणना इस प्रकार की जा सकती है:

improve short term memory

जहां λl, i और λ0l, सीखने योग्य पैरामीटर हैं। मॉडल क्लास एम्बेडिंग की गणना से इनपुट टोकन के बीच इंटरैक्शन की गणना को भी अलग करता है जो सभी वैश्विक जानकारी को एकत्रित करता है। यह वर्ग ध्यान के साथ किया जाता है जो इंटरैक्शन प्राप्त होने के बाद सीएलएस टोकन को इनपुट अनुक्रम में पेश करता है और अन्य सभी टोकन को फ्रीज कर देता है। CaiT एनकोडर के लिए, हमने ViT के समान कॉन्फ़िगरेशन का उपयोग किया, लेकिन CLS एनकोडर के लिए, हमने 2 परतों की गहराई का उपयोग किया।

टोकन2टोकन वीआईटी टोकन2टोकन आर्किटेक्चर [28] में एक प्रगतिशील टोकननाइजेशन प्रक्रिया शामिल है जो पड़ोसी टोकन को मिलाकर एक छवि की स्थानीय संरचना को मॉडल करती है। टोकननाइजेशन प्रक्रिया पहले रीशेप मॉड्यूल की मदद से टोकन के इनपुट अनुक्रम से एक छवि जैसी संरचना का निर्माण करती है। फिर छवि को सॉफ्ट स्प्लिट (एसएस) मॉड्यूल के माध्यम से टोकन के ओवरलैपिंग पैच में विभाजित किया गया है। टोकननाइज़ेशनमॉड्यूल से परिणामी आउटपुट की गणना इस प्रकार की जाती है:

increase memory

टोकन2टोकन के लिए, हमने पहली परत के लिए {2, 8} और {2, 4} के पैच आकार वाली 2 परतों का उपयोग किया, और दूसरी परत के लिए {4, 16} का उपयोग किया।

ट्विन्स-एसवीटी ट्विन्स-एसवीटी [27] आर्किटेक्चर क्लासिक सेल्फ-अटेंशन ब्लॉक को एक मॉड्यूल से प्रतिस्थापित करता है जिसे स्थानिक रूप से अलग करने योग्य सेल्फ-अटेंशन (एसए) कहा जाता है जो ऑपरेशन का अनुमान लगाता है। एसएसएसए में स्थानीय रूप से समूहीकृत सेल्फ-अटेंशन (एलएसए) होता है जो गणना करता है केवल एक ही स्थानीय विंडो के अंदर टोकन और वैश्विक उप-नमूना ध्यान (जीएसए) के बीच बातचीत, जो पड़ोसी टोकन को मिलाकर गणना की गई प्रत्येक स्थानीय विंडो के सभी प्रतिनिधियों के बीच आत्म-ध्यान करके वैश्विक जानकारी एकत्र करती है। एट्विन्स परत के संचालन को इस प्रकार लिखा जा सकता है:

ways to improve brain function

क्रॉसफ़ॉर्मर एनकोडर के लिए, हमने परतों के लिए {16, 32, 64, 128} के आयामों का उपयोग किया, वैश्विक विंडो आकार {4, 2, 2, 1}, स्थानीय विंडो आकार 2, क्रॉस-एंबेडिंग स्ट्राइड्स 2, और क्रॉस - {{2, 4, 8, 16}, {2, 4}, {2, 4}, {2, 4}} के कर्नेल आकार एम्बेड करना।

3.2. डेटा प्रीप्रोसेसिंग

DenseGait और GREW डेटासेट दोनों के लिए, हम एक ही प्रीप्रोसेसिंग प्रक्रिया का उपयोग करते हैं। और क्षैतिज और लंबवत रूप से स्केल करके, मानव शरीर के अनुपात के अनुसार (यानी, कंधों के बीच की दूरी: |xR.कंधे - xL.कंधे| और गर्दन से श्रोणि तक की दूरी: |yneck - ypelvis|)। COCO पोज़ प्रारूप में 18 जोड़ों में से प्रत्येक के प्रत्येक समन्वय (संयुक्त, जोड़) के लिए, हम निम्नलिखित सामान्यीकरण प्रक्रिया लागू करते हैं:

improve your memory

सामान्यीकरण प्रक्रिया के माध्यम से, कैमरे के रिज़ॉल्यूशन और कैमरे से विषय की दूरी के बीच अंतर समाप्त हो जाता है। इसके अलावा, हम किसी विषय की ऊंचाई और चौड़ाई के संबंध में उपस्थिति जानकारी को हटा देते हैं, जो आंदोलन की जानकारी से संबंधित नहीं है। यह चरण आधुनिक चेहरा पहचान मॉडल [42] में संरेखण चरण के समान है। इसके अलावा, हम परिणामी छवि को और सामान्य बनाने के लिए प्रत्येक मॉडल की शुरुआत में एक बैच सामान्यीकरण [43] परत का भी उपयोग करते हैं।

अस्थायी आयाम टी (यानी, फ्रेम की संख्या) और कंकाल स्थानिक आयाम जे (यानी, जोड़ों की संख्या) को देखते हुए, भोले कंकाल अनुक्रमों को आकार (टी, जे, 3) की छवियों के रूप में एन्कोड किया गया है, जहां, हमारे मामले में, टी {{ 1}} और जे=18।

improve memory

हालाँकि, अधिकांश दृष्टि ट्रांसफार्मर यह मानते हैं कि छवियाँ वर्गाकार हैं। इसलिए, हम स्थानिक आयाम का आकार बदलने के कई प्रकार प्रस्तावित करते हैं जैसे कि छवि (टी, टी, 3) में बदल जाती है, जो जोड़ों की संख्या को कृत्रिम रूप से बढ़ाने के बराबर है (चित्र 2 देखें)।

improving brain function