माइक्रोसॉफ्ट वर्ड - गहन शिक्षण बनाम पारंपरिक मॉडल_अब्देल है_अंतिम.भाग 2
Jan 03, 2024
मशीन लर्निंग मॉडल के लिए डेटा तैयार करने के लिए निम्नलिखित डेटा प्रीप्रोसेसिंग तकनीकों का प्रदर्शन किया गया।
डेटा और मेमोरी का आपस में गहरा संबंध है। आधुनिक समाज में, हमें हर दिन बड़ी मात्रा में जानकारी और डेटा प्राप्त होता है, जिसमें पाठ, चित्र, वीडियो आदि शामिल हैं। इस डेटा को प्रभावी ढंग से संसाधित और व्यवस्थित करने के लिए हमारे पास एक मजबूत स्मृति की आवश्यकता होती है।
एक ओर, डेटा हमें मेमोरी सपोर्ट प्रदान कर सकता है। उदाहरण के लिए, जब हम नया ज्ञान सीखते हैं, तो हम प्रासंगिक डेटा और तथ्यों को याद करके ज्ञान बिंदुओं को तेजी से और बेहतर ढंग से समझ सकते हैं और उनमें महारत हासिल कर सकते हैं। इस प्रकार की सीखने की पद्धति हमें एक मजबूत स्मृति बनाने और लंबे समय तक ज्ञान को नियंत्रित करने की क्षमता बनाए रखने में मदद कर सकती है।
दूसरी ओर, डेटा हमें प्रशिक्षित करने और स्मृति में सुधार करने में भी मदद कर सकता है। विभिन्न स्मृति प्रशिक्षण विधियों के माध्यम से, हम स्मृति प्रशिक्षण को पूरा करने के लिए लचीले ढंग से डेटा का उपयोग कर सकते हैं, अपनी स्मृति क्षमता को एक निश्चित सीमा तक बढ़ा सकते हैं, और इस प्रकार समाज के विकास और काम और जीवन की जरूरतों के लिए बेहतर अनुकूलन कर सकते हैं।
यह देखा जा सकता है कि डेटा और मेमोरी के बीच संबंध बहुत करीबी और महत्वपूर्ण है। केवल सक्रिय और प्रभावी ढंग से डेटा को संसाधित और उपयोग करके ही हम अपनी मेमोरी क्षमताओं का बेहतर उपयोग कर सकते हैं और बेहतर परिणाम प्राप्त कर सकते हैं। इसलिए, हमें सक्रिय रूप से डेटा और मेमोरी के बीच संबंध का इलाज करना चाहिए, प्रासंगिक प्रशिक्षण और अनुप्रयोग करना चाहिए और अपनी क्षमताओं में लगातार सुधार करना चाहिए। यह देखा जा सकता है कि हमें याददाश्त में सुधार करने की आवश्यकता है, और सिस्टैंच डेजर्टिकोला याददाश्त में काफी सुधार कर सकता है, क्योंकि सिस्टैंच डेजर्टिकोला न्यूरोट्रांसमीटर के संतुलन को भी नियंत्रित कर सकता है, जैसे एसिटाइलकोलाइन और विकास कारकों के स्तर को बढ़ाना। ये पदार्थ याददाश्त और सीखने के लिए बहुत महत्वपूर्ण हैं। इसके अलावा, मांस रक्त प्रवाह में भी सुधार कर सकता है और ऑक्सीजन वितरण को बढ़ावा दे सकता है, जो यह सुनिश्चित कर सकता है कि मस्तिष्क को पर्याप्त पोषक तत्व और ऊर्जा प्राप्त हो, जिससे मस्तिष्क की जीवन शक्ति और सहनशक्ति में सुधार हो।

मस्तिष्क की कार्यप्रणाली को बेहतर बनाने के उपाय जानने के लिए क्लिक करें
श्रेणीबद्ध विशेषताएँ एक हॉट एन्कोडेड थीं; न्यूनतम-अधिकतम सामान्यीकरण तकनीकों का उपयोग करके निरंतर और असतत सुविधाओं को सामान्यीकृत किया गया,32 को इस प्रकार परिभाषित किया गया:
![]()
निम्नलिखित सुविधाओं में से प्रत्येक के लिए प्रत्येक मुठभेड़ में अलग-अलग संख्या में रिकॉर्डिंग थीं। इस प्रकार, इसके बजाय निम्नलिखित सांख्यिकीय मूल्यों की गणना की गई। डायस्टोलिक और सिस्टोलिक रक्तचाप के लिए, हमने न्यूनतम, अधिकतम और औसत मूल्यों की गणना की।
बीएमआई के लिए, न्यूनतम, अधिकतम, माध्य और विचरण गुणांक का उपयोग किया गया। इन सांख्यिकीय मूल्यों को सामान्यीकृत किया गया और सुविधाओं के रूप में उपयोग किया गया। इसके अलावा, प्रयोगशाला परीक्षणों, निदान और प्रक्रियाओं की अलग-अलग संख्या के कारण मुठभेड़ों में सुविधाओं की संख्या भिन्न होती है। किसी मुठभेड़ में एकाधिक निदान और/या प्रक्रिया कोड या कोई भी नहीं हो सकता है।
इसका समाधान करने और फीचर वैक्टर की आयामीता को एकीकृत करने के लिए, मॉडल की शिक्षा को बढ़ाने के लिए निम्नलिखित डेटा प्रतिनिधित्व तकनीकों का उपयोग किया गया था। निदान और प्रक्रिया कोड के लिए, हमने एक-हॉट एन्कोडिंग के प्रतिनिधित्व का उपयोग किया, जहां प्रत्येक मान को 0 या 1 पर सेट किया गया था, जो दर्शाता है कि प्रत्येक मुठभेड़ के लिए निदान/प्रक्रिया कोड मौजूद था या नहीं। हमने प्रयोगशाला परीक्षणों के लिए इस डेटा प्रतिनिधित्व तकनीक को थोड़ा संशोधित किया क्योंकि प्रत्येक परीक्षण का एक संबद्ध परिणाम होता था।
इसलिए, हमने प्रयोगशाला परिणाम के साथ 1 को प्रतिस्थापित कर दिया, जो दर्शाता है कि एक कोड मौजूद है। समीकरण 1 का उपयोग करके प्रयोगशाला परिणामों को सामान्यीकृत किया गया था। क्योंकि परिणाम अलग-अलग इकाइयों और उपायों के थे, प्रयोगशाला परिणामों को सामान्य करते समय, हमने प्रत्येक प्रयोगशाला कोड के लिए न्यूनतम और अधिकतम पर अलग से विचार किया। इस तकनीक ने कई अद्वितीय कोडों के कारण एक उच्च आयामी विरल सरणी बनाई।
फिर, हमने एम्बेडिंग और कम आयामीता सीखने के लिए सिंगुलर वैल्यू डीकंपोजिशन (एसवीडी) एल्गोरिदम का उपयोग किया। एसवीडी का उपयोग किया गया था क्योंकि यह एक वर्ग मैट्रिक्स को इनपुट के रूप में नहीं मानता है और विरल डेटा के लिए बेहतर है। 33 प्रयोगशाला परीक्षणों को 50 घटकों तक कम कर दिया गया, प्रक्रिया कोड को घटाकर 45 घटक कर दिया गया, और निदान कोड को घटाकर 25 घटक कर दिया गया।
विभिन्न घटकों का पता लगाया गया और आयामीता को कम करने के लिए घटकों की इष्टतम संख्या निर्धारित करने के लिए विचरण अनुपात का योग देखा गया। सभी सुविधाओं को प्रत्येक मुठभेड़ के लिए एक फीचर वेक्टर में संयोजित किया गया था। आयामों को कम करने और एकीकृत करने के लिए प्रत्येक मुठभेड़ पर एसवीडी को अलग से लागू किया गया था; मुठभेड़ों का आयाम प्रति मुठभेड़ 50 सुविधाओं तक कम कर दिया गया था।

फिर, हमने प्रवेश तिथि के अनुसार क्रमिक रूप से आदेशित एक फीचर वेक्टर में किसी दिए गए रोगी के लिए सभी मुठभेड़ों को संयोजित किया। वर्ग वितरण में 27,511 मरीज बिना पुनः प्रवेश (नकारात्मक वर्ग) और 9,130 मरीज जो पुनः प्रवेश (सकारात्मक वर्ग) में थे।
प्रायोगिक दृष्टिकोण
हमने निम्नलिखित उद्देश्यों को संबोधित करने के लिए ईएचआर डेटा का उपयोग करके व्यापक प्रयोग किए:
- भविष्यवाणी करें कि मधुमेह के रोगियों को 30 दिनों के भीतर दोबारा भर्ती किया जाएगा या नहीं
- कई पारंपरिक मॉडलों के साथ प्रयुक्त डीएल विधियों के प्रदर्शन की तुलना करें
- विश्लेषण करें कि 2 वर्षों के भीतर कितने पूर्व मुठभेड़ (यानी, ऐतिहासिक डेटा) पुनः प्रवेश की भविष्यवाणी करने के लिए इष्टतम हैं
- किसी डोमेन विशेषज्ञ द्वारा चुने गए परीक्षणों के सबसेट से सीखने की तुलना में डेटा में सभी प्रयोगशाला परीक्षणों को शामिल करने के प्रभावों का मूल्यांकन करें
इस अध्ययन में, डीएल मॉडल पी रोगियों के लिए प्रत्येक ई मुठभेड़ के लिए एफ सुविधाओं का प्रतिनिधित्व करने के लिए एक इनपुट के रूप में एक 3-3-आयामी टेंसर - एक्स - एक्स - लेते हैं। इसके विपरीत, पारंपरिक मॉडलों में, डेटा को आम तौर पर एक 2-आयामी मैट्रिक्स के रूप में दर्शाया जाता है, जिसमें एक लंबे फीचर वेक्टर में एकल रोगी के अनुरूप सभी मुठभेड़ों की सभी विशेषताएं शामिल होती हैं।
प्रत्येक मुठभेड़ की आयामीता को कम कर दिया गया था और 50 सुविधाओं के लिए एकीकृत किया गया था, इसलिए, एक गहरे मॉडल में - आकार 50 का होता है। एक पारंपरिक मॉडल में फीचर वेक्टर में सभी मुठभेड़ होते हैं और इसलिए इसका आकार - x 50 होता है।
मरीजों की अलग-अलग संख्या में मुठभेड़ होती है जिसके परिणामस्वरूप गैर-समान आयाम होते हैं; इसलिए, एकीकृत रूप प्राप्त करने के लिए फ़ीचर वैक्टर को 0 के साथ जोड़ा गया था। डीएल और पारंपरिक मॉडल के लिए इनपुट के रूप में उपयोग किया जाने वाला डेटा प्रतिनिधित्व क्रमशः चित्र 1 के बाएं और दाएं पैनल पर चित्रित किया गया है।
विषम अनुक्रमिक डेटा को मॉडल करने के लिए, हमने डीएल मॉडल के 2 वेरिएंट विकसित किए और बेसलाइन के रूप में उपयोग किए जाने वाले कई पारंपरिक मॉडलों की तुलना में दोनों की तुलना की। हमारे अध्ययन में उपयोग किए गए डीएल मॉडल थे: 1) 1-वे लॉन्ग शॉर्ट-टर्म मेमोरी (एलएसटीएम) नेटवर्क, जो आवर्तक तंत्रिका नेटवर्क (आरएनएन) का एक प्रकार है जो अनुक्रमिक डेटा 32 पर निर्भरता क्रम सीखने में सक्षम है; और 2) बाईडायरेक्शनल गेटेड रिकरंट यूनिट (जीआरयू), जो आरएनएन का दूसरा प्रकार है।
आधार रेखा के रूप में उपयोग किए जाने वाले पारंपरिक मॉडल थे: 1) रैंडम फ़ॉरेस्ट (आरएफ), वर्गीकरण और प्रतिगमन के लिए एक सामूहिक विधि; प्रशिक्षण के दौरान, यह कई निर्णय वृक्षों का निर्माण करता है; 30 आरएफ अक्सर चिकित्सा डेटा का उपयोग करके भविष्यवाणियों पर मौजूदा साहित्य में अत्याधुनिक प्रदर्शन प्राप्त करता है। 2) मल्टी-लेयर पर्सेप्ट्रॉन (एमएलपी), एक सरल तंत्रिका नेटवर्क मॉडल जो अस्थायी जानकारी के लिए जिम्मेदार नहीं है।
एमएलपी में परसेप्ट्रॉन की कई परतें होती हैं, यह बैकप्रॉपैगेशन लर्निंग करता है और एक गैर-रेखीय सक्रियण फ़ंक्शन का उपयोग करता है। और 4) AdaBoost, जिसमें ओवरफिटिंग का खतरा कम है क्योंकि इसके इनपुट पैरामीटर संयुक्त रूप से अनुकूलित नहीं हैं।

डीएल मॉडल "केरस" पायथन लाइब्रेरीज़, "टेंसरफ्लो" के एक उच्च-स्तरीय एपीआई का उपयोग करके कार्यान्वित किए गए थे। पायथन में पारंपरिक मॉडलों को लागू करने के लिए "स्किकिट-लर्न" लाइब्रेरी का उपयोग किया गया था।
प्रस्तावित मॉडल, एलएसटीएम की वास्तुकला में 128 न्यूरॉन्स, एक अनुक्रमिक परत, एक रीशेप परत शामिल है जिसका उपयोग 3-आयामी टेंसर में इनपुट को दोबारा आकार देने के लिए किया जाता है, और 0 के मास्क मान के साथ एक मास्किंग परत होती है। उन टाइमस्टेप्स को छोड़ने के लिए उपयोग किया जाता है जिनके लिए डेटा गायब था।
चूंकि आयामों को एकीकृत करने के लिए 0s के साथ पैडिंग की गई थी, इसलिए मास्किंग परत के बाद सभी परतों में लापता मानों के साथ किसी भी गणना से बचने के लिए मास्किंग परत का उपयोग किया गया था, इसलिए, सीखने के दौरान लापता मूल्यों को ध्यान में नहीं रखा गया था।
इसके अतिरिक्त, छुपे हुए और आउटपुटलेयर्स के बीच एक ड्रॉपआउट जोड़ा गया था। ड्रॉप करने के लिए दिए गए प्रतिशत को बेतरतीब ढंग से चुनने के लिए इस तकनीक का उपयोग करना, एक सामान्य नियमितीकरण तकनीक है जो मॉडल को डेटा में सामान्य पैटर्न सीखने में सहायता करती है।
आरएनएन तंत्रिका नेटवर्क का एक प्रकार है, जिसमें छिपे हुए न्यूरॉन्स होते हैं जो अस्थायी ईएचआरडेटा का विश्लेषण करने में सक्षम होते हैं। 32 आरएनएन में मूल तंत्रिका नेटवर्क के समान संरचना होती है, लेकिन एक ही परत में न्यूरॉन्स जुड़े होते हैं, जिससे न्यूरॉन को उसी से सीखने की अनुमति मिलती है। पिछली परतों के आउटपुट और इनपुट डेटा से सीखने के अलावा, पड़ोसी परतें। इस प्रकार, आरएनएन न्यूरॉन्स में इनपुट के दो स्रोत शामिल हैं, वर्तमान और हाल का अतीत। सीखने की प्रक्रिया को इस प्रकार परिभाषित किया गया है:

एक छिपे हुए न्यूरॉन के मूल्य � की गणना करने के लिए, �, एक गैर-रेखीय परिवर्तन फ़ंक्शन, ReLU, को उसके बाएं छिपे हुए न्यूरॉन के भारित �मान �"#$ और उसके इनपुट के भारित � मान �पर लागू किया जाता है।
भविष्यवाणियों की गणना अतिरिक्त पूर्वाग्रह के साथ सभी छिपे हुए न्यूरॉन्स के भारित योग के एसिग्मॉइड फ़ंक्शन का उपयोग करके की जाती है। आरएनएन का दोष यह है कि यह गायब होने वाली ग्रेडिएंट समस्या से ग्रस्त है, जिसका अर्थ है कि वजन अपरिवर्तित रहता है जिससे मॉडल के लिए एकाग्र होना मुश्किल हो जाता है, इसलिए, मॉडल को सीखने में कठिनाई होती है।
इसे हल करने के लिए, एक LSTM परत पेश की गई जिसमें RNN के सिग्मोइडन्यूरॉन्स को अधिक जटिल अल्पकालिक मेमोरी संरचना के साथ बदल दिया जाता है। LSTM सभी परतों में समान भार साझा करता है, जिससे नेटवर्क द्वारा गणना किए जाने वाले मापदंडों की संख्या कम हो जाती है।

जीआरयू लुप्त हो रही ग्रेडिएंट समस्या का एक वैकल्पिक समाधान है। यह सरल न्यूरॉन को एक गेटेड इकाई से प्रतिस्थापित करता है, जिसमें LSTM न्यूरॉन्स की तुलना में कम पैरामीटर होते हैं क्योंकि इसमें आउटपुट गेट का अभाव होता है।33
For more information:1950477648nn@gmail.com






