पर्यवेक्षित शिक्षण बनाम। अप्रशिक्षित शिक्षण एल्गोरिदम

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

परिचय

मशीन लर्निंग (एमएल) अध्ययन का एक क्षेत्र है जो डेटा से स्वचालित रूप से सीखने के लिए एल्गोरिदम विकसित करने पर ध्यान केंद्रित करता है, भविष्यवाणियां करता है और इसे कैसे करना है, यह स्पष्ट रूप से बताए बिना पैटर्न का अनुमान लगाता है। इसका उद्देश्य ऐसे सिस्टम बनाना है जो अनुभव और डेटा के साथ स्वचालित रूप से बेहतर हों।

यह पर्यवेक्षित शिक्षा के माध्यम से प्राप्त किया जा सकता है, जहां मॉडल को भविष्यवाणियां करने के लिए लेबल किए गए डेटा का उपयोग करके प्रशिक्षित किया जाता है, या अप्रशिक्षित शिक्षा के माध्यम से, जहां मॉडल पूर्वानुमान के लिए विशिष्ट लक्ष्य आउटपुट के बिना डेटा के भीतर पैटर्न या सहसंबंधों को उजागर करना चाहता है।

एमएल कंप्यूटर विज्ञान, जीव विज्ञान, वित्त और विपणन सहित विभिन्न विषयों में एक अनिवार्य और व्यापक रूप से नियोजित उपकरण के रूप में उभरा है। छवि वर्गीकरण, प्राकृतिक भाषा प्रसंस्करण और धोखाधड़ी का पता लगाने जैसे विविध अनुप्रयोगों में इसने अपनी उपयोगिता सिद्ध की है।

मशीन लर्निंग टास्क

मशीन लर्निंग को मोटे तौर पर तीन मुख्य कार्यों में वर्गीकृत किया जा सकता है:

पर्यवेक्षित अध्ययन
अशिक्षित शिक्षा
सुदृढीकरण सीखना

यहां, हम पहले दो मामलों पर ध्यान देंगे।

मशीन लर्निंग

पर्यवेक्षित अध्ययन

पर्यवेक्षित शिक्षण में लेबल किए गए डेटा पर एक मॉडल को प्रशिक्षित करना शामिल है, जहां इनपुट डेटा को संबंधित आउटपुट या लक्ष्य चर के साथ जोड़ा जाता है। लक्ष्य एक ऐसे फ़ंक्शन को सीखना है जो इनपुट डेटा को सही आउटपुट में मैप कर सके। सामान्य पर्यवेक्षित शिक्षण एल्गोरिदम में रेखीय प्रतिगमन, लॉजिस्टिक प्रतिगमन, निर्णय वृक्ष और समर्थन वेक्टर मशीनें शामिल हैं।

पायथन का उपयोग करके पर्यवेक्षित शिक्षण कोड का उदाहरण:

from sklearn.linear_model import LinearRegression model = LinearRegression() model.fit(X_train, y_train) predictions = model.predict(X_test)

इस सरल कोड उदाहरण में, हम प्रशिक्षित करते हैं LinearRegression हमारे प्रशिक्षण डेटा पर स्किकिट-लर्न से एल्गोरिथ्म, और फिर इसे हमारे परीक्षण डेटा के लिए पूर्वानुमान प्राप्त करने के लिए लागू करें।

रेखीय प्रतिगमन

पर्यवेक्षित शिक्षण का एक वास्तविक-विश्व उपयोग मामला ईमेल स्पैम वर्गीकरण है। ईमेल संचार की घातीय वृद्धि के साथ, स्पैम ईमेल को पहचानना और फ़िल्टर करना महत्वपूर्ण हो गया है। पर्यवेक्षित शिक्षण एल्गोरिदम का उपयोग करके, लेबल किए गए डेटा के आधार पर वैध ईमेल और स्पैम के बीच अंतर करने के लिए एक मॉडल को प्रशिक्षित करना संभव है।

पर्यवेक्षित शिक्षण मॉडल को "स्पैम" या "स्पैम नहीं" के रूप में लेबल किए गए ईमेल वाले डेटासेट पर प्रशिक्षित किया जा सकता है। मॉडल लेबल किए गए डेटा से पैटर्न और विशेषताएं सीखता है, जैसे कुछ कीवर्ड, ईमेल संरचना या ईमेल प्रेषक जानकारी की उपस्थिति। एक बार जब मॉडल प्रशिक्षित हो जाता है, तो इसका उपयोग आने वाले ईमेल को स्वचालित रूप से स्पैम या गैर-स्पैम के रूप में वर्गीकृत करने के लिए किया जा सकता है, अवांछित संदेशों को प्रभावी ढंग से फ़िल्टर कर सकता है।

अनसुनी हुई पढ़ाई

अप्रशिक्षित शिक्षण में, इनपुट डेटा को लेबल नहीं किया जाता है, और लक्ष्य डेटा के भीतर पैटर्न या संरचनाओं की खोज करना है। अनियंत्रित शिक्षण एल्गोरिदम का उद्देश्य डेटा में सार्थक प्रतिनिधित्व या समूह खोजना है।

अप्रशिक्षित शिक्षण एल्गोरिदम के उदाहरणों में शामिल हैं k- साधन क्लस्टरिंग, पदानुक्रमित क्लस्टरिंग, तथा प्रमुख घटक विश्लेषण (पीसीए).

अप्रशिक्षित शिक्षण कोड का उदाहरण:

from sklearn.cluster import KMeans model = KMeans(n_clusters=3) model.fit(X) predictions = model.predict(X_new)

इस सरल कोड उदाहरण में, हम प्रशिक्षित करते हैं KMeans हमारे डेटा में तीन क्लस्टर्स की पहचान करना और फिर उन क्लस्टर्स में नए डेटा को फिट करना स्किकिट-लर्न से एल्गोरिद्म।

क्लस्टरिंग

एक अप्रशिक्षित शिक्षण उपयोग मामले का एक उदाहरण ग्राहक विभाजन है। विभिन्न उद्योगों में, व्यवसायों का लक्ष्य अपने ग्राहक आधार को बेहतर ढंग से समझना है ताकि उनकी मार्केटिंग रणनीतियों को तैयार किया जा सके, उनके प्रसाद को वैयक्तिकृत किया जा सके और ग्राहक अनुभवों को अनुकूलित किया जा सके। ग्राहकों को उनकी साझा विशेषताओं और व्यवहारों के आधार पर अलग-अलग समूहों में खंडित करने के लिए अनियंत्रित शिक्षण एल्गोरिदम को नियोजित किया जा सकता है।

सर्वोत्तम प्रथाओं, उद्योग-स्वीकृत मानकों और शामिल चीट शीट के साथ, Git सीखने के लिए व्यावहारिक मार्गदर्शिका देखें। Googling Git कमांड को रोकें और वास्तव में सीखना यह!

क्लस्टरिंग जैसी अप्रशिक्षित शिक्षण तकनीकों को लागू करके, व्यवसाय अपने ग्राहक डेटा के भीतर सार्थक पैटर्न और समूहों को उजागर कर सकते हैं। उदाहरण के लिए, क्लस्टरिंग एल्गोरिदम समान खरीदारी की आदतों, जनसांख्यिकी या वरीयताओं वाले ग्राहकों के समूहों की पहचान कर सकते हैं। लक्षित विपणन अभियान बनाने, उत्पाद अनुशंसाओं को अनुकूलित करने और ग्राहकों की संतुष्टि में सुधार करने के लिए इस जानकारी का लाभ उठाया जा सकता है।

मुख्य एल्गोरिदम कक्षाएं

सुपरवाइज्ड लर्निंग एल्गोरिदम

रैखिक मॉडल: सुविधाओं और लक्ष्य चर के बीच रैखिक संबंधों के आधार पर निरंतर चर की भविष्यवाणी करने के लिए उपयोग किया जाता है।
वृक्ष-आधारित मॉडल: भविष्यवाणी या वर्गीकरण करने के लिए द्विआधारी निर्णयों की एक श्रृंखला का उपयोग करके निर्मित।
एन्सेम्बल मॉडल: ऐसी विधि जो अधिक सटीक भविष्यवाणियां करने के लिए कई मॉडलों (ट्री-आधारित या रैखिक) को जोड़ती है।
तंत्रिका नेटवर्क मॉडल: मानव मस्तिष्क पर आधारित तरीके, जहां कई कार्य एक नेटवर्क के नोड के रूप में काम करते हैं।

अनसुपरवाइज्ड लर्निंग एल्गोरिथम

पदानुक्रमित क्लस्टरिंग: समूहों को पुनरावृत्त रूप से विलय या विभाजित करके उनका एक पदानुक्रम बनाता है।
गैर-श्रेणीबद्ध क्लस्टरिंग: समानता के आधार पर डेटा को अलग-अलग समूहों में विभाजित करता है।
आयामीता में कमी: सबसे महत्वपूर्ण जानकारी को संरक्षित करते हुए डेटा की आयामीता को कम करता है।

मॉडल मूल्यांकन

पर्यवेक्षित अध्ययन

पर्यवेक्षित शिक्षण मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, विभिन्न मेट्रिक्स का उपयोग किया जाता है, जिसमें सटीकता, सटीकता, रिकॉल, F1 स्कोर और ROC-AUC शामिल हैं। क्रॉस-वैलिडेशन तकनीक, जैसे कि के-फोल्ड क्रॉस-वैलिडेशन, मॉडल के सामान्यीकरण प्रदर्शन का अनुमान लगाने में मदद कर सकती है।

अनसुनी हुई पढ़ाई

अप्रशिक्षित शिक्षण एल्गोरिदम का मूल्यांकन करना अक्सर अधिक चुनौतीपूर्ण होता है क्योंकि कोई जमीनी सच्चाई नहीं होती है। क्लस्टरिंग परिणामों की गुणवत्ता का आकलन करने के लिए सिल्हूट स्कोर या जड़ता जैसे मेट्रिक्स का उपयोग किया जा सकता है। विज़ुअलाइज़ेशन तकनीकें क्लस्टर की संरचना में अंतर्दृष्टि भी प्रदान कर सकती हैं।

युक्तियाँ और चालें

पर्यवेक्षित अध्ययन

मॉडल के प्रदर्शन को बेहतर बनाने के लिए इनपुट डेटा को प्रीप्रोसेस और सामान्य करें।
लापता मूल्यों को उचित रूप से संभालें, या तो आरोप लगाकर या हटाकर।
फीचर इंजीनियरिंग प्रासंगिक पैटर्न को पकड़ने के लिए मॉडल की क्षमता को बढ़ा सकती है।

अनसुनी हुई पढ़ाई

डोमेन ज्ञान के आधार पर या कोहनी विधि जैसी तकनीकों का उपयोग करके उचित संख्या में क्लस्टर चुनें।
डेटा बिंदुओं के बीच समानता को मापने के लिए अलग-अलग दूरी के मेट्रिक्स पर विचार करें।
ओवरफिटिंग से बचने के लिए क्लस्टरिंग प्रक्रिया को नियमित करें।

संक्षेप में, मशीन लर्निंग में कई कार्य, तकनीक, एल्गोरिदम, मॉडल मूल्यांकन के तरीके और सहायक संकेत शामिल हैं। इन पहलुओं को समझकर, चिकित्सक मशीन लर्निंग को वास्तविक दुनिया के मुद्दों पर प्रभावी ढंग से लागू कर सकते हैं और डेटा से महत्वपूर्ण अंतर्दृष्टि प्राप्त कर सकते हैं। दिए गए कोड उदाहरण पर्यवेक्षित और अनुपयोगी शिक्षण एल्गोरिदम के उपयोग को प्रदर्शित करते हैं, उनके व्यावहारिक कार्यान्वयन पर प्रकाश डालते हैं।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
ईवीएम वित्त। विकेंद्रीकृत वित्त के लिए एकीकृत इंटरफ़ेस। यहां पहुंचें।
क्वांटम मीडिया समूह। आईआर/पीआर प्रवर्धित। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 डेटा इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
स्रोत: https://stackabuse.com/supervised-learning-vs-unsupervised-learning-algorithms/

समय टिकट: 7 जून 2023