डाटंबॉक्स मशीन लर्निंग फ्रेमवर्क 0.6.0 का विमोचन किया

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

डेटांबॉक्स मशीन लर्निंग फ्रेमवर्क का नया संस्करण जारी किया गया है! इसे अभी से डाउनलोड करें Github or मावेन सेंट्रल रिपोजिटरी.

नया क्या है?

का मुख्य फोकस 0.6.0 संस्करण बड़े डेटा को संभालने के लिए फ्रेमवर्क का विस्तार करना, कोड आर्किटेक्चर और सार्वजनिक एपीआई में सुधार करना, डेटा पार्सिंग को सरल बनाना, प्रलेखन को बढ़ाना और एक अनुज्ञापी लाइसेंस पर जाना है।

आइए इस संस्करण के परिवर्तनों को विस्तार से देखें:

बड़े डेटा को हैंडल करें: बेहतर मेमोरी प्रबंधन और नए हठ भंडारण इंजन ने फ्रेम को कई जीबी के बड़े डेटासेट को संभालने में सक्षम किया। का समर्थन जोड़ रहा है मैपडीबी डेटाबेस इंजन फ्रेमवर्क को मेमोरी में सभी डेटा को स्टोर करने से बचने में सक्षम बनाता है और इस प्रकार बड़े डेटा को संभालने में सक्षम होता है। डिफ़ॉल्ट InMemory इंजन को अधिक कुशल बनाने के लिए फिर से डिज़ाइन किया गया है जबकि प्रदर्शन मुद्दों के कारण MongoDB इंजन को हटा दिया गया था।
बेहतर और सरलीकृत ढांचा वास्तुकला: अमूर्तता का स्तर काफी कम हो गया है और कई मुख्य घटकों को नया रूप दिया गया है। विशेष रूप से दृढ़ता भंडारण प्रणालियों को फिर से लिखा जाता है और कई अनावश्यक सुविधाओं और डेटा संरचनाओं को हटा दिया जाता है।
नया "स्किकिट-लर्न-लाइक" सार्वजनिक एपीआई: एल्गोरिदम के सभी सार्वजनिक तरीकों को पायथन के स्किकिट-लर्न एपीआई (फिट / भविष्यवाणी / रूपांतर प्रतिमान) के समान बदला जाता है। नए सार्वजनिक तरीके अधिक लचीले, आसान और उपयोग करने के लिए अधिक अनुकूल हैं।
डेटा पार्सिंग को सरल बनाएं: नया ढाँचा सुविधा विधियों के एक सेट के साथ आता है जो CSV या पाठ फ़ाइलों के तेज़ पार्सिंग और डेटासेट ऑब्जेक्ट्स में उनके रूपांतरण की अनुमति देता है।
बेहतर प्रलेखन: सभी सार्वजनिक / संरक्षित वर्गों और फ्रेमवर्क के तरीकों को Javadoc टिप्पणियों का उपयोग करके प्रलेखित किया गया है। इसके अतिरिक्त नया संस्करण बेहतर JUnit परीक्षण प्रदान करता है जो फ्रेमवर्क के प्रत्येक एल्गोरिदम का उपयोग करने के महान उदाहरण हैं।
नया अपाचे लाइसेंस: फ्रेमवर्क का सॉफ्टवेयर लाइसेंस "से बदल गया है"GNU जनरल पब्लिक लाइसेंस v3.0"करने के लिए"अपाचे लाइसेंस, संस्करण 2.0"। नया लाइसेंस अनुमन्य है और यह वाणिज्यिक सॉफ्टवेयर के भीतर पुनर्वितरण की अनुमति देता है।

चूंकि फ्रेमवर्क का एक बड़ा हिस्सा इसे अधिक कुशल और उपयोग करने में आसान बनाने के लिए फिर से लिखा गया था, संस्करण 0.6.0 है संगत नहीं है ढांचे के पहले संस्करणों के साथ। अंत में रूपरेखा बीटा विकास के चरण में अल्फा से स्थानांतरित हो गई और इसे अधिक स्थिर माना जाना चाहिए।

इसका इस्तेमाल करने के लिए कैसे

पिछले ब्लॉग पोस्ट में, हमने एक प्रदान किया है विस्तृत अधिष्ठापन गाइड फ्रेमवर्क को कैसे स्थापित करें। यह मार्गदर्शिका अभी भी नए संस्करण के लिए मान्य है। इसके अतिरिक्त इस नए संस्करण में आप कई पा सकते हैं कोड उदाहरण फ्रेमवर्क के मॉडल और एल्गोरिदम का उपयोग कैसे करें।

अगला कदम और रोडमैप

फ्रेमवर्क का विकास जारी रहेगा और संस्करण 1.0 जारी करने से पहले निम्नलिखित संवर्द्धन किए जाने चाहिए:

Usआईएनजी कंसोल से फ्रेमवर्क: भले ही फ्रेमवर्क का मुख्य लक्ष्य मशीन लर्निंग अनुप्रयोगों के विकास में सहायता करना है, लेकिन इसे गैर-जावा डेवलपर्स से उपयोग में आसान बनाया जाना चाहिए। महावत के समान दृष्टिकोण के बाद, फ्रेमवर्क को कंसोल कमांड का उपयोग करके एल्गोरिदम तक पहुंच प्रदान करनी चाहिए। इंटरफ़ेस सरल, प्रयोग करने में आसान और विभिन्न एल्गोरिदम को आसानी से संयोजित किया जाना चाहिए।
समर्थन बहु सूत्रण: वर्तमान में रूपरेखा केवल क्लीन-अप प्रक्रियाओं और डिस्क में एसिंक्रोनस लेखन के लिए थ्रेड्स का उपयोग करती है। फिर भी कुछ एल्गोरिदम को समानांतर किया जा सकता है और यह निष्पादन समय को काफी कम कर देगा। इन मामलों में समाधान सुरुचिपूर्ण होना चाहिए और मशीन लर्निंग एल्गोरिदम के आंतरिक तर्क / गणित को जितना संभव हो उतना कम संशोधित करना चाहिए।
2d सरणियों और मैट्रिक्स का उपयोग कम करें: एल्गोरिदम की एक छोटी संख्या अभी भी 2d सरणियों और मैट्रिस का उपयोग करती है। यह सभी डेटा को मेमोरी में लोड करने का कारण बनता है जो कि उपयोग किए जाने वाले डेटासेट के आकार को सीमित करता है। कुछ एल्गोरिदम (जैसे कि पीसीए) को मैट्रिसेस के उपयोग से बचने के लिए फिर से लागू किया जाना चाहिए, जबकि अन्य (जैसे गॉसियनडीपीएमएम, मल्टीमोनियलडीपीएमएम आदि) के लिए हमें विरल मैट्रिस का उपयोग करना चाहिए।

आगामी संस्करणों में किए जाने वाले अन्य महत्वपूर्ण कार्य:

नई मशीन लर्निंग एल्गोरिदम शामिल करें: कई महान एल्गोरिदम का समर्थन करने के लिए रूपरेखा का विस्तार किया जा सकता है, जैसे मिक्सचर ऑफ़ गॉसियन, गॉसियन प्रोसेस, के-एनएन, निर्णय पेड़, कारक विश्लेषण, एसवीडी, पीएलएसआई, कृत्रिम तंत्रिका नेटवर्क आदि।
प्रलेखन में सुधार, टेस्ट कवरेज और कोड उदाहरण: एक बेहतर प्रलेखन बनाएँ, JUnit परीक्षणों में सुधार करें, कोड टिप्पणियों को बढ़ाएँ, एल्गोरिदम आदि का उपयोग करने के बारे में बेहतर उदाहरण प्रदान करें।
वास्तुकला में सुधार & ऑप्टिमाइज़ कोड: आगे की सरलीकरण और रूपरेखा की वास्तुकला पर सुधार, अमूर्तता को युक्तिसंगत बनाना, डिजाइन में सुधार, गति और स्मृति की खपत को अनुकूलित करना आदि।

जैसा कि आप देख सकते हैं कि यह एक लंबी सड़क है और मैं कुछ मदद का उपयोग कर सकता हूं। यदि आप चुनौती के लिए तैयार हैं मुझे एक पंक्ति ड्रॉप या github पर अपना पुल अनुरोध भेजें।

आभार

मैं धन्यवाद करना चाहूँगा इलेफ्थेरियोस बम्पाल्टाकिस फ्रेमवर्क की वास्तुकला में सुधार पर उनके अमूल्य इनपुट के लिए। इसके अलावा मैं धन्यवाद देना चाहूंगा ej- प्रौद्योगिकी GmbH मुझे उनके जावा प्रोफाइलर के लिए लाइसेंस प्रदान करने के लिए। इसके अलावा मेरे यश जन कोटेक MapDB भंडारण इंजन में उनके अद्भुत काम के लिए। पिछले नहीं बल्कि कम से कम, मेरी प्रेमिका Kyriaki को मेरे साथ रखने के लिए मेरा प्यार।

Datumbox v0.6.0 का कोड डाउनलोड करना न भूलें Github। पुस्तकालय भी उपलब्ध है मावेन सेंट्रल रिपोजिटरी। अपने जावा प्रोजेक्ट में लाइब्रेरी का उपयोग करने के तरीके के बारे में अधिक जानकारी के लिए निम्नलिखित की जांच करें गाइड या हमारे गिथब रेपो के मुख्य पृष्ठ पर दिए गए निर्देशों को पढ़ें।

मुझे आपकी टिप्पणियों और सिफारिशों की प्रतीक्षा है। पुल अनुरोधों का हमेशा स्वागत है! 🙂

समय टिकट: 4 मई 2015जुलाई 19, 2022

समय टिकट: अक्टूबर 10, 2021

डाटंबॉक्स मशीन लर्निंग फ्रेमवर्क 0.6.0 का विमोचन किया

प्लेटो द्वारा पुनर्प्रकाशित

नया क्या है?

इसका इस्तेमाल करने के लिए कैसे

अगला कदम और रोडमैप

आभार

से अधिक दातुनॉक्स

पाठ वर्गीकरण में फ़ीचर चयन विधियों का उपयोग करना

2048 गेम (JAVA कोड) को हल करने के लिए आर्टिफिशियल इंटेलिजेंस का उपयोग करना

लिनक्स dstat टूल के साथ NVIDIA कार्ड का GPU उपयोग प्राप्त करना

डेटंबॉक्स मशीन लर्निंग फ्रेमवर्क v0.8.2 जारी किया

डेटंबॉक्स मशीन लर्निंग फ्रेमवर्क संस्करण 0.8.0 जारी किया

JAVA में एक Naive Bayes Text Classifier का विकास करना

जावा में DEA के साथ पेजों की सोशल मीडिया लोकप्रियता को मापने

नई ब्लॉग श्रृंखला - एक टॉर्चविज़न डेवलपर के संस्मरण

डेटा एनवलपमेंट एनालिसिस ट्यूटोरियल

Datumbox Machine Learning Framework को स्थापित और उपयोग कैसे करें

ड्यूरिचलेट प्रक्रिया मिश्रण मॉडल के साथ दस्तावेजों और गाऊसी डेटा को क्लस्टर करना

TorchVision v0.11 पर एक झलक - एक TorchVision डेवलपर के संस्मरण - 2

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा