Amazon SageMaker के साथ ImmoScout24 पर आवासीय अचल संपत्ति की कीमतों की भविष्यवाणी करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

यह लुकास मुलर, एडब्ल्यूएस सॉल्यूशंस आर्किटेक्ट के साथ साझेदारी में, इम्मोस्काउट24 के डेटा वैज्ञानिक ओलिवर फ्रॉस्ट द्वारा एक अतिथि पोस्ट है।

2010 में, इम्मोस्काउट24 जर्मनी में आवासीय अचल संपत्ति के लिए एक मूल्य सूचकांक जारी किया: आईएमएक्स। यह ImmoScout24 लिस्टिंग पर आधारित था। कीमत के अलावा, लिस्टिंग में आम तौर पर निर्माण वर्ष, भूखंड का आकार, या कमरों की संख्या जैसी बहुत सी विशिष्ट जानकारी होती है। इस जानकारी ने हमें एक तथाकथित सुखमय मूल्य सूचकांक बनाने की अनुमति दी, जो एक अचल संपत्ति संपत्ति की विशेष विशेषताओं पर विचार करता है।

जब हमने आईएमएक्स जारी किया, तो हमारा लक्ष्य इसे जर्मनी में अचल संपत्ति की कीमतों के लिए मानक सूचकांक के रूप में स्थापित करना था। हालांकि, यह 2008 के वित्तीय संकट के बाद से जर्मन संपत्ति बाजार में मूल्य वृद्धि पर कब्जा करने के लिए संघर्ष कर रहा था। इसके अलावा, स्टॉक मार्केट इंडेक्स की तरह, यह एक अमूर्त आंकड़ा था जिसे सीधे व्याख्या नहीं किया जा सकता है। इसलिए गैर-विशेषज्ञों के लिए आईएमएक्स को समझना मुश्किल था।

ImmoScout24 में, हमारा मिशन जटिल निर्णयों को आसान बनाना है, और हमने महसूस किया कि हमें इसे पूरा करने के लिए एक नई अवधारणा की आवश्यकता है। एक अन्य सूचकांक के बजाय, हमने एक बाजार रिपोर्ट बनाने का फैसला किया, जिसे हर कोई आसानी से समझ सके: वोहन बैरोमीटर। यह हमारे लिस्टिंग डेटा पर आधारित है और ऑब्जेक्ट गुणों को ध्यान में रखता है। IMX से मुख्य अंतर यह है कि WohnBarometer समय के साथ विशिष्ट आवासीय अचल संपत्ति प्रकारों के लिए प्रति वर्ग मीटर यूरो में किराया और बिक्री मूल्य दिखाता है। इसलिए आंकड़ों की सीधे व्याख्या की जा सकती है और हमारे ग्राहकों को "क्या मैं बहुत अधिक किराए का भुगतान करता हूं?" जैसे सवालों के जवाब देने की अनुमति देता हूं। या "क्या मैं जिस अपार्टमेंट को खरीदने जा रहा हूं वह उचित मूल्य पर है?" या "मेरे क्षेत्र का कौन सा शहर निवेश के लिए सबसे आशाजनक शहर है?" वर्तमान में, WohnBarometer को समग्र रूप से जर्मनी, सात सबसे बड़े शहरों और वैकल्पिक स्थानीय बाजारों के लिए रिपोर्ट किया गया है।

निम्न ग्राफ़ बर्लिन के लिए बिक्री मूल्य और प्रति तिमाही विकास के साथ WohnBarometer का एक उदाहरण दिखाता है।

यह पोस्ट चर्चा करती है कि ImmoScout24 कैसे उपयोग करता है अमेज़न SageMaker हमारे ग्राहकों के लिए प्रासंगिक बनाने के लिए WohnBarometer के लिए मॉडल बनाने के लिए। यह अंतर्निहित डेटा मॉडल, हाइपरपैरामीटर ट्यूनिंग और तकनीकी सेटअप पर चर्चा करता है। यह पोस्ट यह भी दिखाती है कि कैसे सेजमेकर ने 2 महीने के भीतर वोहन बैरोमीटर को पूरा करने के लिए एक डेटा वैज्ञानिक का समर्थन किया। IMX के पहले संस्करण को विकसित करने में पूरी टीम को 2 साल लगे। WohnBarometer के लिए ऐसा निवेश कोई विकल्प नहीं था।

ImmoScout24 . के बारे में

ImmoScout24 जर्मनी में आवासीय और वाणिज्यिक अचल संपत्ति के लिए अग्रणी ऑनलाइन प्लेटफॉर्म है। 20 से अधिक वर्षों से, ImmoScout24 रियल एस्टेट बाजार में क्रांति ला रहा है और नए घरों या व्यावसायिक स्थानों को खोजने के लिए अपने ऑनलाइन मार्केटप्लेस या अपने ऐप पर हर महीने 20 मिलियन से अधिक उपयोगकर्ताओं का समर्थन करता है। इसलिए हमारे लक्षित ग्राहक समूह के 99% लोग ImmoScout24 को जानते हैं। अपने डिजिटल समाधानों के साथ, ऑनलाइन मार्केटप्लेस मालिकों, रीयलटर्स, किरायेदारों और खरीदारों को सफलतापूर्वक एक साथ लाता है। ImmoScout24 अचल संपत्ति लेनदेन की प्रक्रिया को डिजिटाइज़ करने के लक्ष्य की दिशा में काम कर रहा है और इस तरह जटिल निर्णयों को आसान बना रहा है। 2012 से, ImmoScout24 ऑस्ट्रियाई रियल एस्टेट बाजार में भी सक्रिय रहा है, जो मासिक रूप से लगभग 3 मिलियन उपयोगकर्ताओं तक पहुंचता है।

ऑन-प्रिमाइसेस से एडब्ल्यूएस डेटा पाइपलाइन से सेजमेकर तक

इस खंड में, हम पिछले सेटअप और इसकी चुनौतियों पर चर्चा करते हैं, और हमने अपने नए मॉडल के लिए सेजमेकर का उपयोग करने का निर्णय क्यों लिया।

पिछला सेटअप

जब 2010 में IMX का पहला संस्करण प्रकाशित हुआ था, तब भी अधिकांश व्यवसायों के लिए क्लाउड एक रहस्य था, जिसमें ImmoScout24 भी शामिल था। मशीन लर्निंग (एमएल) का क्षेत्र अपनी प्रारंभिक अवस्था में था और केवल कुछ ही विशेषज्ञ मॉडल को कोड करना जानते थे (उदाहरण के लिए, स्किकिट-लर्न की पहली सार्वजनिक रिलीज़ फरवरी 2010 में हुई थी)। यह कोई आश्चर्य की बात नहीं है कि IMX के विकास में 2 साल से अधिक का समय लगा और इसकी लागत सात अंकों की थी।

2015 में, ImmoScout24 ने अपना AWS माइग्रेशन शुरू किया, और AWS इन्फ्रास्ट्रक्चर पर IMX का पुनर्निर्माण किया। हमारे में डेटा के साथ अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) डेटा लेक, डेटा प्रीप्रोसेसिंग और मॉडल प्रशिक्षण दोनों अब पर किए गए थे अमेज़ॅन ईएमआर द्वारा आयोजित क्लस्टर AWS डेटा पाइपलाइन. जबकि पूर्व एक पाइस्पार्क ईटीएल एप्लिकेशन था, बाद वाला शास्त्रीय एमएल पैकेज (जैसे स्किकिट-लर्न) का उपयोग करते हुए कई पायथन स्क्रिप्ट था।

इस सेटअप की समस्याएं

हालाँकि यह सेटअप काफी स्थिर साबित हुआ, लेकिन बुनियादी ढांचे का समस्या निवारण या मॉडल में सुधार करना आसान नहीं था। मॉडल के साथ एक प्रमुख समस्या इसकी जटिलता थी, क्योंकि कुछ घटकों ने अपने दम पर एक जीवन शुरू किया था: अंत में, बाहरी पहचान का कोड कोर आईएमएक्स मॉडल के कोड से लगभग दोगुना लंबा था।

मूल मॉडल, वास्तव में, एक मॉडल नहीं था, बल्कि सैकड़ों था: प्रति आवासीय अचल संपत्ति प्रकार और क्षेत्र में एक मॉडल, जिसकी परिभाषा एक बड़े शहर में एक पड़ोस से ग्रामीण क्षेत्रों के कई गांवों में भिन्न होती है। उदाहरण के लिए, हमारे पास बर्लिन के मध्य में बिक्री के लिए अपार्टमेंट के लिए एक मॉडल और म्यूनिख के एक उपनगर में बिक्री के लिए घरों के लिए एक मॉडल था। चूंकि इन सभी मॉडलों के प्रशिक्षण को स्थापित करने में बहुत समय लगता है, इसलिए हमने हाइपरपैरामीटर ट्यूनिंग को छोड़ दिया, जिसके कारण मॉडल खराब प्रदर्शन कर सकते हैं।

हमने सेजमेकर पर फैसला क्यों किया

इन मुद्दों और व्यावहारिक लाभ के साथ बाजार रिपोर्ट रखने की हमारी महत्वाकांक्षा को देखते हुए, हमें मौजूदा कोड के बड़े हिस्से को फिर से लिखने या खरोंच से शुरू करने के बीच फैसला करना पड़ा। जैसा कि आप इस पोस्ट से अनुमान लगा सकते हैं, हमने बाद वाले को चुना। लेकिन सेजमेकर क्यों?

IMX पर बिताया गया हमारा अधिकांश समय मॉडल में सुधार नहीं, बल्कि बुनियादी ढांचे के समस्या निवारण में चला गया। नई बाजार रिपोर्ट के लिए, हम मॉडल के सांख्यिकीय प्रदर्शन पर ध्यान देने के साथ इसे इधर-उधर करना चाहते थे। हम यह भी चाहते थे कि मॉडल के अलग-अलग घटकों को जल्दी से बदलने के लिए लचीलापन हो, जैसे कि हाइपरपैरामीटर का अनुकूलन। क्या होगा यदि एक नया बेहतर बूस्टिंग एल्गोरिदम आता है (इस बारे में सोचें कि 2014 में XGBoost ने मंच पर कैसे मारा)? बेशक, हम इसे पहले में से एक के रूप में अपनाना चाहते हैं!

सेजमेकर में, शास्त्रीय एमएल वर्कफ़्लो के प्रमुख घटक- प्रीप्रोसेसिंग, प्रशिक्षण, हाइपरपैरामीटर ट्यूनिंग, और अनुमान- को एपीआई स्तर पर और साथ ही बड़े करीने से अलग किया जाता है एडब्ल्यूएस प्रबंधन कंसोल. उन्हें व्यक्तिगत रूप से संशोधित करना मुश्किल नहीं है।

नया मॉडल

इस खंड में, हम नए मॉडल के घटकों पर चर्चा करते हैं, जिसमें इसके इनपुट डेटा, एल्गोरिथम, हाइपरपैरामीटर ट्यूनिंग और तकनीकी सेटअप शामिल हैं।

इनपुट डेटा

WohnBarometer जर्मनी में स्थित आवासीय अचल संपत्ति की ImmoScout5 लिस्टिंग के 24 वर्षों की स्लाइडिंग विंडो पर आधारित है। जब हम बाहरी और कपटपूर्ण लिस्टिंग को हटा देते हैं, तो हमारे पास लगभग 4 मिलियन लिस्टिंग बच जाती हैं जो ट्रेन (60%), सत्यापन (20%) और परीक्षण डेटा (20%) में विभाजित हो जाती हैं। लिस्टिंग और वस्तुओं के बीच संबंध जरूरी नहीं कि 1:1 हो; 5 वर्षों के दौरान, यह संभव है कि एक ही वस्तु को कई बार (एकाधिक लोगों द्वारा) डाला जाए।

हम 13 लिस्टिंग विशेषताओं का उपयोग करते हैं, जैसे कि संपत्ति का स्थान (WGS84 निर्देशांक), अचल संपत्ति का प्रकार (घर या अपार्टमेंट, बिक्री या किराया), इसकी आयु (वर्ष), इसका आकार (वर्ग मीटर) या इसकी स्थिति (उदाहरण के लिए) , नया या नवीनीकृत)। यह देखते हुए कि प्रत्येक लिस्टिंग में आमतौर पर दर्जनों विशेषताएँ होती हैं, सवाल उठता है: मॉडल में किसे शामिल किया जाए? एक ओर, हमने डोमेन ज्ञान का उपयोग किया; उदाहरण के लिए, यह सर्वविदित है कि स्थान एक महत्वपूर्ण कारक है, और लगभग सभी बाजारों में नई संपत्ति मौजूदा लोगों की तुलना में अधिक महंगी है। दूसरी ओर, हमने आईएमएक्स और इसी तरह के मॉडलों के साथ अपने अनुभवों पर भरोसा किया। वहां हमने सीखा कि दर्जनों विशेषताओं को शामिल करने से मॉडल में उल्लेखनीय सुधार नहीं होता है।

लिस्टिंग के रियल एस्टेट प्रकार के आधार पर, हमारे मॉडल का लक्ष्य चर या तो प्रति वर्ग मीटर किराया या प्रति वर्ग मीटर बिक्री मूल्य है (हम बाद में समझाते हैं कि यह विकल्प आदर्श क्यों नहीं था)। IMX के विपरीत, WohnBarometer इसलिए एक संख्या है जिसे हमारे ग्राहकों द्वारा सीधे व्याख्या और कार्य किया जा सकता है।

मॉडल वर्णन

सेजमेकर का उपयोग करते समय, आप अपने एल्गोरिथम को लागू करने की विभिन्न रणनीतियों के बीच चयन कर सकते हैं:

सेजमेकर के बिल्ट-इन एल्गोरिदम में से किसी एक का उपयोग करें। लगभग 20 हैं और वे सभी प्रमुख एमएल समस्या प्रकारों को कवर करते हैं।
मानक एमएल फ्रेमवर्क (जैसे स्किकिट-लर्न या पाइटोरच) के आधार पर पूर्व-निर्मित डॉकर छवि को अनुकूलित करें।
अपना खुद का एल्गोरिदम बनाएं और इसे डॉकर छवि के रूप में तैनात करें।

वोहनबैरोमीटर के लिए, हम एक ऐसा समाधान चाहते थे जिसे बनाए रखना आसान हो और हमें मॉडल को बेहतर बनाने पर ध्यान केंद्रित करने की अनुमति देता है, न कि अंतर्निहित बुनियादी ढांचे पर। इसलिए, हमने पहले विकल्प पर फैसला किया: यदि आवश्यक हो तो उचित दस्तावेज़ीकरण और तेज़ समर्थन के साथ पूरी तरह से प्रबंधित एल्गोरिदम का उपयोग करें। इसके बाद, हमें स्वयं एल्गोरिथम चुनने की आवश्यकता थी। फिर से, निर्णय मुश्किल नहीं था: हम XGBoost एल्गोरिदम के लिए गए क्योंकि यह प्रतिगमन प्रकार की समस्याओं के लिए सबसे प्रसिद्ध एमएल एल्गोरिदम में से एक है, और हम पहले से ही कई परियोजनाओं में इसका सफलतापूर्वक उपयोग कर चुके हैं।

हाइपरपरमीटर ट्यूनिंग

अधिकांश एमएल एल्गोरिदम कई मापदंडों के साथ आते हैं जिन्हें ट्विक किया जा सकता है। बूस्टिंग एल्गोरिदम, उदाहरण के लिए, कई पैरामीटर हैं जो निर्दिष्ट करते हैं कि पेड़ कैसे बनाए जाते हैं: क्या पेड़ों में अधिकतम 20 या 30 पत्ते होते हैं? क्या प्रत्येक पेड़ सभी पंक्तियों और स्तंभों या केवल नमूनों पर आधारित है? पेड़ों को कितना भारी करना है? उन मापदंडों के इष्टतम मूल्यों को खोजना (जैसा कि आपकी पसंद के मूल्यांकन मीट्रिक द्वारा मापा जाता है), तथाकथित हाइपरपैरामीटर ट्यूनिंग, एक शक्तिशाली एमएल मॉडल के निर्माण के लिए महत्वपूर्ण है।

हाइपरपैरामीटर ट्यूनिंग में एक महत्वपूर्ण प्रश्न यह है कि कौन से पैरामीटर को ट्यून करना है और खोज रेंज कैसे सेट करना है। आप पूछ सकते हैं, सभी संभावित संयोजनों की जांच क्यों नहीं करते? यद्यपि सिद्धांत रूप में यह एक अच्छे विचार की तरह लगता है, इसके परिणामस्वरूप एक उचित मूल्य पर उन सभी का मूल्यांकन करने के लिए बहुत सारे बिंदुओं के साथ एक विशाल हाइपरपैरामीटर स्थान होगा। यही कारण है कि एमएल प्रैक्टिशनर आमतौर पर चुने हुए एल्गोरिथम के प्रदर्शन पर एक मजबूत प्रभाव डालने के लिए जाने जाने वाले हाइपरपैरामीटर की एक छोटी संख्या का चयन करते हैं।

हाइपरपैरामीटर स्पेस को परिभाषित करने के बाद, अगला कार्य इसमें मूल्यों का सबसे अच्छा संयोजन खोजना है। निम्नलिखित तकनीकों को आमतौर पर नियोजित किया जाता है:

ग्रिड खोज - अंतरिक्ष को एक अलग ग्रिड में विभाजित करें और फिर ग्रिड में सभी बिंदुओं का क्रॉस-सत्यापन के साथ मूल्यांकन करें।
यादृच्छिक खोज - अंतरिक्ष से बेतरतीब ढंग से संयोजन बनाएं। इस दृष्टिकोण के साथ, आप सबसे अच्छे संयोजन से चूक जाएंगे, लेकिन यह एक अच्छे बेंचमार्क के रूप में कार्य करता है।
बायेसियन अनुकूलन - उद्देश्य फ़ंक्शन का एक संभाव्य मॉडल बनाएं और नए संयोजन उत्पन्न करने के लिए इस मॉडल का उपयोग करें। प्रत्येक संयोजन के बाद मॉडल को अपडेट किया जाता है, जिससे अच्छे परिणाम जल्दी प्राप्त होते हैं।

हाल के वर्षों में, सस्ते कंप्यूट पावर के लिए धन्यवाद, बायेसियन ऑप्टिमाइज़ेशन हाइपरपैरामीटर ट्यूनिंग में स्वर्ण मानक बन गया है, और सेजमेकर में डिफ़ॉल्ट सेटिंग है।

तकनीकी सेटअप

कई अन्य एडब्ल्यूएस सेवाओं की तरह, आप कंसोल पर सेजमेकर जॉब बना सकते हैं, इसके साथ AWS कमांड लाइन इंटरफ़ेस (एडब्ल्यूएस सीएलआई), या कोड के माध्यम से। हमने तीसरा विकल्प चुना, सेजमेकर पायथन एसडीके सटीक होने के लिए, क्योंकि यह अत्यधिक स्वचालित सेटअप की अनुमति देता है: वोहनबैरोमीटर एक पायथन सॉफ्टवेयर प्रोजेक्ट में रहता है जो कमांड-लाइन निष्पादन योग्य है। उदाहरण के लिए, एमएल पाइपलाइन के सभी चरणों जैसे प्रीप्रोसेसिंग या मॉडल प्रशिक्षण को बैश कमांड के माध्यम से ट्रिगर किया जा सकता है। वे बैश कमांड, बदले में, जेनकिंस पाइपलाइन द्वारा संचालित होते हैं AWS फरगेट.

आइए चरणों और अंतर्निहित बुनियादी ढांचे को देखें:

preprocessing - सेजमेकर में बिल्ट-इन स्किकिट-लर्न लाइब्रेरी के साथ प्रीप्रोसेसिंग की जाती है। क्योंकि इसमें लाखों पंक्तियों के साथ डेटा फ़्रेम में शामिल होना शामिल है, हमें यहाँ एक ml.m5.24xlarge मशीन की आवश्यकता है, जो आपको ml.m परिवार में सबसे बड़ी मिल सकती है। वैकल्पिक रूप से, हम डस्क जैसे वितरित ढांचे के साथ कई छोटी मशीनों का उपयोग कर सकते थे, लेकिन हम इसे यथासंभव सरल रखना चाहते थे।
प्रशिक्षण - हम डिफ़ॉल्ट सेजमेकर XGBoost एल्गोरिथम का उपयोग करते हैं। प्रशिक्षण दो ml.m5.12xबड़ी मशीनों से किया जाता है। यह ध्यान देने योग्य है कि मॉडल प्रशिक्षण कोड और हाइपरपैरामीटर ट्यूनिंग वाले हमारे train.py में 100 से कम पंक्तियाँ हैं।
हाइपरपरमीटर ट्यूनिंग - कम के सिद्धांत का पालन करना अधिक है, हम केवल 11 हाइपरपैरामीटर (उदाहरण के लिए, बूस्टिंग राउंड की संख्या और सीखने की दर) को ट्यून करते हैं, जो हमें उनकी श्रेणियों को सावधानीपूर्वक चुनने और यह निरीक्षण करने का समय देता है कि वे एक दूसरे के साथ कैसे इंटरैक्ट करते हैं। केवल कुछ हाइपरपैरामीटर के साथ, प्रत्येक प्रशिक्षण कार्य अपेक्षाकृत तेजी से चलता है; हमारे मामले में नौकरियों में 10-20 मिनट लगते हैं। 30 प्रशिक्षण नौकरियों और 2 समवर्ती नौकरियों की अधिकतम संख्या के साथ, कुल प्रशिक्षण समय लगभग 3 घंटे है।
अनुमान - सेजमेकर आपके मॉडल की सेवा के लिए कई विकल्प प्रदान करता है। हम बैच ट्रांसफ़ॉर्म जॉब का उपयोग करते हैं क्योंकि हमें तिमाही में केवल एक बार WohnBarometer नंबर की आवश्यकता होती है। हमने समापन बिंदु का उपयोग नहीं किया क्योंकि यह अधिकांश समय निष्क्रिय रहेगा। प्रत्येक बैच कार्य (लगभग 6.8 मिलियन पंक्तियों) को 5.4 मिनट से भी कम समय में एक ml.m10xबड़ी मशीन द्वारा परोसा जाता है।

हम इन चरणों को सेजमेकर कंसोल पर आसानी से डिबग कर सकते हैं। यदि, उदाहरण के लिए, एक प्रशिक्षण कार्य में अपेक्षा से अधिक समय लग रहा है, तो हम नेविगेट करते हैं प्रशिक्षण पृष्ठ, विचाराधीन प्रशिक्षण कार्य का पता लगाएं, और समीक्षा करें अमेज़ॅन क्लाउडवॉच अंतर्निहित मशीनों के मेट्रिक्स।

निम्नलिखित वास्तुकला आरेख वोहनबैरोमीटर के बुनियादी ढांचे को दर्शाता है:

चुनौतियां और सीख

शुरुआत में सब कुछ सुचारू रूप से चला: कुछ दिनों के भीतर हमने सॉफ्टवेयर प्रोजेक्ट स्थापित किया और सेजमेकर में अपने मॉडल के लघु संस्करण को प्रशिक्षित किया। हमें पूर्ण डेटासेट पर पहले रन और हाइपरपैरामीटर ट्यूनिंग के लिए उच्च उम्मीदें थीं। दुर्भाग्य से, परिणाम संतोषजनक नहीं थे। हमारे पास निम्नलिखित प्रमुख मुद्दे थे:

किराए और बिक्री की वस्तुओं दोनों के लिए मॉडल की भविष्यवाणियां बहुत कम थीं। उदाहरण के लिए, बर्लिन के लिए, हमारे संदर्भ वस्तुओं के लिए अनुमानित बिक्री मूल्य बाजार मूल्य से लगभग 50% कम थे।
मॉडल के अनुसार, नई और मौजूदा इमारतों के बीच कोई महत्वपूर्ण मूल्य अंतर नहीं था। सच्चाई यह है कि नई इमारतें मौजूदा इमारतों की तुलना में लगभग हमेशा काफी अधिक महंगी होती हैं।
कीमत पर स्थान के प्रभाव को सही ढंग से कैप्चर नहीं किया गया था। हम जानते हैं, उदाहरण के लिए, फ्रैंकफर्ट एम मेन में बिक्री के लिए अपार्टमेंट, औसतन, बर्लिन की तुलना में अधिक महंगे हैं (हालांकि बर्लिन पकड़ रहा है); हालाँकि, हमारे मॉडल ने इसके विपरीत भविष्यवाणी की थी।

समस्या क्या थी और हमने इसे कैसे हल किया?

सुविधाओं का नमूना

पहली नज़र में, ऐसा लगता है कि मुद्दे संबंधित नहीं हैं, लेकिन वास्तव में वे हैं। डिफ़ॉल्ट रूप से, XGBoost प्रत्येक ट्री को सुविधाओं के यादृच्छिक नमूने के साथ बनाता है। मान लीजिए कि एक मॉडल में 10 विशेषताएं हैं F₁, एफ₂, … एफ₁₀, तो एल्गोरिथ्म F . का उपयोग कर सकता है₁, एफ₄, और एफ₇ एक पेड़ के लिए, और F₃, एफ₄, और एफ₈ किसी अन्य के लिए। जबकि सामान्य तौर पर यह व्यवहार प्रभावी रूप से ओवरफिटिंग को रोकता है, यह समस्याग्रस्त हो सकता है यदि सुविधाओं की संख्या कम है और उनमें से कुछ का लक्ष्य चर पर बड़ा प्रभाव पड़ता है। इस मामले में, कई पेड़ महत्वपूर्ण विशेषताओं को याद करेंगे।

XGBoost की हमारी 13 विशेषताओं के नमूने ने कई पेड़ों को जन्म दिया, जिनमें न तो महत्वपूर्ण विशेषताएं शामिल हैं- अचल संपत्ति का प्रकार, स्थान, और नई या मौजूदा इमारतें- और परिणामस्वरूप इन मुद्दों का कारण बना। सौभाग्य से, नमूने को नियंत्रित करने के लिए एक पैरामीटर है: colsample_bytree (वास्तव में, नमूने को नियंत्रित करने के लिए दो और पैरामीटर हैं, लेकिन हमने उन्हें छुआ नहीं है)। जब हमने अपना कोड चेक किया, तो हमने देखा कि colsample_bytree 0.5 पर सेट किया गया था, एक मूल्य जिसे हमने पिछली परियोजनाओं से आगे बढ़ाया था। जैसे ही हमने इसे 1 के डिफ़ॉल्ट मान पर सेट किया, पिछले मुद्दे चले गए थे।

एक मॉडल बनाम कई मॉडल

IMX के विपरीत, WohnBarometer मॉडल वास्तव में केवल एक मॉडल है। हालांकि यह रखरखाव के प्रयास को कम करता है, यह सांख्यिकीय दृष्टिकोण से आदर्श नहीं है। क्योंकि हमारे प्रशिक्षण डेटा में बिक्री और किराए की वस्तुएं दोनों शामिल हैं, लक्ष्य चर में प्रसार बहुत बड़ा है: यह प्रथम श्रेणी के स्थानों में बिक्री के लिए घरों के लिए कुछ किराए के अपार्टमेंट के लिए 5 यूरो से लेकर 10,000 यूरो तक है। मॉडल के लिए बड़ी चुनौती यह समझना है कि 5 यूरो की त्रुटि बिक्री की वस्तुओं के लिए शानदार है, लेकिन किराए की वस्तुओं के लिए विनाशकारी है।

सेजमेकर में कई मॉडलों को बनाए रखना कितना आसान है, यह जानने के बाद, हमने कम से कम दो मॉडल बनाए होंगे: एक किराए के लिए और दूसरा बिक्री के लिए। इससे दोनों बाजारों की विशिष्टताओं को पकड़ना आसान हो जाएगा। उदाहरण के लिए, बिक्री के लिए किराए के अपार्टमेंट की कीमत आमतौर पर बिक्री के लिए किराए के अपार्टमेंट की तुलना में 20-30% अधिक है। इसलिए, इस जानकारी को बिक्री मॉडल में एक डमी चर के रूप में एन्कोड करना बहुत मायने रखता है; दूसरी ओर किराए के मॉडल के लिए, आप इसे छोड़ सकते हैं।

निष्कर्ष

क्या WohnBarometer ने हमारे ग्राहकों के लिए प्रासंगिक होने के लक्ष्य को पूरा किया? मीडिया कवरेज को एक संकेत के रूप में लेते हुए, इसका उत्तर स्पष्ट हां है: नवंबर 2021 तक, 700 से अधिक समाचार पत्र लेख और वोहनबैरोमीटर पर टीवी या रेडियो रिपोर्ट प्रकाशित हो चुकी हैं। इस सूची में राष्ट्रीय समाचार पत्र शामिल हैं जैसे फ्रैंकफर्टर ऑलगेमाइन ज़ितुंग, टैगेस्पीगल, और हैंडल्सब्लैट, और स्थानीय समाचार पत्र जो अक्सर अपने क्षेत्र के लिए वोहनबैरोमीटर के आंकड़े मांगते हैं। चूंकि हम वैसे भी जर्मनी के सभी क्षेत्रों के आंकड़ों की गणना करते हैं, इसलिए हमें ऐसे अनुरोध स्वीकार करने में प्रसन्नता हो रही है. पुराने IMX के साथ, इस स्तर की ग्रैन्युलैरिटी संभव नहीं थी।

WohnBarometer स्थिर प्रदर्शन के संबंध में IMX से बेहतर प्रदर्शन करता है, विशेष रूप से जब लागत की बात आती है: IMX एक EMR क्लस्टर द्वारा लगभग आधे दिन चलने वाले 10 कार्य नोड्स के साथ उत्पन्न किया गया था। इसके विपरीत, सभी WohnBarometer चरणों में मध्यम आकार की मशीनों का उपयोग करने में 5 घंटे से भी कम समय लगता है। इससे लागत में लगभग 75 प्रतिशत की बचत होती है।

सेजमेकर के लिए धन्यवाद, हम 2 महीने से भी कम समय में एक डेटा वैज्ञानिक के साथ एक जटिल एमएल मॉडल को उत्पादन में लाने में सक्षम थे। यह उल्लेखनीय है। 10 साल पहले, जब ImmoScout24 ने IMX का निर्माण किया था, उसी मील के पत्थर तक पहुँचने में 2 साल से अधिक का समय लगा और इसमें एक पूरी टीम शामिल थी।

हम इतने कुशल कैसे हो सकते हैं? सेजमेकर ने हमें बुनियादी ढांचे के बजाय मॉडल पर ध्यान केंद्रित करने की अनुमति दी, और सेजमेकर एक ऐसे माइक्रोसर्विस आर्किटेक्चर को बढ़ावा देता है जिसे बनाए रखना आसान है। अगर हम किसी चीज़ में फंस जाते हैं, तो हम AWS सपोर्ट पर कॉल कर सकते हैं। अतीत में, जब हमारी एक आईएमएक्स डेटा पाइपलाइन विफल हो जाती थी, तो हम कभी-कभी इसे डीबग करने के लिए दिन बिताते थे। जब से हमने अप्रैल 2021 में WohnBarometer के आंकड़े प्रकाशित करना शुरू किया है, सेजमेकर इन्फ्रास्ट्रक्चर एक बार भी विफल नहीं हुआ है।

WohnBarometer के बारे में अधिक जानने के लिए, देखें वोहन बैरोमीटर और वोहनबैरोमीटर: एंजबॉट्समीटेन स्टिजेन 2021. प्रीप्रोसेसिंग के लिए सेजमेकर स्किकिट-लर्न लाइब्रेरी का उपयोग करने के बारे में अधिक जानने के लिए, देखें अमेज़ॅन सेजमेकर इंट्रेंस पाइपलाइन और स्किकिट-लर्न का उपयोग करके भविष्यवाणियां करने से पहले इनपुट डेटा को प्रीप्रोसेस करें. कृपया हमें फ़ीडबैक भेजें, या तो अमेज़ॅन सेजमेकर के लिए एडब्ल्यूएस फोरम, या आपके AWS समर्थन संपर्कों के माध्यम से।

इस पोस्ट में सामग्री और राय तीसरे पक्ष के लेखक की हैं और AWS इस पोस्ट की सामग्री या सटीकता के लिए ज़िम्मेदार नहीं है।

लेखक के बारे में

ओलिवर फ्रॉस्ट 24 में एक व्यापार विश्लेषक के रूप में ImmoScout2017 में शामिल हुए। दो साल बाद, वह एक टीम में डेटा वैज्ञानिक बन गया जिसका काम ImmoScout24 डेटा को सत्य डेटा उत्पादों में बदलना है। वोहन बैरोमीटर मॉडल बनाने से पहले, उन्होंने सेजमेकर के छोटे प्रोजेक्ट चलाए। ओलिवर के पास मशीन लर्निंग स्पेशलिटी सहित कई AWS प्रमाणपत्र हैं।

लुकास मुलेरी एडब्ल्यूएस में सॉल्यूशंस आर्किटेक्ट हैं। वह खेल, मीडिया और मनोरंजन उद्योगों में ग्राहकों के साथ काम करता है। वह हमेशा तकनीकी सक्षमता को सांस्कृतिक और संगठनात्मक सक्षमता के साथ जोड़ने के तरीकों की तलाश में रहता है ताकि ग्राहकों को क्लाउड प्रौद्योगिकियों के साथ व्यावसायिक मूल्य प्राप्त करने में मदद मिल सके।

समय टिकट: मार्च २०,२०२१

समय टिकट: मार्च 21, 2023

Amazon SageMaker के साथ ImmoScout24 पर आवासीय अचल संपत्ति की कीमतों की भविष्यवाणी करें

प्लेटो द्वारा पुनर्प्रकाशित

ImmoScout24 . के बारे में

ऑन-प्रिमाइसेस से एडब्ल्यूएस डेटा पाइपलाइन से सेजमेकर तक

पिछला सेटअप

इस सेटअप की समस्याएं

हमने सेजमेकर पर फैसला क्यों किया

नया मॉडल

इनपुट डेटा

मॉडल वर्णन

हाइपरपरमीटर ट्यूनिंग

तकनीकी सेटअप

चुनौतियां और सीख

सुविधाओं का नमूना

एक मॉडल बनाम कई मॉडल

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

Amazon SageMaker जम्पस्टार्ट मॉडल और एल्गोरिदम अब API के माध्यम से उपलब्ध हैं

अमेज़ॅन केंद्र इंटेलिजेंट रैंकिंग और ओपनसर्च प्लगइन के साथ बेहतर खोज परिणाम प्राप्त करें

Amazon SageMaker जम्पस्टार्ट समाधानों में मशीन लर्निंग के माध्यम से व्यवसाय की समस्याओं को शुरू से अंत तक हल करें

अमेज़ॅन सेजमेकर | पर तैनात जेनेरिक एआई का उपयोग करके रचनात्मक विज्ञापन उत्पन्न करें अमेज़न वेब सेवाएँ

Amazon Rekognition Custom Labels और Dassault Systems 3DEXCITE के साथ सिंथेटिक डेटासेट का उपयोग करते हुए कंप्यूटर विज़न

Amazon SageMaker का उपयोग करके टेराफॉर्म के साथ मशीन लर्निंग पाइपलाइनों को तैनात और प्रबंधित करें

Amazon SageMaker पर होस्ट कोड-सर्वर

ग्रेडिएंट AWS इन्फेरेंटिया | के साथ एलएलएम बेंचमार्किंग को लागत प्रभावी और सरल बनाता है अमेज़न वेब सेवाएँ

Amazon Kendra की इंटेलिजेंट सर्च के साथ Zendesk से इनसाइट खोजें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा