Predict Residential Real Estate Prices At ImmoScout24 With Amazon SageMaker

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

یہ اولیور فراسٹ کی ایک مہمان پوسٹ ہے، جو ImmoScout24 کے ڈیٹا سائنسدان، Lukas Müller، AWS Solutions آرکیٹیکٹ کے ساتھ شراکت میں ہے۔

2010 میں امو اسکاؤٹ 24 نے جرمنی میں رہائشی ریل اسٹیٹ کے لیے قیمت کا اشاریہ جاری کیا: IMX۔ یہ ImmoScout24 لسٹنگ پر مبنی تھا۔ قیمت کے علاوہ، فہرستوں میں عام طور پر بہت سی مخصوص معلومات ہوتی ہیں جیسے کہ تعمیراتی سال، پلاٹ کا سائز، یا کمروں کی تعداد۔ اس معلومات نے ہمیں ایک نام نہاد ہیڈونک پرائس انڈیکس بنانے کی اجازت دی، جو کہ جائیداد کی خاص خصوصیات پر غور کرتا ہے۔

جب ہم نے IMX جاری کیا تو ہمارا مقصد اسے جرمنی میں رئیل اسٹیٹ کی قیمتوں کے معیاری اشاریہ کے طور پر قائم کرنا تھا۔ تاہم، اس نے 2008 کے مالیاتی بحران کے بعد سے جرمن پراپرٹی مارکیٹ میں قیمتوں میں اضافے کو حاصل کرنے کے لیے جدوجہد کی۔ اس کے علاوہ، اسٹاک مارکیٹ انڈیکس کی طرح، یہ ایک تجریدی شخصیت تھی جس کی براہ راست تشریح نہیں کی جا سکتی۔ لہذا غیر ماہرین کے لیے IMX کو سمجھنا مشکل تھا۔

ImmoScout24 میں، ہمارا مشن پیچیدہ فیصلوں کو آسان بنانا ہے، اور ہم نے محسوس کیا کہ ہمیں اسے پورا کرنے کے لیے ایک نئے تصور کی ضرورت ہے۔ دوسرے انڈیکس کے بجائے، ہم نے ایک مارکیٹ رپورٹ بنانے کا فیصلہ کیا جسے ہر کوئی آسانی سے سمجھ سکے: ووہن بیرومیٹر۔ یہ ہمارے لسٹنگ ڈیٹا پر مبنی ہے اور آبجیکٹ کی خصوصیات کو مدنظر رکھتا ہے۔ IMX سے اہم فرق یہ ہے کہ WohnBarometer وقت کے ساتھ مخصوص رہائشی ریل اسٹیٹ کی اقسام کے لیے فی مربع میٹر یورو میں کرایہ اور فروخت کی قیمتیں دکھاتا ہے۔ لہذا اعداد و شمار کی براہ راست تشریح کی جا سکتی ہے اور ہمارے صارفین کو سوالات کے جوابات دینے کی اجازت دیتے ہیں جیسے کہ "کیا میں بہت زیادہ کرایہ ادا کرتا ہوں؟" یا "کیا میں جو اپارٹمنٹ خریدنے جا رہا ہوں وہ مناسب قیمت کا ہے؟" یا "میرے علاقے کا کون سا شہر سرمایہ کاری کے لیے سب سے زیادہ امید افزا ہے؟" فی الحال، ووہن بیرومیٹر مجموعی طور پر جرمنی، سات بڑے شہروں اور متبادل مقامی بازاروں کے لیے رپورٹ کیا جاتا ہے۔

مندرجہ ذیل گراف ووہن بیرومیٹر کی مثال دکھاتا ہے، برلن کے لیے فروخت کی قیمتوں اور فی سہ ماہی ترقی کے ساتھ۔

اس پوسٹ میں بحث کی گئی ہے کہ ImmoScout24 نے کس طرح استعمال کیا۔ ایمیزون سیج میکر WohnBarometer کے لیے ماڈل بنانے کے لیے تاکہ اسے ہمارے صارفین کے لیے موزوں بنایا جا سکے۔ یہ بنیادی ڈیٹا ماڈل، ہائپر پیرامیٹر ٹیوننگ، اور تکنیکی سیٹ اپ پر بحث کرتا ہے۔ یہ پوسٹ یہ بھی دکھاتی ہے کہ کس طرح SageMaker نے ایک ڈیٹا سائنسدان کو WohnBarometer کو 2 ماہ کے اندر مکمل کرنے کے لیے سپورٹ کیا۔ IMX کے پہلے ورژن کو تیار کرنے میں پوری ٹیم کو 2 سال لگے۔ ووہن بیرومیٹر کے لیے ایسی سرمایہ کاری کوئی آپشن نہیں تھی۔

ImmoScout24 کے بارے میں

ImmoScout24 جرمنی میں رہائشی اور تجارتی رئیل اسٹیٹ کے لیے معروف آن لائن پلیٹ فارم ہے۔ 20 سال سے زیادہ عرصے سے، ImmoScout24 رئیل اسٹیٹ مارکیٹ میں انقلاب برپا کر رہا ہے اور ہر ماہ 20 ملین سے زیادہ صارفین کو اپنے آن لائن مارکیٹ پلیس پر یا اپنی ایپ میں نئے گھر یا تجارتی جگہیں تلاش کرنے میں مدد فراہم کرتا ہے۔ یہی وجہ ہے کہ ہمارے 99% ٹارگٹ کسٹمر گروپ ImmoScout24 کو جانتے ہیں۔ اپنے ڈیجیٹل حل کے ساتھ، آن لائن مارکیٹ پلیس آپس میں ہم آہنگی پیدا کرتی ہے اور مالکان، رئیلٹرز، کرایہ داروں اور خریداروں کو کامیابی کے ساتھ ساتھ لاتی ہے۔ ImmoScout24 رئیل اسٹیٹ کے لین دین کے عمل کو ڈیجیٹائز کرنے اور اس طرح پیچیدہ فیصلوں کو آسان بنانے کے ہدف کی سمت کام کر رہا ہے۔ 2012 سے، ImmoScout24 آسٹریا کی رئیل اسٹیٹ مارکیٹ میں بھی سرگرم ہے، جو ماہانہ تقریباً 3 ملین صارفین تک پہنچ رہی ہے۔

آن پریمیسس سے AWS ڈیٹا پائپ لائن سے SageMaker تک

اس سیکشن میں، ہم پچھلے سیٹ اپ اور اس کے چیلنجوں پر بات کرتے ہیں، اور ہم نے اپنے نئے ماڈل کے لیے SageMaker استعمال کرنے کا فیصلہ کیوں کیا۔

پچھلا سیٹ اپ

جب IMX کا پہلا ورژن 2010 میں شائع ہوا تھا، بادل اب بھی زیادہ تر کاروباروں کے لیے ایک معمہ تھا، بشمول ImmoScout24۔ مشین لرننگ (ML) کا شعبہ اپنے ابتدائی دور میں تھا اور صرف مٹھی بھر ماہرین ہی جانتے تھے کہ ماڈل کو کوڈ کیسے بنایا جائے (مثال کے طور پر، Scikit-Learn کی پہلی عوامی ریلیز فروری 2010 میں ہوئی تھی)۔ یہ کوئی تعجب کی بات نہیں ہے کہ IMX کی ترقی میں 2 سال سے زیادہ کا عرصہ لگا اور اس کی لاگت سات عددی رقم تھی۔

2015 میں، ImmoScout24 نے اپنی AWS منتقلی شروع کی، اور AWS انفراسٹرکچر پر IMX کو دوبارہ بنایا۔ ہمارے میں موجود ڈیٹا کے ساتھ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) ڈیٹا لیک، ڈیٹا پری پروسیسنگ اور ماڈل ٹریننگ دونوں اب پر کیے گئے تھے۔ ایمیزون ای ایم آر کی طرف سے آرکیسٹریٹ کلسٹرز AWS ڈیٹا پائپ لائن. جبکہ سابقہ PySpark ETL ایپلی کیشن تھی، بعد میں کلاسیکل ML پیکجز (جیسے Scikit-Learn) کا استعمال کرتے ہوئے کئی ازگر اسکرپٹس تھیں۔

اس سیٹ اپ کے ساتھ مسائل

اگرچہ یہ سیٹ اپ کافی مستحکم ثابت ہوا، لیکن بنیادی ڈھانچے کا ازالہ کرنا یا ماڈل کو بہتر بنانا آسان نہیں تھا۔ ماڈل کے ساتھ ایک اہم مسئلہ اس کی پیچیدگی تھی، کیونکہ کچھ اجزاء نے اپنے طور پر زندگی شروع کر دی تھی: آخر میں، آؤٹ لیئر کا پتہ لگانے کا کوڈ بنیادی IMX ماڈل کے کوڈ سے تقریباً دوگنا لمبا تھا۔

بنیادی ماڈل، درحقیقت، ایک ماڈل نہیں، بلکہ سینکڑوں تھا: ایک ماڈل فی رہائشی رئیل اسٹیٹ کی قسم اور خطہ، جس کی تعریف بڑے شہر کے ایک محلے سے لے کر دیہی علاقوں کے کئی گاؤں تک مختلف ہوتی ہے۔ مثال کے طور پر، ہمارے پاس برلن کے وسط میں فروخت کے لیے اپارٹمنٹس کا ایک ماڈل اور میونخ کے مضافاتی علاقے میں فروخت کے لیے مکانات کا ایک ماڈل تھا۔ چونکہ ان تمام ماڈلز کی تربیت کو ترتیب دینے میں کافی وقت لگتا ہے، اس لیے ہم نے ہائپر پیرامیٹر ٹیوننگ کو چھوڑ دیا، جس کی وجہ سے ماڈلز کی کارکردگی بہت کم تھی۔

ہم نے سیج میکر کا فیصلہ کیوں کیا۔

ان مسائل اور عملی فوائد کے ساتھ مارکیٹ رپورٹ رکھنے کی ہماری خواہش کو دیکھتے ہوئے، ہمیں موجودہ کوڈ کے بڑے حصوں کو دوبارہ لکھنے یا شروع سے شروع کرنے کے درمیان فیصلہ کرنا تھا۔ جیسا کہ آپ اس پوسٹ سے اندازہ لگا سکتے ہیں، ہم نے مؤخر الذکر کا انتخاب کیا۔ لیکن کیوں سیج میکر؟

ہمارا زیادہ تر وقت IMX پر گزرا جو ماڈل کو بہتر بنانے میں نہیں بلکہ بنیادی ڈھانچے کی خرابیوں کو حل کرنے میں گزرا۔ مارکیٹ کی نئی رپورٹ کے لیے، ہم ماڈل کی شماریاتی کارکردگی پر توجہ مرکوز کرتے ہوئے اس کو پلٹنا چاہتے تھے۔ ہم ماڈل کے انفرادی اجزاء کو فوری طور پر تبدیل کرنے کے لیے لچک بھی حاصل کرنا چاہتے تھے، جیسے کہ ہائپر پیرامیٹر کی اصلاح۔ کیا ہوگا اگر ایک نیا اعلیٰ فروغ دینے والا الگورتھم آس پاس آجائے (اس بارے میں سوچیں کہ XGBoost نے 2014 میں کس طرح اسٹیج کو نشانہ بنایا)؟ بلاشبہ، ہم اسے پہلے میں سے ایک کے طور پر اپنانا چاہتے ہیں!

سیج میکر میں، کلاسیکی ایم ایل ورک فلو کے اہم اجزاء—پری پروسیسنگ، ٹریننگ، ہائپر پیرامیٹر ٹیوننگ، اور انفرنس— API کی سطح پر اور اس کے علاوہ AWS مینجمنٹ کنسول. انفرادی طور پر ان میں ترمیم کرنا مشکل نہیں ہے۔

نیا ماڈل

اس سیکشن میں، ہم نئے ماڈل کے اجزاء پر تبادلہ خیال کرتے ہیں، بشمول اس کے ان پٹ ڈیٹا، الگورتھم، ہائپر پیرامیٹر ٹیوننگ، اور تکنیکی سیٹ اپ۔

ان پٹ ڈیٹا

WohnBarometer جرمنی میں واقع رہائشی جائیداد کی ImmoScout5 فہرستوں کے 24 سال کی سلائیڈنگ ونڈو پر مبنی ہے۔ باہر جانے والوں اور دھوکہ دہی والی فہرستوں کو ہٹانے کے بعد، ہمارے پاس تقریباً 4 ملین فہرستیں رہ جاتی ہیں جو ٹرین (60%)، توثیق (20%)، اور ٹیسٹ ڈیٹا (20%) میں تقسیم ہوتی ہیں۔ فہرستوں اور اشیاء کے درمیان تعلق ضروری نہیں کہ 1:1 ہو؛ 5 سالوں کے دوران، امکان ہے کہ ایک ہی چیز کو متعدد بار داخل کیا گیا ہو (متعدد لوگوں کے ذریعہ)۔

ہم فہرست سازی کے 13 اوصاف استعمال کرتے ہیں، جیسے پراپرٹی کا مقام (WGS84 کوآرڈینیٹ)، جائیداد کی قسم (مکان یا اپارٹمنٹ، فروخت یا کرایہ)، اس کی عمر (سال)، اس کا سائز (مربع میٹر) یا اس کی حالت (مثال کے طور پر ، نیا یا تجدید شدہ)۔ یہ دیکھتے ہوئے کہ ہر فہرست عام طور پر درجنوں صفات کے ساتھ آتی ہے، سوال یہ پیدا ہوتا ہے: ماڈل میں کون سا شامل کیا جائے؟ ایک طرف، ہم نے ڈومین کا علم استعمال کیا۔ مثال کے طور پر، یہ بات اچھی طرح سے معلوم ہے کہ محل وقوع ایک اہم عنصر ہے، اور تقریباً تمام مارکیٹوں میں نئی پراپرٹی موجودہ سے زیادہ مہنگی ہے۔ دوسری طرف، ہم نے IMX اور اسی طرح کے ماڈلز کے ساتھ اپنے تجربات پر انحصار کیا۔ وہاں ہم نے سیکھا کہ درجنوں صفات کو شامل کرنے سے ماڈل میں نمایاں بہتری نہیں آتی۔

فہرست کی رئیل اسٹیٹ کی قسم پر منحصر ہے، ہمارے ماڈل کا ہدف متغیر یا تو فی مربع میٹر کرایہ یا فی مربع میٹر فروخت کی قیمت ہے (ہم بعد میں وضاحت کریں گے کہ یہ انتخاب مثالی کیوں نہیں تھا)۔ IMX کے برعکس، ووہن بیرومیٹر اس لیے ایک ایسا نمبر ہے جس کی براہ راست تشریح اور ہمارے صارفین اس پر عمل کر سکتے ہیں۔

ماڈل کی تفصیل

SageMaker استعمال کرتے وقت، آپ اپنے الگورتھم کو نافذ کرنے کی مختلف حکمت عملیوں کے درمیان انتخاب کر سکتے ہیں:

سیج میکر کے بلٹ ان الگورتھم میں سے ایک استعمال کریں۔ تقریباً 20 ہیں اور وہ تمام بڑے ML مسائل کی اقسام کا احاطہ کرتے ہیں۔
معیاری ML فریم ورک (جیسے Scikit-Learn یا PyTorch) کی بنیاد پر پہلے سے تیار کردہ Docker امیج کو حسب ضرورت بنائیں۔
اپنا الگورتھم بنائیں اور اسے ڈوکر امیج کے طور پر متعین کریں۔

WohnBarometer کے لیے، ہم ایک ایسا حل چاہتے تھے جو برقرار رکھنے میں آسان ہو اور ہمیں خود ماڈل کو بہتر بنانے پر توجہ مرکوز کرنے کی اجازت دیتا ہے، نہ کہ بنیادی ڈھانچے پر۔ لہذا، ہم نے پہلے آپشن کا فیصلہ کیا: اگر ضرورت ہو تو مناسب دستاویزات اور تیز مدد کے ساتھ مکمل طور پر منظم الگورتھم کا استعمال کریں۔ اگلا، ہمیں الگورتھم کو خود لینے کی ضرورت ہے۔ ایک بار پھر، فیصلہ مشکل نہیں تھا: ہم XGBoost الگورتھم کے لیے گئے کیونکہ یہ ریگریشن قسم کے مسائل کے لیے سب سے مشہور ML الگورتھم میں سے ایک ہے، اور ہم اسے پہلے ہی کئی پروجیکٹس میں کامیابی کے ساتھ استعمال کر چکے ہیں۔

ہائپر پیرامیٹر ٹیوننگ

زیادہ تر ML الگورتھم موافقت کے لیے متعدد پیرامیٹرز کے ساتھ آتے ہیں۔ بوسٹنگ الگورتھم، مثال کے طور پر، بہت سے پیرامیٹرز ہیں جو یہ بتاتے ہیں کہ درخت کس طرح بنائے گئے ہیں: کیا درختوں میں زیادہ سے زیادہ 20 یا 30 پتے ہوتے ہیں؟ کیا ہر درخت تمام قطاروں اور کالموں یا صرف نمونوں پر مبنی ہے؟ درختوں کی کٹائی کتنی بھاری ہے؟ ان پیرامیٹرز کی بہترین قدریں تلاش کرنا (جیسا کہ آپ کی پسند کی تشخیصی میٹرک سے ماپا جاتا ہے)، نام نہاد ہائپر پیرامیٹر ٹیوننگ، ایک طاقتور ML ماڈل بنانے کے لیے اہم ہے۔

ہائپر پیرامیٹر ٹیوننگ میں ایک اہم سوال یہ ہے کہ کون سے پیرامیٹرز کو ٹیون کرنا ہے اور سرچ رینجز کو کیسے سیٹ کرنا ہے۔ آپ پوچھ سکتے ہیں، کیوں نہ تمام ممکنہ امتزاجات کو چیک کریں؟ اگرچہ نظریہ میں یہ ایک اچھا خیال لگتا ہے، لیکن اس کے نتیجے میں ایک بہت زیادہ ہائپر پیرامیٹر جگہ ہوگی جس میں مناسب قیمت پر ان سب کا جائزہ لینے کے لیے بہت سارے پوائنٹس ہوں گے۔ یہی وجہ ہے کہ ML پریکٹیشنرز عام طور پر ہائپرپیرامیٹر کی ایک چھوٹی سی تعداد کا انتخاب کرتے ہیں جو منتخب الگورتھم کی کارکردگی پر گہرا اثر ڈالتے ہیں۔

ہائپر پیرامیٹر کی جگہ کی وضاحت کے بعد، اگلا کام اس میں اقدار کا بہترین امتزاج تلاش کرنا ہے۔ مندرجہ ذیل تکنیکوں کو عام طور پر استعمال کیا جاتا ہے:

گرڈ کی تلاش - ایک مجرد گرڈ میں جگہ کو تقسیم کریں اور پھر کراس توثیق کے ساتھ گرڈ کے تمام پوائنٹس کا جائزہ لیں۔
بے ترتیب تلاش - تصادفی طور پر خلا سے امتزاج بنائیں۔ اس نقطہ نظر کے ساتھ، آپ غالباً بہترین امتزاج سے محروم ہو جائیں گے، لیکن یہ ایک اچھے معیار کے طور پر کام کرتا ہے۔
Bayesian اصلاح - معروضی فنکشن کا ایک امکانی ماڈل بنائیں اور اس ماڈل کو نئے امتزاج پیدا کرنے کے لیے استعمال کریں۔ ماڈل کو ہر امتزاج کے بعد اپ ڈیٹ کیا جاتا ہے، جس کے نتیجے میں اچھے نتائج برآمد ہوتے ہیں۔

حالیہ برسوں میں، سستی کمپیوٹ پاور کی بدولت، Bayesian آپٹیمائزیشن ہائپر پیرامیٹر ٹیوننگ میں سونے کا معیار بن گیا ہے، اور SageMaker میں پہلے سے طے شدہ ترتیب ہے۔

تکنیکی سیٹ اپ

بہت سی دوسری AWS خدمات کی طرح، آپ کنسول پر سیج میکر جابز بنا سکتے ہیں۔ AWS کمانڈ لائن انٹرفیس (AWS CLI)، یا کوڈ کے ذریعے۔ ہم نے تیسرا آپشن، SageMaker Python SDK کا انتخاب کیا ہے، کیونکہ یہ انتہائی خودکار سیٹ اپ کی اجازت دیتا ہے: WohnBarometer ایک Python سافٹ ویئر پروجیکٹ میں رہتا ہے جو کہ کمانڈ لائن قابل عمل ہے۔ مثال کے طور پر، ایم ایل پائپ لائن کے تمام مراحل جیسے پری پروسیسنگ یا ماڈل ٹریننگ کو باش کمانڈز کے ذریعے متحرک کیا جا سکتا ہے۔ وہ باش کمانڈز، بدلے میں، جینکنز کے ذریعے چلنے والی پائپ لائن کے ساتھ ترتیب دی جاتی ہیں۔ اے ڈبلیو ایس فارگیٹ.

آئیے اقدامات اور بنیادی ڈھانچے کو دیکھتے ہیں:

پیشگی کارروائی - پری پروسیسنگ SageMaker میں بلٹ ان Scikit-Learn لائبریری کے ساتھ کی جاتی ہے۔ چونکہ اس میں لاکھوں قطاروں کے ساتھ ڈیٹا فریموں میں شامل ہونا شامل ہے، ہمیں یہاں ایک ml.m5.24xlarge مشین کی ضرورت ہے، جو آپ ml.m فیملی میں حاصل کر سکتے ہیں۔ متبادل کے طور پر، ہم ڈسک جیسے تقسیم شدہ فریم ورک کے ساتھ متعدد چھوٹی مشینیں استعمال کر سکتے تھے، لیکن ہم اسے ہر ممکن حد تک آسان رکھنا چاہتے تھے۔
ٹریننگ - ہم ڈیفالٹ SageMaker XGBoost الگورتھم استعمال کرتے ہیں۔ تربیت دو ml.m5.12xlarge مشینوں سے کی جاتی ہے۔ یہ بات قابل ذکر ہے کہ ماڈل ٹریننگ کے کوڈ اور ہائپر پیرامیٹر ٹیوننگ پر مشتمل ہماری train.py میں 100 سے کم قطاریں ہیں۔
ہائپر پیرامیٹر ٹیوننگ - کم ہے زیادہ کے اصول پر عمل کرتے ہوئے، ہم صرف 11 ہائپر پیرامیٹرز (مثال کے طور پر، بوسٹنگ راؤنڈز کی تعداد اور سیکھنے کی شرح) کو دیکھتے ہیں، جو ہمیں ان کی حدود کو احتیاط سے منتخب کرنے اور ان کا ایک دوسرے کے ساتھ تعامل کرنے کے طریقے کا معائنہ کرنے کا وقت دیتا ہے۔ صرف چند ہائپر پیرامیٹر کے ساتھ، ہر تربیتی کام نسبتاً تیزی سے چلتا ہے۔ ہمارے معاملے میں نوکریوں میں 10-20 منٹ لگتے ہیں۔ زیادہ سے زیادہ تعداد میں 30 تربیتی ملازمتوں اور 2 ہم آہنگی ملازمتوں کے ساتھ، کل تربیت کا وقت تقریباً 3 گھنٹے ہے۔
ارادہ - سیج میکر آپ کے ماڈل کو پیش کرنے کے لیے متعدد اختیارات پیش کرتا ہے۔ ہم بیچ ٹرانسفارم جابز استعمال کرتے ہیں کیونکہ ہمیں صرف ایک سہ ماہی میں ووہن بیرومیٹر نمبرز کی ضرورت ہوتی ہے۔ ہم نے اختتامی نقطہ استعمال نہیں کیا کیونکہ یہ زیادہ تر وقت بیکار رہے گا۔ ہر بیچ کا کام (تقریباً 6.8 ملین قطاریں) 5.4 منٹ سے بھی کم وقت میں ایک ml.m10xlarge مشین کے ذریعے پیش کیا جاتا ہے۔

ہم سیج میکر کنسول پر ان اقدامات کو آسانی سے ڈیبگ کر سکتے ہیں۔ اگر، مثال کے طور پر، کسی تربیتی کام میں توقع سے زیادہ وقت لگ رہا ہے، تو ہم تشریف لے جاتے ہیں۔ ٹریننگ صفحہ، زیربحث تربیتی کام کا پتہ لگائیں، اور جائزہ لیں۔ ایمیزون کلاؤڈ واچ بنیادی مشینوں کی پیمائش۔

مندرجہ ذیل آرکیٹیکچر ڈایاگرام ووہن بیرومیٹر کے بنیادی ڈھانچے کو ظاہر کرتا ہے:

چیلنجز اور سیکھنا

شروع میں سب کچھ آسانی سے چلا: چند دنوں کے اندر ہم نے سافٹ ویئر پروجیکٹ ترتیب دیا اور SageMaker میں اپنے ماڈل کے چھوٹے ورژن کی تربیت کی۔ ہمیں مکمل ڈیٹاسیٹ پر پہلی دوڑ اور جگہ پر ہائپر پیرامیٹر ٹیوننگ کی بہت امیدیں تھیں۔ بدقسمتی سے، نتائج تسلی بخش نہیں تھے۔ ہمارے پاس درج ذیل کلیدی مسائل تھے:

ماڈل کی پیشین گوئیاں بہت کم تھیں، کرایہ اور فروخت دونوں اشیاء کے لیے۔ مثال کے طور پر برلن کے لیے، ہماری حوالہ جاتی اشیاء کے لیے پیش کردہ فروخت کی قیمتیں مارکیٹ کی قیمتوں سے تقریباً 50% کم تھیں۔
ماڈل کے مطابق نئی اور موجودہ عمارتوں کی قیمتوں میں کوئی خاص فرق نہیں تھا۔ سچ یہ ہے کہ نئی عمارتیں موجودہ عمارتوں کے مقابلے میں تقریبا ہمیشہ نمایاں طور پر زیادہ مہنگی ہوتی ہیں۔
قیمت پر محل وقوع کا اثر صحیح طور پر نہیں لیا گیا۔ ہم جانتے ہیں، مثال کے طور پر، فرینکفرٹ ایم مین میں اپارٹمنٹس برائے فروخت، اوسطاً، برلن کے مقابلے میں زیادہ مہنگے ہیں (حالانکہ برلن تیزی سے بڑھ رہا ہے)؛ تاہم، ہمارے ماڈل نے اس کے برعکس پیش گوئی کی۔

مسئلہ کیا تھا اور ہم نے اسے کیسے حل کیا؟

خصوصیات کا نمونہ لینا

پہلی نظر میں، ایسا لگتا ہے کہ مسائل کا آپس میں کوئی تعلق نہیں ہے، لیکن درحقیقت وہ ہیں۔ پہلے سے طے شدہ طور پر، XGBoost ہر درخت کو خصوصیات کے بے ترتیب نمونے کے ساتھ بناتا ہے۔ فرض کریں کہ ایک ماڈل میں 10 خصوصیات ہیں F₁، ایف₂، … ایف₁₀، پھر الگورتھم F استعمال کر سکتا ہے۔₁، ایف₄، اور ایف₇ ایک درخت کے لیے، اور ایف₃، ایف₄، اور ایف₈ کسی دوسرے کے لئے. اگرچہ عام طور پر یہ رویہ مؤثر طریقے سے اوور فٹنگ کو روکتا ہے، لیکن اگر خصوصیات کی تعداد کم ہے اور ان میں سے کچھ کا ہدف متغیر پر بڑا اثر پڑتا ہے تو یہ پریشانی کا باعث بن سکتا ہے۔ اس صورت میں، بہت سے درخت اہم خصوصیات سے محروم رہیں گے.

ہماری 13 خصوصیات کے XGBoost کے نمونے لینے کے نتیجے میں بہت سے درخت شامل ہیں جن میں سے کوئی بھی اہم خصوصیات نہیں ہیں—رئیل اسٹیٹ کی قسم، مقام، اور نئی یا موجودہ عمارتیں—اور اس کے نتیجے میں یہ مسائل پیدا ہوئے۔ خوش قسمتی سے، نمونے لینے کو کنٹرول کرنے کے لیے ایک پیرامیٹر موجود ہے: colsample_bytree (درحقیقت، نمونے لینے کو کنٹرول کرنے کے لیے دو اور پیرامیٹرز ہیں، لیکن ہم نے ان کو ہاتھ نہیں لگایا)۔ جب ہم نے اپنا کوڈ چیک کیا تو ہم نے دیکھا colsample_bytree 0.5 پر سیٹ کیا گیا تھا، ایک قدر جو ہم نے ماضی کے منصوبوں سے حاصل کی تھی۔ جیسے ہی ہم نے اسے 1 کی ڈیفالٹ ویلیو پر سیٹ کیا، پچھلے مسائل ختم ہو گئے۔

ایک ماڈل بمقابلہ متعدد ماڈل

IMX کے برعکس، WohnBarometer ماڈل واقعی صرف ایک ماڈل ہے۔ اگرچہ یہ دیکھ بھال کی کوشش کو کم کرتا ہے، لیکن شماریاتی نقطہ نظر سے یہ مثالی نہیں ہے۔ چونکہ ہمارے تربیتی اعداد و شمار میں فروخت اور کرائے کی اشیاء دونوں شامل ہیں، اس لیے ہدف کے متغیر میں پھیلاؤ بہت بڑا ہے: یہ کچھ کرائے کے اپارٹمنٹس کے لیے 5 یورو سے کم سے لے کر فرسٹ کلاس مقامات پر فروخت کے لیے مکانات کے لیے 10,000 یورو سے اوپر تک ہے۔ ماڈل کے لیے بڑا چیلنج یہ سمجھنا ہے کہ 5 یورو کی خرابی فروخت کی اشیاء کے لیے لاجواب ہے، لیکن کرائے کی اشیاء کے لیے تباہ کن ہے۔

پس منظر میں، یہ جانتے ہوئے کہ SageMaker میں متعدد ماڈلز کو برقرار رکھنا کتنا آسان ہے، ہم نے کم از کم دو ماڈل بنائے ہوں گے: ایک کرائے کے لیے اور دوسرا فروخت کی اشیاء کے لیے۔ اس سے دونوں بازاروں کی خصوصیات کو پکڑنا آسان ہو جائے گا۔ مثال کے طور پر، فروخت کے لیے بغیر کرائے کے اپارٹمنٹس کی قیمت عام طور پر فروخت کے لیے کرائے کے اپارٹمنٹس کے مقابلے میں 20-30% زیادہ ہے۔ لہذا، سیل ماڈل میں اس معلومات کو ایک ڈمی متغیر کے طور پر انکوڈنگ کرنا کافی معنی رکھتا ہے۔ دوسری طرف کرایہ کے ماڈل کے لیے، آپ اسے چھوڑ سکتے ہیں۔

نتیجہ

کیا ووہن بیرومیٹر نے ہمارے صارفین سے متعلقہ ہونے کا ہدف پورا کیا؟ میڈیا کوریج کو ایک اشارے کے طور پر لیتے ہوئے، جواب واضح ہاں میں ہے: نومبر 2021 تک ووہن بیرومیٹر پر 700 سے زیادہ اخباری مضامین اور ٹی وی یا ریڈیو رپورٹس شائع ہو چکی ہیں۔ اس فہرست میں قومی اخبارات جیسے فرینکفرٹر آلجیمین زیتونگ، ٹیگسپیگل، اور ہینڈلسبلاٹ، اور مقامی اخبارات شامل ہیں جو اکثر اپنے علاقے کے لیے ووہن بارومیٹر کے اعداد و شمار مانگتے ہیں۔ چونکہ ہم بہرحال جرمنی کے تمام خطوں کے اعداد و شمار کا حساب لگاتے ہیں، ہمیں ایسی درخواستیں قبول کرنے میں خوشی ہوتی ہے۔ پرانے IMX کے ساتھ، گرانولریٹی کی یہ سطح ممکن نہیں تھی۔

ووہن بیرومیٹر اسٹیٹیکل کارکردگی کے حوالے سے IMX سے بہتر کارکردگی کا مظاہرہ کرتا ہے، خاص طور پر جب لاگت کی بات آتی ہے: IMX ایک EMR کلسٹر کے ذریعے تیار کیا گیا تھا جس میں 10 ٹاسک نوڈس تقریباً آدھے دن چلتے ہیں۔ اس کے برعکس، WohnBarometer کے تمام اقدامات درمیانے درجے کی مشینوں کا استعمال کرتے ہوئے 5 گھنٹے سے بھی کم وقت لیتے ہیں۔ اس کے نتیجے میں تقریباً 75% کی لاگت کی بچت ہوتی ہے۔

SageMaker کا شکریہ، ہم 2 ماہ سے بھی کم وقت میں ایک ڈیٹا سائنسدان کے ساتھ ایک پیچیدہ ML ماڈل تیار کرنے میں کامیاب ہو گئے۔ یہ قابل ذکر ہے۔ 10 سال پہلے، جب ImmoScout24 نے IMX بنایا، اسی سنگ میل تک پہنچنے میں 2 سال سے زیادہ کا وقت لگا اور اس میں ایک پوری ٹیم شامل تھی۔

ہم اتنے موثر کیسے ہو سکتے ہیں؟ SageMaker نے ہمیں بنیادی ڈھانچے کے بجائے ماڈل پر توجہ مرکوز کرنے کی اجازت دی، اور SageMaker ایک ایسے مائیکرو سروس فن تعمیر کو فروغ دیتا ہے جسے برقرار رکھنا آسان ہے۔ اگر ہم کسی چیز میں پھنس گئے تو ہم AWS سپورٹ پر کال کر سکتے ہیں۔ ماضی میں، جب ہماری IMX ڈیٹا پائپ لائنوں میں سے ایک ناکام ہو جاتی تھی، تو ہم اسے ڈیبگ کرنے کے لیے بعض اوقات دن گزارتے تھے۔ چونکہ ہم نے اپریل 2021 میں ووہن بیرومیٹر کے اعداد و شمار شائع کرنا شروع کیے ہیں، سیج میکر انفراسٹرکچر ایک بار بھی ناکام نہیں ہوا ہے۔

WohnBarometer کے بارے میں مزید جاننے کے لیے، چیک آؤٹ کریں۔ ووہن بیرومیٹر اور WohnBarometer: Angebotsmieten stiegen 2021 bundesweit wieder stärker an. پری پروسیسنگ کے لیے SageMaker Scikit-Learn لائبریری کے استعمال کے بارے میں مزید جاننے کے لیے، دیکھیں Amazon SageMaker inference پائپ لائنز اور Scikit-learn کا استعمال کرتے ہوئے پیشین گوئیاں کرنے سے پہلے ان پٹ ڈیٹا کو پری پروسیس کریں۔. براہ کرم ہمیں فیڈ بیک بھیجیں، یا تو پر ایمیزون سیج میکر کے لیے AWS فورم، یا آپ کے AWS معاون رابطوں کے ذریعے۔

اس پوسٹ میں مواد اور آراء تیسرے فریق کے مصنف کی ہیں اور AWS اس پوسٹ کے مواد یا درستگی کے لیے ذمہ دار نہیں ہے۔

مصنفین کے بارے میں

اولیور فراسٹ 24 میں بزنس اینالسٹ کے طور پر ImmoScout2017 میں شمولیت اختیار کی۔ دو سال بعد، وہ ایک ٹیم میں ڈیٹا سائنسدان بن گیا جس کا کام ImmoScout24 ڈیٹا کو درست ڈیٹا پروڈکٹس میں تبدیل کرنا ہے۔ ووہن بارومیٹر ماڈل بنانے سے پہلے، اس نے سیج میکر کے چھوٹے پروجیکٹ چلائے تھے۔ اولیور کے پاس مشین لرننگ اسپیشلٹی سمیت کئی AWS سرٹیفکیٹس ہیں۔

لوکاس مولر AWS میں ایک حل آرکیٹیکٹ ہے۔ وہ کھیلوں، میڈیا اور تفریحی صنعتوں میں صارفین کے ساتھ کام کرتا ہے۔ وہ ہمیشہ تکنیکی قابلیت کو ثقافتی اور تنظیمی اہلیت کے ساتھ جوڑنے کے طریقے تلاش کرتا ہے تاکہ صارفین کو کلاؤڈ ٹیکنالوجیز کے ساتھ کاروباری قدر حاصل کرنے میں مدد مل سکے۔

ٹائم اسٹیمپ: مارچ 9، 2022