Dự đoán giá bất động sản nhà ở tại ImmoScout24 với Amazon SageMaker

Được xuất bản lại bởi Plato

Người theo dõi: 0

Đây là bài đăng của Oliver Frost, nhà khoa học dữ liệu tại ImmoScout24, hợp tác với Lukas Müller, Kiến trúc sư giải pháp AWS.

Trong 2010, ImmoScout24 công bố chỉ số giá bất động sản nhà ở tại Đức: IMX. Nó dựa trên danh sách ImmoScout24. Bên cạnh giá cả, các danh sách thường chứa nhiều thông tin cụ thể như năm xây dựng, diện tích lô đất hoặc số lượng phòng. Thông tin này cho phép chúng tôi xây dựng cái gọi là chỉ số giá khoái lạc, xem xét các đặc điểm cụ thể của bất động sản.

Khi chúng tôi phát hành IMX, mục tiêu của chúng tôi là thiết lập nó làm chỉ số tiêu chuẩn cho giá bất động sản ở Đức. Tuy nhiên, nó đã phải vật lộn để nắm bắt mức tăng giá trên thị trường bất động sản Đức kể từ cuộc khủng hoảng tài chính năm 2008. Ngoài ra, giống như chỉ số thị trường chứng khoán, nó là một con số trừu tượng không thể giải thích trực tiếp. Do đó, IMX rất khó nắm bắt đối với những người không phải là chuyên gia.

Tại ImmoScout24, sứ mệnh của chúng tôi là đưa ra các quyết định phức tạp một cách dễ dàng và chúng tôi nhận ra rằng chúng tôi cần một khái niệm mới để thực hiện nó. Thay vì một chỉ số khác, chúng tôi quyết định xây dựng một báo cáo thị trường mà mọi người có thể dễ dàng hiểu được: WohnBarometer. Nó dựa trên dữ liệu danh sách của chúng tôi và có tính đến các thuộc tính đối tượng. Sự khác biệt chính so với IMX là WohnBarometer hiển thị giá thuê và giá bán bằng Euro trên mỗi mét vuông cho các loại bất động sản nhà ở cụ thể theo thời gian. Do đó, các số liệu có thể được giải thích trực tiếp và cho phép khách hàng của chúng tôi trả lời các câu hỏi như "Tôi có trả quá nhiều tiền thuê không?" hoặc “Căn hộ tôi sắp mua có giá hợp lý không?” hoặc "Thành phố nào trong khu vực của tôi là thành phố hứa hẹn nhất để đầu tư?" Hiện tại, WohnBarometer được báo cáo cho toàn nước Đức, bảy thành phố lớn nhất và các thị trường địa phương xen kẽ.

Biểu đồ sau đây cho thấy một ví dụ về WohnBarometer, với giá bán cho Berlin và sự phát triển mỗi quý.

Bài đăng này thảo luận về cách ImmoScout24 đã sử dụng Amazon SageMaker để tạo mô hình cho WohnBarometer nhằm làm cho nó phù hợp với khách hàng của chúng tôi. Nó thảo luận về mô hình dữ liệu cơ bản, điều chỉnh siêu tham số và thiết lập kỹ thuật. Bài đăng này cũng cho thấy cách SageMaker đã hỗ trợ một nhà khoa học dữ liệu hoàn thành WohnBarometer trong vòng 2 tháng. Cả nhóm đã mất 2 năm để phát triển phiên bản đầu tiên của IMX. Một khoản đầu tư như vậy không phải là một lựa chọn cho WohnBarometer.

Giới thiệu về ImmoScout24

ImmoScout24 là nền tảng trực tuyến hàng đầu cho bất động sản nhà ở và thương mại ở Đức. Trong hơn 20 năm, ImmoScout24 đã cách mạng hóa thị trường bất động sản và hỗ trợ hơn 20 triệu người dùng mỗi tháng trên thị trường trực tuyến hoặc trong ứng dụng của mình để tìm nhà mới hoặc không gian thương mại. Đó là lý do tại sao 99% nhóm khách hàng mục tiêu của chúng tôi biết đến ImmoScout24. Với các giải pháp kỹ thuật số của mình, thị trường trực tuyến điều phối và mang chủ sở hữu, người môi giới, người thuê và người mua lại với nhau thành công. ImmoScout24 đang nỗ lực hướng tới mục tiêu số hóa quy trình giao dịch bất động sản và từ đó dễ dàng đưa ra các quyết định phức tạp. Kể từ năm 2012, ImmoScout24 cũng đã hoạt động trong thị trường bất động sản Áo, đạt khoảng 3 triệu người dùng hàng tháng.

Từ tại chỗ đến Đường ống dữ liệu AWS đến SageMaker

Trong phần này, chúng tôi thảo luận về thiết lập trước đó và những thách thức của nó cũng như lý do tại sao chúng tôi quyết định sử dụng SageMaker cho mô hình mới của mình.

Thiết lập trước đó

Khi phiên bản đầu tiên của IMX được xuất bản vào năm 2010, đám mây vẫn là một bí ẩn đối với hầu hết các doanh nghiệp, bao gồm cả ImmoScout24. Lĩnh vực máy học (ML) còn sơ khai và chỉ một số ít chuyên gia biết cách viết mã một mô hình (để minh họa, bản phát hành công khai đầu tiên của Scikit-Learn là vào tháng 2010 năm 2). Không có gì ngạc nhiên khi việc phát triển IMX mất hơn XNUMX năm và tiêu tốn một khoản tiền bảy con số.

Vào năm 2015, ImmoScout24 bắt đầu di chuyển AWS và xây dựng lại IMX trên cơ sở hạ tầng AWS. Với dữ liệu trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) hồ dữ liệu, cả tiền xử lý dữ liệu và đào tạo mô hình hiện đã được thực hiện trên Amazon EMR các cụm được tổ chức bởi Đường ống dữ liệu AWS. Trong khi phần trước là ứng dụng PySpark ETL, phần sau là một số tập lệnh Python sử dụng các gói ML cổ điển (chẳng hạn như Scikit-Learn).

Vấn đề với thiết lập này

Mặc dù thiết lập này tỏ ra khá ổn định nhưng việc khắc phục sự cố cơ sở hạ tầng hoặc cải thiện mô hình không hề dễ dàng. Một vấn đề quan trọng với mô hình là độ phức tạp của nó, bởi vì một số thành phần đã tự bắt đầu hoạt động: cuối cùng, mã phát hiện ngoại lệ dài gần gấp đôi mã của chính mô hình IMX lõi.

Trên thực tế, mô hình cốt lõi không phải là một mô hình, mà là hàng trăm: một mô hình cho mỗi loại bất động sản nhà ở và khu vực, với định nghĩa thay đổi từ một khu phố ở thành phố lớn đến một số làng ở nông thôn. Ví dụ, chúng tôi đã có một mô hình cho căn hộ để bán ở giữa Berlin và một mô hình cho những ngôi nhà để bán ở ngoại ô Munich. Bởi vì việc thiết lập đào tạo tất cả các mô hình này mất rất nhiều thời gian, chúng tôi đã bỏ qua điều chỉnh siêu thông số, điều này có thể dẫn đến các mô hình hoạt động kém hiệu quả.

Tại sao chúng tôi quyết định chọn SageMaker

Với những vấn đề này và tham vọng của chúng tôi về việc có một báo cáo thị trường với những lợi ích thiết thực, chúng tôi đã phải quyết định giữa việc viết lại các phần lớn của mã hiện có hay bắt đầu lại từ đầu. Như bạn có thể suy ra từ bài đăng này, chúng tôi đã chọn cái sau. Nhưng tại sao lại là SageMaker?

Phần lớn thời gian của chúng tôi trên IMX dành cho việc khắc phục sự cố cơ sở hạ tầng chứ không phải cải thiện mô hình. Đối với báo cáo thị trường mới, chúng tôi muốn lật lại vấn đề này, tập trung vào hiệu suất thống kê của mô hình. Chúng tôi cũng muốn có sự linh hoạt để nhanh chóng thay thế các thành phần riêng lẻ của mô hình, chẳng hạn như tối ưu hóa các siêu tham số. Điều gì sẽ xảy ra nếu một thuật toán thúc đẩy vượt trội mới xuất hiện (hãy nghĩ về cách XGBoost đạt được thành công vào năm 2014)? Tất nhiên, chúng tôi muốn áp dụng nó như một trong những người đầu tiên!

Trong SageMaker, các thành phần chính của quy trình làm việc ML cổ điển — tiền xử lý, đào tạo, điều chỉnh siêu tham số và suy luận — được tách biệt rõ ràng trên cấp API và cả trên Bảng điều khiển quản lý AWS. Sửa đổi chúng riêng lẻ không khó.

Mô hình mới

Trong phần này, chúng ta thảo luận về các thành phần của mô hình mới, bao gồm dữ liệu đầu vào, thuật toán, điều chỉnh siêu tham số và thiết lập kỹ thuật.

Dữ liệu đầu vào

WohnBarometer dựa trên một cửa sổ trượt trong 5 năm của ImmoScout24 danh sách bất động sản nhà ở tại Đức. Sau khi chúng tôi loại bỏ các danh sách ngoại lai và gian lận, chúng tôi còn lại khoảng 4 triệu danh sách được chia thành dữ liệu đào tạo (60%), xác thực (20%) và dữ liệu thử nghiệm (20%). Mối quan hệ giữa danh sách và đối tượng không nhất thiết phải là 1: 1; Trong vòng 5 năm, có khả năng cùng một đối tượng được chèn nhiều lần (bởi nhiều người).

Chúng tôi sử dụng 13 thuộc tính danh sách, chẳng hạn như vị trí của bất động sản (tọa độ WGS84), loại bất động sản (nhà hoặc căn hộ, bán hoặc cho thuê), tuổi (năm), kích thước (mét vuông) hoặc tình trạng của nó (ví dụ: , mới hoặc tân trang). Cho rằng mỗi danh sách thường đi kèm với hàng chục thuộc tính, câu hỏi đặt ra: nên đưa cái nào vào mô hình? Một mặt, chúng tôi đã sử dụng kiến thức miền; ví dụ, ai cũng biết rằng vị trí là yếu tố then chốt và ở hầu hết các thị trường, bất động sản mới đắt hơn bất động sản hiện có. Mặt khác, chúng tôi dựa trên kinh nghiệm của mình với IMX và các mô hình tương tự. Ở đó, chúng tôi đã học được rằng bao gồm hàng tá thuộc tính không cải thiện đáng kể mô hình.

Tùy thuộc vào loại bất động sản trong danh sách, biến mục tiêu của mô hình của chúng tôi là giá thuê mỗi mét vuông hoặc giá bán mỗi mét vuông (chúng tôi giải thích sau tại sao lựa chọn này không lý tưởng). Không giống như IMX, WohnBarometer do đó là một con số có thể được khách hàng của chúng tôi trực tiếp giải thích và hành động.

Mô tả về mô hình

Khi sử dụng SageMaker, bạn có thể chọn giữa các chiến lược khác nhau để triển khai thuật toán của mình:

Sử dụng một trong các thuật toán tích hợp sẵn của SageMaker. Có gần 20 và chúng bao gồm tất cả các dạng vấn đề ML chính.
Tùy chỉnh hình ảnh Docker được tạo sẵn dựa trên khung ML tiêu chuẩn (chẳng hạn như Scikit-Learn hoặc PyTorch).
Xây dựng thuật toán của riêng bạn và triển khai nó dưới dạng hình ảnh Docker.

Đối với WohnBarometer, chúng tôi muốn có một giải pháp dễ bảo trì và cho phép chúng tôi tập trung vào việc cải thiện chính mô hình chứ không phải cơ sở hạ tầng cơ bản. Do đó, chúng tôi quyết định lựa chọn đầu tiên: sử dụng thuật toán được quản lý đầy đủ với tài liệu thích hợp và hỗ trợ nhanh nếu cần. Tiếp theo, chúng tôi cần chọn chính thuật toán. Một lần nữa, quyết định không có gì khó khăn: chúng tôi sử dụng thuật toán XGBoost vì nó là một trong những thuật toán ML nổi tiếng nhất cho các bài toán kiểu hồi quy và chúng tôi đã sử dụng thành công nó trong một số dự án.

Điều chỉnh siêu tham số

Hầu hết các thuật toán ML đi kèm với vô số các tham số để tinh chỉnh. Ví dụ: các thuật toán tăng cường có nhiều tham số chỉ định cách thức chính xác của cây: Cây có tối đa 20 hoặc 30 lá? Mỗi cây dựa trên tất cả các hàng và cột hay chỉ các mẫu? Làm thế nào nặng nề để cắt tỉa cây? Việc tìm kiếm các giá trị tối ưu của các tham số đó (được đo bằng thước đo đánh giá mà bạn chọn), cái gọi là điều chỉnh siêu tham số, là rất quan trọng để xây dựng một mô hình ML mạnh mẽ.

Một câu hỏi quan trọng trong điều chỉnh siêu tham số là điều chỉnh tham số nào và cách đặt phạm vi tìm kiếm. Bạn có thể hỏi, tại sao không kiểm tra tất cả các kết hợp có thể có? Mặc dù về lý thuyết, điều này nghe có vẻ là một ý tưởng hay, nhưng nó sẽ dẫn đến một không gian siêu thông số khổng lồ với quá nhiều điểm để đánh giá tất cả chúng ở một mức giá hợp lý. Đó là lý do tại sao những người thực hành ML thường chọn một số lượng nhỏ các siêu tham số được biết là có tác động mạnh đến hiệu suất của thuật toán đã chọn.

Sau khi không gian siêu tham số được xác định, nhiệm vụ tiếp theo là tìm sự kết hợp tốt nhất của các giá trị trong đó. Các kỹ thuật sau đây thường được sử dụng:

Tìm kiếm lưới - Phân chia không gian trong một lưới rời rạc và sau đó đánh giá tất cả các điểm trong lưới với xác nhận chéo.
Tìm kiếm ngẫu nhiên - Rút ngẫu nhiên các tổ hợp từ khoảng trống. Với cách tiếp cận này, rất có thể bạn sẽ bỏ lỡ sự kết hợp tốt nhất, nhưng nó đóng vai trò là một điểm chuẩn tốt.
Tối ưu hóa Bayes - Xây dựng mô hình xác suất của hàm mục tiêu và sử dụng mô hình này để tạo ra các kết hợp mới. Mô hình được cập nhật sau mỗi lần kết hợp, nhanh chóng dẫn đến kết quả tốt.

Trong những năm gần đây, nhờ sức mạnh tính toán rẻ, tối ưu hóa Bayesian đã trở thành tiêu chuẩn vàng trong điều chỉnh siêu thông số và là cài đặt mặc định trong SageMaker.

Thiết lập kỹ thuật

Như với nhiều dịch vụ AWS khác, bạn có thể tạo các công việc SageMaker trên bảng điều khiển, với Giao diện dòng lệnh AWS (AWS CLI) hoặc qua mã. Chúng tôi đã chọn tùy chọn thứ ba, SageMaker Python SDK chính xác, vì nó cho phép thiết lập tự động hóa cao: WohnBarometer nằm trong một dự án phần mềm Python có thể thực thi dòng lệnh. Ví dụ: tất cả các bước của đường ống ML như tiền xử lý hoặc đào tạo mô hình có thể được kích hoạt thông qua các lệnh Bash. Đến lượt mình, các lệnh Bash đó được sắp xếp với một đường dẫn Jenkins được cung cấp bởi Cổng xa AWS.

Hãy xem xét các bước và cơ sở hạ tầng cơ bản:

Sơ chế - Quá trình tiền xử lý được thực hiện với thư viện Scikit-Learn tích hợp sẵn trong SageMaker. Bởi vì nó liên quan đến việc kết hợp các khung dữ liệu với hàng triệu hàng, chúng tôi cần một máy phóng to ml.m5.24 ở đây, máy lớn nhất mà bạn có thể nhận được trong họ ml.m. Ngoài ra, chúng tôi có thể đã sử dụng nhiều máy nhỏ hơn với khung phân tán như Dask, nhưng chúng tôi muốn giữ nó càng đơn giản càng tốt.
Hội thảo - Chúng tôi sử dụng thuật toán SageMaker XGBoost mặc định. Việc đào tạo được thực hiện với hai máy phóng to ml.m5.12. Điều đáng nói là train.py của chúng tôi chứa mã của đào tạo mô hình và điều chỉnh siêu tham số có ít hơn 100 hàng.
Điều chỉnh siêu tham số - Theo nguyên tắc ít hơn là nhiều, chúng tôi chỉ điều chỉnh 11 siêu tham số (ví dụ: số vòng tăng cường và tỷ lệ học tập), điều này cho chúng tôi thời gian để lựa chọn cẩn thận phạm vi của chúng và kiểm tra cách chúng tương tác với nhau. Chỉ với một vài siêu tham số, mỗi công việc đào tạo chạy tương đối nhanh; trong trường hợp của chúng tôi, công việc mất từ 10–20 phút. Với số lượng tối đa là 30 công việc đào tạo và 2 công việc đồng thời, tổng thời gian đào tạo là khoảng 3 giờ.
Sự suy luận - SageMaker cung cấp nhiều tùy chọn để phục vụ mô hình của bạn. Chúng tôi sử dụng các công việc chuyển đổi hàng loạt vì chúng tôi chỉ cần số WohnBarometer mỗi quý một lần. Chúng tôi đã không sử dụng một điểm cuối bởi vì phần lớn thời gian nó sẽ không hoạt động. Mỗi công việc hàng loạt (khoảng 6.8 triệu hàng) được phục vụ bởi một máy phóng to ml.m5.4 trong vòng chưa đầy 10 phút.

Chúng tôi có thể dễ dàng gỡ lỗi các bước này trên bảng điều khiển SageMaker. Ví dụ: nếu công việc đào tạo mất nhiều thời gian hơn dự kiến, chúng tôi điều hướng đến Hội thảo trang, xác định vị trí công việc đào tạo được đề cập và đánh giá amazoncloudwatch chỉ số của các máy cơ bản.

Sơ đồ kiến trúc sau đây cho thấy cơ sở hạ tầng của WohnBarometer:

Thử thách và học hỏi

Ban đầu, mọi thứ diễn ra suôn sẻ: trong vài ngày, chúng tôi thiết lập dự án phần mềm và đào tạo một phiên bản thu nhỏ của mô hình của chúng tôi trong SageMaker. Chúng tôi đặt nhiều hy vọng vào lần chạy đầu tiên trên tập dữ liệu đầy đủ và điều chỉnh siêu tham số tại chỗ. Thật không may, kết quả không hài lòng. Chúng tôi có những vấn đề chính sau:

Dự đoán của mô hình quá thấp, cho cả đối tượng cho thuê và bán. Ví dụ, đối với Berlin, giá bán dự đoán cho các đối tượng tham chiếu của chúng tôi thấp hơn giá thị trường khoảng 50%.
Theo mô hình, không có sự chênh lệch đáng kể về giá giữa các tòa nhà mới và hiện tại. Sự thật là các tòa nhà mới hầu như luôn đắt hơn đáng kể so với các tòa nhà hiện có.
Ảnh hưởng của vị trí lên giá không được ghi lại một cách chính xác. Ví dụ, chúng tôi biết rằng các căn hộ bán ở Frankfurt am Main, trung bình, đắt hơn ở Berlin (mặc dù Berlin đang bắt kịp); mô hình của chúng tôi, tuy nhiên, dự đoán nó theo cách khác.

Vấn đề là gì và chúng ta đã giải quyết nó như thế nào?

Lấy mẫu các tính năng

Thoạt nhìn, có vẻ như các vấn đề không liên quan, nhưng thực sự là như vậy. Theo mặc định, XGBoost xây dựng mỗi cây với một mẫu ngẫu nhiên của các tính năng. Giả sử một mô hình có 10 tính năng F₁, NS₂,… F₁₀, thì thuật toán có thể sử dụng F₁, NS₄, và F₇ cho một cây, và F₃, NS₄, và F₈ cho cái khác. Mặc dù nói chung, hành vi này ngăn chặn việc trang bị quá nhiều một cách hiệu quả, nhưng nó có thể có vấn đề nếu số lượng tính năng ít và một số trong số chúng có ảnh hưởng lớn đến biến mục tiêu. Trong trường hợp này, nhiều cây sẽ bỏ lỡ các tính năng quan trọng.

Việc lấy mẫu 13 đặc điểm của XGBoost đã dẫn đến nhiều cây cối không bao gồm các đặc điểm quan trọng — loại bất động sản, vị trí và các tòa nhà mới hoặc hiện có — và hậu quả là đã gây ra những vấn đề này. May mắn thay, có một tham số để kiểm soát việc lấy mẫu: colsample_bytree (trên thực tế, có hai tham số nữa để kiểm soát việc lấy mẫu, nhưng chúng tôi đã không chạm vào chúng). Khi chúng tôi kiểm tra mã của mình, chúng tôi thấy rằng colsample_bytree được đặt thành 0.5, một giá trị mà chúng tôi đã thực hiện từ các dự án trước đây. Ngay sau khi chúng tôi đặt nó thành giá trị mặc định là 1, các vấn đề trước đó đã không còn nữa.

Một mô hình so với nhiều mô hình

Không giống như IMX, mô hình WohnBarometer thực sự chỉ là một mô hình. Mặc dù điều này giảm thiểu nỗ lực bảo trì, nhưng nó không phải là lý tưởng theo quan điểm thống kê. Vì dữ liệu đào tạo của chúng tôi chứa cả đối tượng bán và cho thuê, nên mức chênh lệch trong biến mục tiêu là rất lớn: dao động từ dưới 5 Euro cho một số căn hộ cho thuê đến trên 10,000 Euro cho nhà bán ở các vị trí hạng nhất. Thách thức lớn đối với mô hình là phải hiểu rằng sai số 5 Euro là tuyệt vời đối với các đối tượng bán, nhưng lại là thảm họa đối với các đối tượng cho thuê.

Theo nhận thức sâu sắc, khi biết việc duy trì nhiều mô hình trong SageMaker dễ dàng như thế nào, chúng tôi sẽ xây dựng ít nhất hai mô hình: một mô hình cho thuê và một mô hình để bán. Điều này sẽ giúp bạn dễ dàng nắm bắt được những đặc thù của cả hai thị trường. Ví dụ, giá căn hộ chưa bán để bán thường cao hơn 20–30% so với căn hộ cho thuê để bán. Do đó, mã hóa thông tin này như một biến giả trong mô hình bán hàng có rất nhiều ý nghĩa; mặt khác, đối với mô hình cho thuê, bạn có thể bỏ nó đi.

Kết luận

WohnBarometer có đáp ứng được mục tiêu là phù hợp với khách hàng của chúng tôi không? Lấy việc đưa tin trên các phương tiện truyền thông như một dấu hiệu, câu trả lời rõ ràng là có: tính đến tháng 2021 năm 700, hơn XNUMX bài báo và phóng sự truyền hình hoặc đài phát thanh trên WohnBarometer đã được xuất bản. Danh sách bao gồm các tờ báo quốc gia như Frankfurter Allgemeine Zeitung, Tagesspiegel và Handelsblatt, và các tờ báo địa phương thường yêu cầu các số liệu WohnBarometer cho khu vực của họ. Vì dù sao chúng tôi cũng tính toán các số liệu cho tất cả các vùng của Đức nên chúng tôi rất vui khi nhận được những yêu cầu như vậy. Với IMX cũ, mức độ chi tiết này không thể thực hiện được.

WohnBarometer vượt trội hơn IMX về hiệu suất tĩnh, đặc biệt là khi nói đến chi phí: IMX được tạo ra bởi một cụm EMR với 10 nút tác vụ chạy gần nửa ngày. Ngược lại, tất cả các bước WohnBarometer chỉ mất chưa đến 5 giờ khi sử dụng các máy cỡ trung bình. Điều này giúp tiết kiệm chi phí gần 75%.

Nhờ SageMaker, chúng tôi đã có thể đưa một mô hình ML phức tạp vào sản xuất với một nhà khoa học dữ liệu trong vòng chưa đầy 2 tháng. Đây là điều đáng chú ý. Trước đó 10 năm, khi ImmoScout24 xây dựng IMX, việc đạt được cột mốc tương tự mất hơn 2 năm và có sự tham gia của cả một nhóm.

Làm thế nào chúng tôi có thể hiệu quả như vậy? SageMaker cho phép chúng tôi tập trung vào mô hình thay vì cơ sở hạ tầng và SageMaker thúc đẩy một kiến trúc microservice dễ bảo trì. Nếu chúng tôi gặp khó khăn với vấn đề nào đó, chúng tôi có thể gọi bộ phận hỗ trợ của AWS. Trước đây, khi một trong các đường ống dẫn dữ liệu IMX của chúng tôi bị lỗi, đôi khi chúng tôi sẽ dành nhiều ngày để gỡ lỗi nó. Kể từ khi chúng tôi bắt đầu công bố số liệu WohnBarometer vào tháng 2021 năm XNUMX, cơ sở hạ tầng SageMaker chưa một lần nào bị lỗi.

Để tìm hiểu thêm về WohnBarometer, hãy xem Phong vũ biểu Wohn và WohnBarometer: Angebotsmieten stiegen 2021 packesweit wieder stärker an. Để tìm hiểu thêm về cách sử dụng thư viện SageMaker Scikit-Learn để xử lý trước, hãy xem Xử lý dữ liệu đầu vào trước khi đưa ra dự đoán bằng cách sử dụng các đường dẫn suy luận của Amazon SageMaker và Scikit-learning. Vui lòng gửi phản hồi cho chúng tôi trên Diễn đàn AWS cho Amazon SageMakerhoặc thông qua các địa chỉ liên hệ hỗ trợ AWS của bạn.

Nội dung và ý kiến trong bài đăng này là của tác giả bên thứ ba và AWS không chịu trách nhiệm về nội dung hoặc tính chính xác của bài đăng này.

Về các tác giả

Oliver băng giá gia nhập ImmoScout24 vào năm 2017 với tư cách là nhà phân tích kinh doanh. Hai năm sau, anh trở thành nhà khoa học dữ liệu trong một nhóm có nhiệm vụ biến dữ liệu ImmoScout24 thành các sản phẩm dữ liệu thực sự. Trước khi xây dựng mô hình WohnBarometer, anh đã điều hành các dự án SageMaker nhỏ hơn. Oliver có một số chứng chỉ AWS, bao gồm cả Chuyên ngành Máy học.

Lukas Muller là Kiến trúc sư Giải pháp tại AWS. Anh ấy làm việc với khách hàng trong các ngành thể thao, truyền thông và giải trí. Ông luôn tìm cách kết hợp khả năng hỗ trợ kỹ thuật với hỗ trợ văn hóa và tổ chức để giúp khách hàng đạt được giá trị kinh doanh bằng công nghệ đám mây.

Dấu thời gian: 9 Tháng ba, 2022

Dấu thời gian: Tháng Hai 16, 2024

Dự đoán giá bất động sản nhà ở tại ImmoScout24 với Amazon SageMaker

Được xuất bản lại bởi Plato

Giới thiệu về ImmoScout24

Từ tại chỗ đến Đường ống dữ liệu AWS đến SageMaker

Thiết lập trước đó

Vấn đề với thiết lập này

Tại sao chúng tôi quyết định chọn SageMaker

Mô hình mới

Dữ liệu đầu vào

Mô tả về mô hình

Điều chỉnh siêu tham số

Thiết lập kỹ thuật

Thử thách và học hỏi

Lấy mẫu các tính năng

Một mô hình so với nhiều mô hình

Kết luận

Về các tác giả

Thêm từ Học máy AWS

Bảo mật các URL được chỉ định sẵn của Amazon SageMaker Studio Phần 1: Cơ sở hạ tầng nền tảng

Cách Cơ quan đăng ký mã vạch phát hiện hàng giả bằng cách sử dụng tính năng phát hiện đối tượng và Amazon SageMaker

Tiện ích chuẩn bị dữ liệu tương tác dành cho sổ ghi chép do Amazon SageMaker Data Wrangler cung cấp

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản