Cách Amp trên Amazon sử dụng dữ liệu để tăng mức độ tương tác của khách hàng, Phần 1: Xây dựng nền tảng phân tích dữ liệu

Được xuất bản lại bởi Plato

Người theo dõi: 0

amp, ứng dụng phát thanh trực tiếp mới của Amazon, là một sự phát minh lại của đài phát thanh có các chương trình âm thanh trực tiếp do con người quản lý. Nó được thiết kế để cung cấp trải nghiệm khách hàng liền mạch cho người nghe và người sáng tạo bằng cách ra mắt các chương trình âm thanh trực tiếp tương tác từ các nghệ sĩ, DJ radio, podcast và bạn bè yêu thích của bạn.

Tuy nhiên, là một sản phẩm mới trong không gian mới của Amazon, Amp cần nhiều dữ liệu liên quan hơn để cung cấp thông tin cho quá trình ra quyết định của họ. Amp muốn có một nền tảng phân tích và dữ liệu có thể mở rộng để cho phép dễ dàng truy cập vào dữ liệu và thực hiện các thử nghiệm dựa trên máy (ML) để phiên âm âm thanh trực tiếp, kiểm duyệt nội dung, kỹ thuật tính năng và dịch vụ đề xuất chương trình cá nhân cũng như để kiểm tra hoặc đo lường các chỉ số và KPI kinh doanh.

Bài đăng này là bài đầu tiên trong loạt bài gồm hai phần. Phần 1 cho biết cách dữ liệu được thu thập và xử lý bằng cách sử dụng nền tảng dữ liệu và phân tích, và Phần 2 cho biết cách dữ liệu được sử dụng để tạo các đề xuất chương trình bằng cách sử dụng Amazon SageMaker, một dịch vụ ML được quản lý hoàn toàn. Dịch vụ danh sách đề xuất chương trình được cá nhân hóa đã cho thấy mức tăng 3% đối với các chỉ số tương tác của khách hàng được theo dõi (chẳng hạn như thích một chương trình, theo dõi người sáng tạo hoặc bật thông báo chương trình sắp tới) kể từ khi ra mắt vào tháng 2022 năm XNUMX.

Tổng quan về giải pháp

Nguồn dữ liệu cho Amp có thể được phân loại rộng rãi là truyền trực tuyến (thời gian gần thực) hoặc theo lô (tại thời điểm). Dữ liệu nguồn được phát ra từ các hệ thống thuộc sở hữu của Amp hoặc các hệ thống khác của Amazon. Hai kiểu dữ liệu khác nhau như sau:

Truyền dữ liệu - Loại dữ liệu này chủ yếu bao gồm số lượt theo dõi, thông báo (liên quan đến bạn bè của người dùng, người sáng tạo hoặc chương trình yêu thích), cập nhật hoạt động, tương tác trong chương trình trực tiếp (cuộc gọi, người đồng dẫn chương trình, cuộc thăm dò ý kiến, trò chuyện trong ứng dụng), thời gian thực cập nhật về các hoạt động của chương trình trực tiếp (số lượt nghe trực tiếp, lượt thích), chỉ số phát lại âm thanh trực tiếp và các chỉ số về luồng nhấp chuột khác từ ứng dụng Amp. Các bên liên quan yêu cầu dữ liệu này để cung cấp năng lượng cho các quy trình ML hoặc mô hình dự đoán, công cụ kiểm duyệt nội dung cũng như trang tổng quan về sản phẩm và chương trình (ví dụ: chương trình thịnh hành). Dữ liệu truyền trực tuyến cho phép khách hàng của Amp tiến hành và đo lường thử nghiệm.
Dữ liệu hàng loạt - Dữ liệu này chủ yếu bao gồm dữ liệu danh mục, siêu dữ liệu chương trình hoặc người tạo và dữ liệu hồ sơ người dùng. Dữ liệu hàng loạt cho phép báo cáo và phân tích điểm trong thời gian nhiều hơn so với thời gian thực.

Sơ đồ sau đây minh họa kiến trúc cấp cao.

Nền tảng phân tích và dữ liệu Amp có thể được chia thành ba hệ thống cấp cao:

Nhập dữ liệu trực tuyến, xử lý và chuyển đổi luồng cũng như lưu trữ luồng
Nhập dữ liệu hàng loạt, xử lý và chuyển đổi hàng loạt cũng như lưu trữ hàng loạt
Kinh doanh thông minh (BI) và phân tích

Trong các phần sau, chúng ta sẽ thảo luận chi tiết hơn về từng thành phần.

Truyền dữ liệu nhập, xử lý, chuyển đổi và lưu trữ trực tuyến

Amp đã tạo một đường dẫn nhập trực tuyến không cần máy chủ có khả năng khai thác dữ liệu từ các nguồn mà không cần quản lý cơ sở hạ tầng, như thể hiện trong sơ đồ sau.

Đường ống có thể nhập dữ liệu danh mục chương trình Amp (những chương trình có sẵn trên Amp) và chuyển nó vào hồ dữ liệu cho hai trường hợp sử dụng khác nhau: một cho phân tích thời gian thực gần và một cho phân tích hàng loạt.

Là một phần của quy trình nhập, nhóm Amp có Dịch vụ xếp hàng đơn giản trên Amazon (Amazon SQS) hàng đợi nhận tin nhắn từ ngược dòng Dịch vụ thông báo đơn giản của Amazon (Amazon SNS) chủ đề chứa thông tin về các thay đổi đối với các chương trình trong danh mục. Những thay đổi này có thể là việc bổ sung các chương trình mới hoặc điều chỉnh các chương trình hiện có đã được lên lịch.

Khi hàng đợi SQS nhận được thông báo, nó sẽ kích hoạt AWS Lambda để thực hiện một lệnh gọi API đến dịch vụ danh mục Amp. Hàm Lambda truy xuất siêu dữ liệu chương trình mong muốn, lọc siêu dữ liệu, sau đó gửi siêu dữ liệu đầu ra tới Luồng dữ liệu Amazon Kinesis. Amazon Kinesis Dữ liệu Firehose nhận các bản ghi từ luồng dữ liệu. Kinesis Data Firehose sau đó gọi một hàm Lambda phụ để thực hiện một phép chuyển đổi dữ liệu làm phẳng các bản ghi JSON đã nhận và ghi các bản ghi đã chuyển đổi vào một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) dữ liệu cho các bên liên quan sử dụng Amp.

Kinesis Data Firehose cho phép lưu và ghi dữ liệu vào Amazon S3 sau mỗi 60 giây. Điều này đã giúp các nhóm Amp đưa ra quyết định lập trình gần thời gian thực có tác động đến khách hàng bên ngoài.

Đường dẫn nhập trực tuyến hỗ trợ các mục tiêu sau: hiệu suất, tính khả dụng, khả năng mở rộng và tính linh hoạt để gửi dữ liệu đến nhiều ứng dụng hoặc dịch vụ hạ nguồn:

Kinesis Data Streams xử lý quá trình nhập dữ liệu trực tuyến khi cần thiết. Kinesis Data Streams đã hỗ trợ các mục tiêu này bằng cách cho phép nhóm Amp nhanh chóng nhập dữ liệu để phân tích với tải hoạt động tối thiểu. Là một dịch vụ được quản lý hoàn toàn, nó làm giảm chi phí hoạt động và Amp có thể mở rộng quy mô theo nhu cầu của sản phẩm.
Lambda đã cho phép nhóm tạo các hàm nhẹ để chạy các lệnh gọi API và thực hiện các phép biến đổi dữ liệu.
Bởi vì Kinesis Data Firehose là một dịch vụ được quản lý, nó có thể xử lý tất cả các nhu cầu mở rộng, phân tích và giám sát của dữ liệu phát trực tuyến mà không có bất kỳ sự nghe lén bổ sung nào cho nhóm.

Nhập, xử lý, chuyển đổi và lưu trữ dữ liệu hàng loạt

Amp đã tạo một đường dẫn nhập hàng loạt tạm thời (tại thời điểm) có khả năng nhập, xử lý và chuyển đổi dữ liệu và lưu trữ, như được hiển thị trong sơ đồ sau.

Phương pháp tiếp cận công việc trích xuất, chuyển đổi và tải tạm thời (ETL) và trích xuất, tải và chuyển đổi (ELT) đã được triển khai do bản chất hàng loạt của các khối lượng công việc này và khối lượng dữ liệu không xác định. Là một phần của quá trình tự động hóa quy trình làm việc, Amazon SQS được sử dụng để kích hoạt chức năng Lambda. Sau đó, hàm Lambda đã kích hoạt trình thu thập AWS Glue để suy ra lược đồ và kiểu dữ liệu. Trình thu thập thông tin đã ghi siêu dữ liệu giản đồ vào Danh mục dữ liệu AWS Glue, cung cấp kho siêu dữ liệu thống nhất để chia sẻ dữ liệu.

Các công việc ETL và ELT được yêu cầu chạy theo lịch trình đã định hoặc quy trình làm việc theo hướng sự kiện. Để giải quyết những nhu cầu này, Amp đã sử dụng Quy trình công việc được quản lý của Amazon cho Luồng khí Apache (Amazon MWAA). Apache Airflow là một nền tảng quản lý quy trình làm việc dựa trên Python mã nguồn mở. Amazon MWAA là một dịch vụ được quản lý hoàn toàn, tự động xử lý việc mở rộng quy mô. Nó cung cấp trình tự, xử lý lỗi, thử lại logic và trạng thái. Với Amazon MWAA, Amp đã có thể tận dụng những lợi ích của Luồng không khí để điều phối công việc trong khi không phải quản lý hoặc duy trì các máy chủ Luồng luồng chuyên dụng. Ngoài ra, bằng cách sử dụng Amazon MWAA, Amp đã có thể tạo kho lưu trữ mã và đường ống quy trình làm việc được lưu trữ trong Amazon S3 mà Amazon MWAA có thể truy cập. Đường ống cho phép các kỹ sư dữ liệu Amp dễ dàng triển khai các tập lệnh Airflow DAG hoặc PySpark trên nhiều môi trường.

Amp đã sử dụng Amazon EMR on Dịch vụ Kubernetes đàn hồi của Amazon (Amazon EKS) để định cấu hình và quản lý vùng chứa cho các công việc xử lý và chuyển đổi dữ liệu của họ. Do tính chất độc đáo của dịch vụ Amp, khối lượng dữ liệu dự kiến ban đầu sẽ được xử lý tương đối không xác định. Để cung cấp tính linh hoạt khi dịch vụ phát triển, nhóm đã quyết định sử dụng Amazon EMR trên EKS để loại bỏ mọi hoạt động nghe lén không cần thiết cần thiết để khởi động và mở rộng quy mô Amazon EMR để xử lý dữ liệu. Cách tiếp cận này cho phép họ chạy các cụm EMR lai tạm thời được hỗ trợ bởi sự kết hợp của Cổng xa AWS và Đám mây điện toán đàn hồi Amazon Các nút (Amazon EC2), nơi tất cả các tác vụ hệ thống và khối lượng công việc được chuyển tải cho Fargate, trong khi Amazon EC2 xử lý tất cả quá trình và chuyển đổi Apache Spark. Điều này cung cấp sự linh hoạt để có một cụm với một nút đang chạy, trong khi bộ mở rộng tự động Amazon EKS tự động khởi động và khởi động bất kỳ nút EC2 bổ sung nào được yêu cầu cho công việc. Khi công việc hoàn tất, chúng sẽ tự động bị xóa bởi bộ chia tỷ lệ tự động của cụm. Mô hình này loại bỏ nhu cầu nhóm quản lý bất kỳ hành động khởi động cụm hoặc mở rộng quy mô cần thiết để đáp ứng với khối lượng công việc đang phát triển.

Amazon S3 được sử dụng làm hồ dữ liệu trung tâm và dữ liệu được lưu trữ ở định dạng Apache Parquet (Sàn gỗ). Parquet là một định dạng cột, giúp tăng tốc độ truy xuất dữ liệu và cung cấp khả năng nén dữ liệu hiệu quả. Amazon S3 đã cung cấp các nhu cầu về tính linh hoạt, khả năng mở rộng và bảo mật cho Amp. Với Amazon S3, nhóm Amp đã có thể tập trung lưu trữ dữ liệu ở một vị trí và liên kết quyền truy cập vào dữ liệu hầu như trên bất kỳ dịch vụ hoặc công cụ nào bên trong hoặc bên ngoài AWS. Hồ dữ liệu được chia thành hai nhóm S3: một để nhập dữ liệu thô và một dành cho đầu ra dữ liệu đã chuyển đổi. Amazon EMR đã thực hiện chuyển đổi từ dữ liệu thô sang dữ liệu đã chuyển đổi. Với Amazon S3 là hồ dữ liệu trung tâm, Amp có thể tiết lộ và chia sẻ dữ liệu một cách an toàn với các nhóm khác trên Amp và Amazon.

Để đơn giản hóa định nghĩa dữ liệu, cấp phép truy cập bảng và thêm và xóa các bảng, họ đã sử dụng trình thu thập dữ liệu AWS Glue và Danh mục dữ liệu AWS Glue. Bởi vì Amp là một dịch vụ mới và không ngừng phát triển, nhóm cần một cách để dễ dàng xác định, truy cập và quản lý các bảng trong hồ dữ liệu. Các trình thu thập thông tin đã xử lý định nghĩa dữ liệu (bao gồm cả các thay đổi về giản đồ) và việc thêm và xóa các bảng, trong khi Danh mục dữ liệu đóng vai trò như một kho lưu trữ siêu dữ liệu thống nhất.

Kinh doanh và phân tích kinh doanh

Sơ đồ sau minh họa kiến trúc cho thành phần BI và phân tích.

Amp đã chọn lưu trữ dữ liệu trong hồ dữ liệu S3, chứ không phải trong kho dữ liệu. Điều này cho phép họ truy cập nó một cách thống nhất thông qua Danh mục dữ liệu AWS Glue và mang lại sự linh hoạt hơn cho người tiêu dùng dữ liệu. Điều này dẫn đến việc truy cập dữ liệu nhanh hơn trên nhiều dịch vụ hoặc công cụ. Với việc dữ liệu được lưu trữ trong Amazon S3, nó cũng làm giảm chi phí cơ sở hạ tầng kho dữ liệu, vì chi phí là một chức năng của loại máy tính và số lượng dữ liệu được lưu trữ.

Sản phẩm Amazon RedShift Loại nút RA3 được sử dụng làm lớp tính toán để cho phép các bên liên quan truy vấn dữ liệu được lưu trữ trong Amazon S3. Các nút Amazon Redshift RA3 phân tách bộ nhớ và tính toán, đồng thời được thiết kế cho một mẫu truy cập thông qua Danh mục dữ liệu AWS Glue. Các nút RA3 giới thiệu Amazon Redshift Managed Storage, được Amazon S3 hậu thuẫn. Sự kết hợp của các tính năng này đã cho phép Amp đặt đúng kích thước các cụm và cung cấp hiệu suất truy vấn tốt hơn cho khách hàng của họ đồng thời giảm thiểu chi phí.

Cấu hình Amazon Redshift được tự động hóa bằng cách sử dụng một hàm Lambda, được kết nối với một cụm nhất định và chạy các câu lệnh SQL được tham số hóa. Các câu lệnh SQL chứa logic để triển khai các lược đồ, nhóm người dùng và người dùng, trong khi Quản lý bí mật AWS được sử dụng để tự động tạo, lưu trữ và xoay mật khẩu người dùng Amazon Redshift. Các biến cấu hình cơ bản được lưu trữ trong Máy phát điện Amazon. Hàm Lambda đã truy xuất các biến và yêu cầu thông tin đăng nhập Amazon Redshift tạm thời để thực hiện cấu hình. Quá trình này cho phép nhóm Amp thiết lập các cụm Amazon Redshift một cách nhất quán.

Kết quả kinh doanh

Amp đã có thể đạt được các kết quả kinh doanh sau:

Báo cáo kinh doanh - Cần có báo cáo tiêu chuẩn để điều hành doanh nghiệp, chẳng hạn như báo cáo nhanh hàng ngày, cơ chế đánh giá tổng hợp kinh doanh hoặc cập nhật dự án và chương trình.
Báo cáo sản phẩm - Cần có báo cáo cụ thể để cho phép kiểm tra hoặc đo lường các chỉ số và KPI của sản phẩm chính. Điều này bao gồm các báo cáo trực quan thông qua các trang tổng quan như hiệu quả quảng bá tiếp thị, chỉ số tương tác với ứng dụng và các chương trình thịnh hành.
Thử nghiệm ML - Đã cho phép các nhóm Amazon cấp dưới sử dụng dữ liệu này để hỗ trợ thử nghiệm hoặc đưa ra các dự đoán và đề xuất. Ví dụ: các thử nghiệm ML như danh sách đề xuất chương trình được cá nhân hóa, phân loại chương trình và kiểm duyệt nội dung đã giúp giữ chân người dùng của Amp.

Những lợi ích chính

Bằng cách triển khai một kiến trúc có thể mở rộng, tiết kiệm chi phí, Amp đã có thể đạt được những điều sau:

Độ phức tạp hoạt động hạn chế - Họ đã xây dựng một hệ thống linh hoạt sử dụng các dịch vụ được AWS quản lý ở bất kỳ đâu có thể.
Sử dụng các ngôn ngữ của dữ liệu - Amp có thể hỗ trợ hai ngôn ngữ thao tác dữ liệu phổ biến nhất, Python và SQL, để thực hiện các hoạt động nền tảng, tiến hành các thử nghiệm ML và tạo phân tích. Với sự hỗ trợ này, các nhà phát triển với Amp đã có thể sử dụng các ngôn ngữ mà họ quen thuộc.
Cho phép thử nghiệm và đo lường - Amp cho phép các nhà phát triển nhanh chóng tạo ra các bộ dữ liệu cần thiết để tiến hành các thí nghiệm và đo lường kết quả. Điều này giúp tối ưu hóa trải nghiệm của khách hàng Amp.
Xây dựng để học hỏi nhưng thiết kế để mở rộng - Amp là một sản phẩm mới đang tìm thấy sự phù hợp với thị trường và có thể tập trung sức lực ban đầu của họ vào việc xây dựng các tính năng vừa đủ để nhận được phản hồi. Điều này cho phép họ xoay quanh thị trường sản phẩm phù hợp với mỗi lần ra mắt. Họ có thể xây dựng từng bước, nhưng lên kế hoạch lâu dài.

Kết luận

Trong bài đăng này, chúng tôi đã xem cách Amp tạo nền tảng phân tích dữ liệu của họ bằng cách sử dụng dữ liệu hành vi của người dùng từ các nguồn dữ liệu trực tuyến và hàng loạt. Các yếu tố chính thúc đẩy việc triển khai là cần phải cung cấp một nền tảng phân tích dữ liệu linh hoạt, có thể mở rộng, tiết kiệm chi phí và nỗ lực. Các lựa chọn thiết kế đã được thực hiện để đánh giá các dịch vụ AWS khác nhau.

Phần 2 của loạt bài này cho thấy cách chúng tôi đã sử dụng dữ liệu này và xây dựng danh sách đề xuất chương trình được cá nhân hóa bằng cách sử dụng SageMaker.

Trong các bước tiếp theo, chúng tôi khuyên bạn nên đi sâu vào từng giai đoạn của hệ thống đường ống dữ liệu và đưa ra các lựa chọn thiết kế hiệu quả về chi phí và có thể mở rộng cho nhu cầu của bạn. Để biết thêm thông tin, bạn cũng có thể xem các trường hợp sử dụng khác của khách hàng trong Blog AWS Analytics.

Nếu bạn có phản hồi về bài đăng này, hãy gửi nó trong phần nhận xét.

Giới thiệu về tác giả

Hoa tulip Gupta là Kiến trúc sư giải pháp tại Amazon Web Services. Cô làm việc với Amazon để thiết kế, xây dựng và triển khai các giải pháp công nghệ trên AWS. Cô ấy hỗ trợ khách hàng áp dụng các phương pháp hay nhất trong khi triển khai giải pháp trong AWS và là một người đam mê Analytics và ML. Khi rảnh rỗi, cô thích bơi lội, đi bộ đường dài và chơi các trò chơi trên bàn.

David Kuo là Kiến trúc sư giải pháp tại Amazon Web Services. Anh làm việc với các khách hàng của AWS để thiết kế, xây dựng và triển khai các giải pháp công nghệ trên AWS. Anh ấy làm việc với các khách hàng Truyền thông và Giải trí và có sở thích về công nghệ máy học. Trong thời gian rảnh rỗi, anh ấy tự hỏi mình nên làm gì với thời gian rảnh rỗi của mình.

Manolya McCormick là Kỹ sư phát triển phần mềm Sr cho Amp trên Amazon. Cô thiết kế và xây dựng các hệ thống phân tán sử dụng AWS để phục vụ các ứng dụng dành cho khách hàng. Cô thích đọc và nấu những công thức nấu ăn mới vào thời gian rảnh rỗi.

Jeff Christophersen là Kỹ sư dữ liệu Sr. cho Amp trên Amazon. Anh ấy làm việc để thiết kế, xây dựng và triển khai các giải pháp Dữ liệu lớn trên AWS nhằm thúc đẩy thông tin chi tiết hữu ích. Anh ấy hỗ trợ các nhóm nội bộ trong việc áp dụng các giải pháp tự động và có thể mở rộng, đồng thời là một người đam mê Analytics và Dữ liệu lớn. Khi rảnh rỗi, khi anh ấy không đi một đôi ván trượt, bạn có thể tìm thấy anh ấy trên chiếc xe đạp leo núi của mình.

Dấu thời gian: Ngày 9 tháng 2022 năm XNUMXNgày 11 tháng 2022 năm XNUMX

Dấu thời gian: Tháng Tư 17, 2023

Cách Amp trên Amazon sử dụng dữ liệu để tăng mức độ tương tác của khách hàng, Phần 1: Xây dựng nền tảng phân tích dữ liệu

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Truyền dữ liệu nhập, xử lý, chuyển đổi và lưu trữ trực tuyến

Nhập, xử lý, chuyển đổi và lưu trữ dữ liệu hàng loạt

Kinh doanh và phân tích kinh doanh

Kết quả kinh doanh

Những lợi ích chính

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

Xây dựng bộ dữ liệu sẵn sàng cho máy học từ Cửa hàng tính năng ngoại tuyến của Amazon SageMaker bằng Amazon SageMaker Python SDK | Dịch vụ web của Amazon

Triển khai giải pháp MLOps lưu trữ điểm cuối mô hình của bạn trong AWS Lambda

Sắp xếp lại dữ liệu PII tại The Very Group với Amazon Comprehend

Bắt đầu hành trình thành công của bạn với dự báo chuỗi thời gian với Amazon Forecast

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản