Amazon Amp, Müşteri Etkileşimini Artırmak İçin Verileri Nasıl Kullandı, Bölüm 1: Veri Analizi Platformu Oluşturma

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

amfiAmazon'un yeni canlı radyo uygulaması olan , insan küratörlüğünde canlı ses gösterileri içeren radyonun yeniden icat edilmesidir. En sevdiğiniz sanatçılardan, radyo DJ'lerinden, podcast yayıncılarından ve arkadaşlarınızdan etkileşimli canlı ses gösterileri sunarak dinleyicilere ve içerik oluşturuculara kusursuz bir müşteri deneyimi sağlamak için tasarlanmıştır.

Ancak, Amazon için yeni bir alanda yeni bir ürün olarak Amp, karar verme süreçlerini bilgilendirmek için daha alakalı verilere ihtiyaç duyuyordu. Amp, verilere kolay erişim sağlamak ve canlı ses transkripsiyon, içerik denetleme, özellik mühendisliği ve kişisel gösteri öneri hizmeti için makineye dayalı (ML) deneyleri gerçekleştirmek ve iş KPI'larını ve metriklerini incelemek veya ölçmek için ölçeklenebilir bir veri ve analitik platformu istedi.

Bu yazı iki bölümlük bir dizinin ilk yazısıdır. Bölüm 1, veri ve analitik platformu kullanılarak verilerin nasıl toplandığını ve işlendiğini gösterir ve Bölüm 2 kullanarak gösteri önerileri oluşturmak için verilerin nasıl kullanıldığını gösterir. Amazon Adaçayı Yapıcı, tam olarak yönetilen bir makine öğrenimi hizmeti. Kişiselleştirilmiş program öneri listesi hizmeti, Mayıs 3'de kullanıma sunulduğundan bu yana izlenen müşteri etkileşimi metriklerinde (bir şovu beğenme, bir içerik oluşturucuyu takip etme veya yaklaşan şov bildirimlerini etkinleştirme gibi) %2022'lük bir artış gösterdi.

Çözüme genel bakış

Amp için veri kaynakları, genel olarak akış (gerçek zamana yakın) veya toplu (zamandaki nokta) olarak kategorize edilebilir. Kaynak veriler, Amp'in sahip olduğu sistemlerden veya diğer Amazon sistemlerinden yayılır. İki farklı veri türü aşağıdaki gibidir:

Veri akışı – Bu tür veriler esas olarak takipler, bildirimler (kullanıcıların arkadaşları, favori içerik oluşturucuları veya şovları hakkında), etkinlik güncellemeleri, canlı gösteri etkileşimleri (çağrılar, yardımcı sunucular, anketler, uygulama içi sohbet), gerçek zamanlı Amp uygulamasından canlı gösteri etkinlikleri (canlı dinleme sayısı, beğeniler), canlı ses oynatma ölçümleri ve diğer tıklama akışı ölçümleriyle ilgili güncellemeler. Amp paydaşları, makine öğrenimi süreçlerini veya tahmine dayalı modelleri, içerik denetleme araçlarını ve ürün ve program panolarını (örneğin, trend gösterileri) güçlendirmek için bu verilere ihtiyaç duyar. Akış verileri, Amp müşterilerinin deney yapmalarını ve ölçmelerini sağlar.
Toplu veri – Bu veriler temel olarak katalog verilerinden, şov veya içerik oluşturucu meta verilerinden ve kullanıcı profili verilerinden oluşur. Toplu veriler, gerçek zamanlıya kıyasla daha fazla belirli bir noktada raporlama ve analitik sağlar.

Aşağıdaki diyagram üst düzey mimariyi göstermektedir.

Amp veri ve analitik platformu, üç üst düzey sisteme ayrılabilir:

Akış veri alımı, akış işleme ve dönüştürme ve akış depolama
Toplu veri alımı, toplu işleme ve dönüştürme ve toplu depolama
İş zekası (BI) ve analitik

Aşağıdaki bölümlerde, her bir bileşeni daha ayrıntılı olarak tartışacağız.

Akış verisi alma, işleme, dönüştürme ve depolama

Amp, aşağıdaki şemada gösterildiği gibi, altyapı yönetimine ihtiyaç duymadan kaynaklardan gelen verilerden yararlanabilen sunucusuz bir akış alma işlem hattı oluşturdu.

İşlem hattı, Amp şov kataloğu verilerini (Amp'te hangi şovlar mevcuttur) alabildi ve iki farklı kullanım durumu için veri gölüne iletebildi: biri gerçek zamanlıya yakın analitik ve diğeri toplu analiz için.

Alım hattının bir parçası olarak, Amp ekibinin bir Amazon Basit Kuyruk Hizmeti Bir yukarı akıştan ileti alan (Amazon SQS) kuyruğu Amazon Basit Bildirim Servisi Katalogdaki gösterilerde yapılan değişiklikler hakkında bilgi içeren (Amazon SNS) konusu. Bu değişiklikler, yeni programların eklenmesi veya programlanmış olan mevcut programlarda ayarlamalar olabilir.

Mesaj SQS kuyruğu tarafından alındığında, AWS Lambda Amp katalog hizmetine bir API çağrısı yapmak için işlev. Lambda işlevi, istenen gösteri meta verilerini alır, meta verileri filtreler ve ardından çıktı meta verilerini Amazon Kinesis Veri Akışları. Amazon Kinesis Veri İtfaiyesi veri akışından kayıtları alır. Kinesis Data Firehose daha sonra alınan JSON kayıtlarını düzleştiren ve dönüştürülen kayıtları bir Amazon Basit Depolama Hizmeti Amp paydaşları tarafından tüketim için (Amazon S3) veri gölü.

Kinesis Data Firehose, verileri 3 saniyede bir arabelleğe almayı ve Amazon S60'e yazmayı etkinleştirdi. Bu, Amp ekiplerinin dış müşterileri etkileyen neredeyse gerçek zamanlı programlama kararları almasına yardımcı oldu.

Akış alımı ardışık düzeni şu hedefleri destekledi: performans, kullanılabilirlik, ölçeklenebilirlik ve birden çok aşağı akış uygulamasına veya hizmetine veri gönderme esnekliği:

Kinesis Data Streams, gerektiğinde akış veri alımını işler. Kinesis Data Streams, Amp ekibinin minimum operasyonel yük ile analitik için verileri hızlı bir şekilde almasını sağlayarak bu hedefleri destekledi. Tam olarak yönetilen bir hizmet olarak, operasyonel ek yükü azalttı ve Amp, ürün ihtiyaçlarına göre ölçeklenebildi.
Lambda, ekibin API çağrılarını çalıştırmak ve veri dönüştürmeleri gerçekleştirmek için basit işlevler oluşturmasını sağladı.
Kinesis Data Firehose yönetilen bir hizmet olduğundan, ekip için herhangi bir ek kulak misafiri olmadan akış verilerinin tüm ölçeklendirme, parçalama ve izleme ihtiyaçlarını karşılayabildi.

Toplu veri alımı, işlenmesi, dönüştürülmesi ve depolanması

Amp, aşağıdaki şemada gösterildiği gibi veri alma, işleme ve dönüştürme ve depolama yapabilen bir geçici toplu (zamanda nokta) alma işlem hattı oluşturdu.

Bu iş yüklerinin toplu yapısı ve bilinmeyen veri hacimleri nedeniyle bir geçici ayıklama, dönüştürme ve yükleme (ETL) ve çıkarma, yükleme ve dönüştürme (ELT) iş yaklaşımı uygulandı. İş akışı otomasyonunun bir parçası olarak, bir Lambda işlevini tetiklemek için Amazon SQS kullanıldı. Lambda işlevi daha sonra şema ve veri türlerini çıkarmak için AWS Glue tarayıcısını etkinleştirdi. Tarayıcı, şema meta verilerini AWS Glue Data Catalog'a yazarak, veri paylaşımı için birleşik bir meta veri deposu sağladı.

ETL ve ELT işlerinin belirli bir programda veya olaya dayalı iş akışında çalışması gerekiyordu. Bu ihtiyaçları karşılamak için Amp Apache Airflow için Amazon Tarafından Yönetilen İş Akışları (Amazon MWAA). Apache Airflow, açık kaynaklı Python tabanlı bir iş akışı yönetim platformudur. Amazon MWAA, ölçeklendirmeyi otomatik olarak gerçekleştiren tam olarak yönetilen bir hizmettir. Sıralama, hata işleme, yeniden deneme mantığı ve durum sağlar. Amazon MWAA ile Amp, özel Airflow sunucularını yönetmek veya bakımını yapmak zorunda kalmadan iş düzenlemesi için Airflow'un avantajlarından yararlanabildi. Ayrıca Amp, Amazon MWAA'yı kullanarak Amazon MWAA'nın erişebileceği Amazon S3'te depolanan bir kod deposu ve iş akışı ardışık düzeni oluşturabildi. Ardışık düzen, Amp veri mühendislerinin Airflow DAG'lerini veya PySpark komut dosyalarını birden çok ortamda kolayca dağıtmasına olanak sağladı.

Amper kullanılmış Amazon EMR'si on Amazon Elastik Kubernetes Hizmeti (Amazon EKS), veri işleme ve dönüştürme işleri için kapsayıcıları yapılandırmak ve yönetmek için. Amp hizmetinin benzersiz doğası nedeniyle, işlenecek olan ilk beklenen veri hacimleri nispeten bilinmiyordu. Hizmet geliştikçe esneklik sağlamak için ekip, veri işleme için Amazon EMR'yi önyüklemek ve ölçeklendirmek için gereken gereksiz operasyonel kulak misafiri olma durumunu ortadan kaldırmak için EKS üzerinde Amazon EMR ile çalışmaya karar verdi. Bu yaklaşım, bir karışımı tarafından desteklenen geçici hibrit EMR kümelerini çalıştırmalarına izin verdi. AWS Fargate ve Amazon Elastik Bilgi İşlem Bulutu (Amazon EC2) düğümleri, burada tüm sistem görevleri ve iş yükleri Fargate'e aktarılırken, Amazon EC2 tüm Apache Spark işleme ve dönüşümünü üstlendi. Bu, bir düğümün çalıştığı bir kümeye sahip olma esnekliği sağlarken, Amazon EKS otomatik ölçekleyici, iş için gerekli olan tüm ek EC2 düğümlerini dinamik olarak başlatır ve önyükler. İş tamamlandığında, küme otomatik ölçekleyici tarafından otomatik olarak silindiler. Bu model, ekibin gelişen iş yüklerine yanıt vermek için gereken küme önyükleme eylemlerinden veya ölçeklendirmeden herhangi birini yönetme ihtiyacını ortadan kaldırdı.

Merkezi veri gölü olarak Amazon S3 kullanıldı ve veriler Apache Parquet (Parquet) formatında saklandı. Parke, veri alımını hızlandıran ve verimli veri sıkıştırması sağlayan sütunlu bir formattır. Amazon S3, Amp için esneklik, ölçeklenebilirlik ve güvenlik gereksinimlerini sağladı. Amazon S3 ile Amp ekibi, veri depolamayı tek bir konumda merkezileştirebildi ve AWS içindeki veya dışındaki herhangi bir hizmet veya araçta verilere sanal olarak erişim sağladı. Veri gölü, biri ham veri alımı için ve diğeri dönüştürülmüş veri çıkışı için olmak üzere iki S3 grubuna bölünmüştür. Amazon EMR, ham verilerden dönüştürülmüş verilere dönüşüm gerçekleştirdi. Merkezi veri gölü olarak Amazon S3 ile Amp, verileri Amp ve Amazon'daki diğer ekiplerle güvenli bir şekilde açığa çıkarmayı ve paylaşmayı başardı.

Veri tanımlamayı, tablo erişimi sağlamayı ve tabloların eklenmesini ve kaldırılmasını basitleştirmek için AWS Glue tarayıcılarını ve AWS Glue Data Catalog'u kullandılar. Amp yeni bir hizmet olduğundan ve sürekli olarak geliştiğinden, ekibin veri gölündeki tabloları kolayca tanımlamanın, bunlara erişmenin ve bunları yönetmenin bir yoluna ihtiyacı vardı. Tarayıcılar, veri tanımını (şema değişiklikleri dahil) ve tabloların eklenmesini ve kaldırılmasını ele alırken, Veri Kataloğu birleşik bir meta veri deposu olarak hizmet etti.

İş zekası ve analitik

Aşağıdaki şema, BI ve analitik bileşeninin mimarisini göstermektedir.

Amp, verileri veri ambarında değil, S3 veri gölünde saklamayı seçti. Bu, AWS Glue Data Catalog aracılığıyla veriye birleşik bir şekilde erişmelerini sağladı ve veri tüketicileri için daha fazla esneklik sağladı. Bu, çeşitli hizmetler veya araçlar arasında daha hızlı veri erişimiyle sonuçlandı. Verilerin Amazon S3'te depolanmasıyla veri ambarı altyapı maliyetlerini de azalttı, çünkü maliyetler işlem türünün ve depolanan veri miktarının bir fonksiyonudur.

The Amazon Kırmızıya Kaydırma Paydaşların Amazon S3'te depolanan verileri sorgulamasını sağlamak için işlem katmanı olarak RA3 düğüm türü kullanıldı. Amazon Redshift RA3 düğümleri, depolama ve hesaplamayı birbirinden ayırır ve AWS Glue Data Catalog aracılığıyla bir erişim modeli için tasarlanmıştır. RA3 düğümleri, Amazon S3 destekli Amazon Redshift Managed Storage'ı sunar. Bu özelliklerin birleşimi, Amp'in kümeleri doğru boyutlandırmasını ve maliyetleri en aza indirirken müşterileri için daha iyi sorgu performansı sağlamasını sağladı.

Amazon Redshift yapılandırması, belirli bir kümeye bağlanan ve parametreli SQL ifadeleri çalıştıran bir Lambda işlevi kullanılarak otomatikleştirildi. SQL ifadeleri şemaları, kullanıcı gruplarını ve kullanıcıları dağıtma mantığını içeriyordu. AWS Sırları Yöneticisi Amazon Redshift kullanıcı parolalarını otomatik olarak oluşturmak, depolamak ve döndürmek için kullanıldı. Temel yapılandırma değişkenleri şurada saklandı: Amazon DinamoDB. Lambda işlevi, değişkenleri aldı ve yapılandırmayı gerçekleştirmek için geçici Amazon Redshift kimlik bilgileri istedi. Bu süreç, Amp ekibinin Amazon Redshift kümelerini tutarlı bir şekilde kurmasını sağladı.

iş sonuçları

Amp, aşağıdaki iş sonuçlarını elde etmeyi başardı:

İş raporlaması – Günlük flaş raporlar, toplu iş inceleme mekanizmaları veya proje ve program güncellemeleri gibi işi yürütmek için gereken standart raporlama.
Ürün raporlama – Temel ürün KPI'ları ve Metriklerinin denetlenmesini veya ölçülmesini sağlamak için gereken özel raporlama. Bu, pazarlama promosyonunun etkinliği, uygulama etkileşimi ölçümleri ve trend gösterileri gibi gösterge panoları aracılığıyla görsel raporları içeriyordu.
makine öğrenimi denemesi – Alt Amazon ekiplerinin bu verileri deneyleri desteklemek veya tahminler ve öneriler oluşturmak için kullanmasını sağladı. Örneğin, kişiselleştirilmiş bir gösteri öneri listesi, gösteri kategorizasyonu ve içerik denetimi gibi ML deneyleri, Amp'in kullanıcıyı elde tutmasına yardımcı oldu.

anahtar faydaları

Amp, ölçeklenebilir, uygun maliyetli bir mimari uygulayarak aşağıdakileri başardı:

Sınırlı operasyonel karmaşıklık – Mümkün olan her yerde AWS tarafından yönetilen hizmetleri kullanan esnek bir sistem oluşturdular.
Veri dillerini kullanın – Amp, platform işlemlerini gerçekleştirmek, ML deneyleri yapmak ve analitik oluşturmak için en yaygın iki veri işleme dili olan Python ve SQL'i destekleyebildi. Bu destek sayesinde Amp'li geliştiriciler aşina oldukları dilleri kullanabildiler.
Denemeyi ve ölçümü etkinleştirin – Amp, geliştiricilerin deneyler yapmak ve sonuçları ölçmek için gereken veri kümelerini hızla oluşturmasına izin verdi. Bu, Amp müşteri deneyimini optimize etmeye yardımcı olur.
Öğrenmek için inşa edin, ancak ölçeklendirmek için tasarlayın – Amp, pazara uygun yeni bir üründür ve ilk enerjilerini geri bildirim almaya yetecek kadar özellik oluşturmaya odaklayabilmiştir. Bu, her lansmanda uygun ürün pazarına doğru yönelmelerini sağladı. Kademeli olarak inşa edebildiler, ancak uzun vadeli plan yaptılar.

Sonuç

Bu gönderide, akış ve toplu veri kaynaklarından gelen kullanıcı davranış verilerini kullanarak Amp'in veri analizi platformunu nasıl oluşturduğunu gördük. Uygulamayı yönlendiren temel faktörler, esnek, ölçeklenebilir, uygun maliyetli ve çabayı verimli kılan bir veri analizi platformu sağlama ihtiyacıydı. Çeşitli AWS hizmetleri değerlendirilerek tasarım seçimleri yapıldı.

Bölüm 2 Bu seri, bu verileri nasıl kullandığımızı ve SageMaker kullanarak kişiselleştirilmiş gösteri öneri listesini oluşturduğumuzu gösterir.

Sonraki adımlar olarak, veri hattı sisteminizin her aşamasına derinlemesine bir dalış yapmanızı ve ihtiyaçlarınız için uygun maliyetli ve ölçeklenebilir tasarım seçimleri yapmanızı öneririz. Daha fazla bilgi için, diğer müşteri kullanım örneklerine de göz atabilirsiniz. AWS Analiz Blogu.

Bu gönderi hakkında geri bildiriminiz varsa, yorumlar bölümüne gönderin.

yazarlar hakkında

Lale Gupta Amazon Web Services'te Çözüm Mimarıdır. AWS'de teknoloji çözümleri tasarlamak, oluşturmak ve dağıtmak için Amazon ile birlikte çalışır. Müşterilerin AWS'de çözüm dağıtırken en iyi uygulamaları benimsemelerine yardımcı olur ve bir Analytics ve ML meraklısıdır. Boş zamanlarında yüzmeyi, yürüyüş yapmayı ve masa oyunları oynamayı sever.

David Kuo Amazon Web Services'te Çözüm Mimarıdır. AWS'de teknoloji çözümleri tasarlamak, oluşturmak ve dağıtmak için AWS müşterileriyle birlikte çalışır. Medya ve Eğlence müşterileriyle çalışıyor ve makine öğrenimi teknolojilerine ilgi duyuyor. Boş zamanlarında, boş zamanlarında ne yapması gerektiğini düşünür.

Manolya McCormick Amazon'da Amp için bir Kıdemli Yazılım Geliştirme Mühendisidir. Müşteriye yönelik uygulamalara hizmet etmek için AWS'yi kullanarak dağıtılmış sistemler tasarlar ve oluşturur. Boş zamanlarında yeni tarifler okumaktan ve yemek yapmaktan hoşlanır.

Jeff Christophersen Amazon'da Amp için Kıdemli Veri Mühendisi. AWS'de eyleme dönüştürülebilir içgörüler sağlayan Büyük Veri çözümleri tasarlamak, oluşturmak ve dağıtmak için çalışıyor. Dahili ekiplere ölçeklenebilir ve otomatik çözümler benimseme konusunda yardımcı olur ve bir Analitik ve Büyük Veri meraklısıdır. Boş zamanlarında, kayak yapmadığı zamanlarda onu dağ bisikletinde bulabilirsiniz.

Zaman Damgası: Eylül 9, 2022Eylül 11, 2022

Zaman Damgası: Nisan 17, 2023

Amp on Amazon, müşteri etkileşimini artırmak için verileri nasıl kullandı, Bölüm 1: Bir veri analizi platformu oluşturma

Plato tarafından yeniden yayınlandı

Çözüme genel bakış

Akış verisi alma, işleme, dönüştürme ve depolama

Toplu veri alımı, işlenmesi, dönüştürülmesi ve depolanması

İş zekası ve analitik

iş sonuçları

anahtar faydaları

Sonuç

yazarlar hakkında

Den fazla AWS Makine Öğrenimi

Amazon SageMaker Python SDK | Amazon Web Hizmetleri

AWS Lambda'da model uç noktalarınızı barındıran bir MLOps çözümü dağıtın

Amazon Comprehend ile The Very Group'ta PII verilerini düzenleme

Amazon Forecast ile zaman serisi tahmini ile başarılı yolculuğunuza başlayın

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap