Bagaimana Games24x7 Mengubah Pipeline MLOps Pelatihan Ulang Mereka Dengan Amazon SageMaker

Diterbitkan Ulang Oleh Plato

Followers: 0

Ini adalah posting blog tamu yang ditulis bersama Hussain Jagirdar dari Games24x7.

Game24x7 adalah salah satu platform multi-game paling berharga di India dan menghibur lebih dari 100 juta pemain di berbagai game keterampilan. Dengan "Science of Gaming" sebagai filosofi inti mereka, mereka telah memungkinkan visi informatika end-to-end seputar dinamika game, platform game, dan pemain dengan mengkonsolidasikan arah penelitian ortogonal AI game, ilmu data game, dan riset pengguna game. AI dan tim ilmu data menyelami sejumlah besar data multidimensi dan menjalankan berbagai kasus penggunaan seperti pengoptimalan perjalanan pemain, deteksi aksi game, hiperpersonalisasi, pelanggan 360, dan lainnya di AWS.

Games24x7 menggunakan kerangka kerja bertenaga AI otomatis, berbasis data, untuk penilaian perilaku setiap pemain melalui interaksi pada platform dan menandai pengguna dengan perilaku anomali. Mereka telah membangun model pembelajaran mendalam ScarceGAN, yang berfokus pada identifikasi sampel yang sangat langka atau langka dari data telemetri longitudinal multidimensi dengan label kecil dan lemah. Karya ini telah dipublikasikan di CIKM'21 dan open source untuk identifikasi kelas langka untuk data telemetri longitudinal. Kebutuhan untuk produksi dan adopsi model sangat penting untuk menciptakan tulang punggung di belakang mengaktifkan permainan game yang bertanggung jawab di platform mereka, di mana pengguna yang ditandai dapat dibawa melalui perjalanan moderasi dan kontrol yang berbeda.

Dalam postingan ini, kami membagikan bagaimana Games24x7 meningkatkan pipeline pelatihan mereka untuk penggunaan platform game yang bertanggung jawab Amazon SageMaker.

Tantangan pelanggan

Tim DS/AI di Games24x7 menggunakan berbagai layanan yang disediakan oleh AWS, termasuk notebook SageMaker, Fungsi Langkah AWS, AWS Lambda, dan Amazon ESDM, untuk membangun saluran pipa untuk berbagai kasus penggunaan. Untuk menangani penyimpangan dalam distribusi data, dan karena itu untuk melatih kembali model ScarceGAN mereka, mereka menemukan bahwa sistem yang ada memerlukan solusi MLOps yang lebih baik.

Dalam pipeline sebelumnya melalui Step Functions, satu basis kode monolit menjalankan prapemrosesan, pelatihan ulang, dan evaluasi data. Ini menjadi hambatan dalam memecahkan masalah, menambah, atau menghapus langkah, atau bahkan membuat beberapa perubahan kecil di infrastruktur secara keseluruhan. Fungsi langkah ini menginisialisasi sekelompok instans untuk mengekstraksi dan memproses data dari S3 dan langkah selanjutnya dari pra-pemrosesan, pelatihan, evaluasi akan berjalan pada satu instans EC2 besar. Dalam skenario di mana pipeline gagal pada langkah mana pun, seluruh alur kerja perlu dimulai kembali dari awal, yang mengakibatkan proses berulang dan peningkatan biaya. Semua metrik pelatihan dan evaluasi diperiksa secara manual dari Amazon Simple Storage Service (Amazon S3). Tidak ada mekanisme untuk meneruskan dan menyimpan metadata dari beberapa percobaan yang dilakukan pada model. Karena pemantauan model terdesentralisasi, penyelidikan menyeluruh dan pemilihan model terbaik membutuhkan waktu berjam-jam dari tim ilmu data. Akumulasi dari semua upaya ini telah menghasilkan produktivitas tim yang lebih rendah dan biaya overhead yang meningkat. Selain itu, dengan tim yang berkembang pesat, sangat menantang untuk membagikan pengetahuan ini ke seluruh tim.

Karena konsep MLOps sangat luas dan menerapkan semua langkah akan membutuhkan waktu, kami memutuskan bahwa pada tahap pertama kami akan membahas masalah inti berikut:

Lingkungan yang aman, terkontrol, dan menggunakan template untuk melatih kembali model deep learning internal kami menggunakan praktik terbaik industri
Lingkungan pelatihan berparameter untuk mengirim kumpulan parameter yang berbeda untuk setiap tugas pelatihan ulang dan mengaudit proses terakhir
Kemampuan untuk melacak metrik pelatihan dan metrik evaluasi secara visual, serta memiliki metadata untuk melacak dan membandingkan eksperimen
Kemampuan untuk menskalakan setiap langkah secara individual dan menggunakan kembali langkah sebelumnya jika terjadi kegagalan langkah
Satu lingkungan khusus untuk mendaftarkan model, menyimpan fitur, dan memanggil pipeline inferensi
Kumpulan alat modern yang dapat meminimalkan persyaratan komputasi, menurunkan biaya, dan mendorong pengembangan dan pengoperasian ML yang berkelanjutan dengan menggabungkan fleksibilitas penggunaan instans yang berbeda untuk langkah yang berbeda
Membuat template tolok ukur pipeline MLOps canggih yang dapat digunakan di berbagai tim ilmu data

Games24x7 mulai mengevaluasi solusi lain, termasuk Pipeline Amazon SageMaker Studio. Solusi yang sudah ada melalui Step Functions memiliki keterbatasan. Pipeline studio memiliki fleksibilitas untuk menambah atau menghapus langkah kapan saja. Selain itu, keseluruhan arsitektur dan ketergantungan datanya di antara setiap langkah dapat divisualisasikan melalui DAG. Evaluasi dan penyempurnaan langkah-langkah pelatihan ulang menjadi cukup efisien setelah kami mengadopsi berbagai fungsi Amazon SageMaker seperti Amazon SageMaker Studio, Pipelines, Processing, Training, model registry, serta eksperimen dan uji coba. Tim Arsitektur Solusi AWS menunjukkan penyelaman mendalam yang luar biasa dan sangat berperan dalam desain dan implementasi solusi ini.

Ikhtisar solusi

Diagram berikut menggambarkan arsitektur solusi.

arsitektur

Penyelesaiannya menggunakan a Studio SageMaker lingkungan untuk menjalankan eksperimen pelatihan ulang. Kode untuk menjalankan skrip pipeline tersedia di notebook Studio, dan kita dapat mengubah hyperparameter dan input/output saat menjalankan pipeline. Ini sangat berbeda dari metode kami sebelumnya di mana kami memiliki semua parameter yang dikodekan dalam skrip dan semua proses terkait erat. Ini membutuhkan modularisasi kode monolitik ke dalam langkah-langkah yang berbeda.

Diagram berikut mengilustrasikan proses monolitik asli kami.

metode warisan

Modularisasi

Untuk menskalakan, melacak, dan menjalankan setiap langkah secara individual, kode monolitik perlu dimodulasi. Ketergantungan parameter, data, dan kode di antara setiap langkah telah dihapus, dan modul bersama untuk komponen bersama di seluruh langkah telah dibuat. Ilustrasi modularisasi ditunjukkan di bawah ini: -

pembuat sage mono-modular

Untuk setiap modul, pengujian dilakukan secara lokal menggunakan SDK SageMaker Modus skrip untuk pelatihan, pengolahan dan evaluasi yang diperlukan perubahan kecil dalam kode untuk dijalankan dengan SageMaker. Itu pengujian mode lokal untuk deep learning script bisa dilakukan baik pada notebook SageMaker jika sudah digunakan atau dengan menggunakan Mode Lokal menggunakan SageMaker Pipelines dalam hal langsung dimulai dengan Pipa. Ini membantu memvalidasi apakah skrip khusus kami akan berjalan pada instans SageMaker.

Setiap modul kemudian diuji secara terpisah menggunakan SageMaker Training/processing SDK's using Modus skrip dan menjalankannya secara berurutan menggunakan instans SageMaker untuk setiap langkah seperti langkah pelatihan di bawah ini:

estimator = TensorFlow( entry_point="inference.py", source_dir="scripts_train/training/", instance_type="ml.c5.2xlarge", # Running on SageMaker ML instances instance_count=1, hyperparameters=hyperparameters, role=sagemaker.get_execution_role(), # Passes to the container the AWS role that you are using on this notebook framework_version="2.11", py_version="py39",
) estimator.fit(inputs)
2022-09-28 11:10:34 Starting - Starting the training job...

Amazon S3 digunakan untuk mendapatkan data sumber untuk diproses dan kemudian menyimpan data perantara, bingkai data, dan hasil NumPy kembali ke Amazon S3 untuk langkah selanjutnya. Setelah pengujian integrasi antara modul individu untuk pra-pemrosesan, pelatihan, evaluasi selesai, itu SageMaker Pipeline SDK yang terintegrasi dengan SageMaker Python SDK yang telah kita gunakan pada langkah-langkah di atas, memungkinkan kita untuk merangkai semua modul ini secara terprogram dengan meneruskan parameter input, data, metadata, dan output dari setiap langkah sebagai input ke langkah berikutnya.

Kita dapat menggunakan kembali kode Sagemaker Python SDK sebelumnya untuk menjalankan modul satu per satu ke dalam proses berbasis Sagemaker Pipeline SDK. Hubungan antara setiap langkah pipa ditentukan oleh ketergantungan data antar langkah.

Langkah terakhir dari pipa adalah sebagai berikut:

Preprocessing data
Pelatihan ulang
Evaluasi
Registrasi model

pipa-dag

Di bagian berikut, kami membahas setiap langkah secara lebih mendetail saat dijalankan dengan SDK SageMaker Pipeline.

Preprocessing data

Langkah ini mengubah data input mentah dan praproses dan membaginya menjadi rangkaian pelatihan, validasi, dan pengujian. Untuk langkah pemrosesan ini, kami membuat contoh tugas pemrosesan SageMaker Prosesor Framework TensorFlow, yang mengambil skrip kami, menyalin data dari Amazon S3, lalu menarik image Docker yang disediakan dan dikelola oleh SageMaker. Kontainer Docker ini memungkinkan kami meneruskan dependensi pustaka kami di file requirements.txt sambil menyertakan semua pustaka TensorFlow, dan meneruskan jalur untuk source_dir untuk skrip. Data pelatihan dan validasi masuk ke langkah pelatihan, dan data uji diteruskan ke langkah evaluasi. Bagian terbaik dari penggunaan penampung ini adalah memungkinkan kami untuk meneruskan berbagai masukan dan keluaran sebagai lokasi S3 yang berbeda, yang kemudian dapat diteruskan sebagai ketergantungan langkah ke langkah berikutnya dalam alur SageMaker.

#Initialize the TensorFlowProcessor
tp = TensorFlowProcessor( framework_version='2.11', role=get_execution_role(), instance_type='ml.m5.xlarge', instance_count=1, base_job_name='frameworkprocessor-TF', py_version='py39', sagemaker_session=pipeline_session, )
from sagemaker.processing import ProcessingInput, ProcessingOutput
from sagemaker.workflow.steps import ProcessingStep
processor_args = tp.run( code='new_data_collection_kfold.py', source_dir='scripts_processing', inputs=[ ProcessingInput(input_name='data_unlabeled',source=data_unlabeled, destination="/opt/ml/processing/data_unlabeled"), ProcessingInput(input_name='data_risky',source=data_risky, destination= "/opt/ml/processing/data_risky"), ProcessingInput(input_name='data_dormant',source=data_dormant, destination= "/opt/ml/processing/data_dormant"), ProcessingInput(input_name='data_normal',source=data_normal, destination= "/opt/ml/processing/data_normal"), ProcessingInput(input_name='data_heavy',source=data_heavy, destination= "/opt/ml/processing/data_heavy") ], outputs=[ ProcessingOutput(output_name="train_output_data", source="/opt/ml/processing/train/data", destination=f's3://{BUCKET}/{op_train_path}/data'), ProcessingOutput(output_name="train_output_label", source="/opt/ml/processing/train/label", destination=f's3://{BUCKET}/{op_train_path}/label'), ProcessingOutput(output_name="train_kfold_output_data", source="/opt/ml/processing/train/kfold/data", destination=f's3://{BUCKET}/{op_train_path}/kfold/data'), ProcessingOutput(output_name="train_kfold_output_label", source="/opt/ml/processing/train/kfold/label", destination=f's3://{BUCKET}/{op_train_path}/kfold/label'), ProcessingOutput(output_name="val_output_data", source="/opt/ml/processing/val/data", destination=f's3://{BUCKET}/{op_val_path}/data'), ProcessingOutput(output_name="val_output_label", source="/opt/ml/processing/val/label", destination=f's3://{BUCKET}/{op_val_path}/label'), ProcessingOutput(output_name="val_output_kfold_data", source="/opt/ml/processing/val/kfold/data", destination=f's3://{BUCKET}/{op_val_path}/kfold/data'), ProcessingOutput(output_name="val_output_kfold_label", source="/opt/ml/processing/val/kfold/label", destination=f's3://{BUCKET}/{op_val_path}/kfold/label'), ProcessingOutput(output_name="train_unlabeled_kfold_data", source="/opt/ml/processing/train/unlabeled/kfold/", destination=f's3://{BUCKET}/{op_train_path}/unlabeled/kfold/'), ProcessingOutput(output_name="test_output", source="/opt/ml/processing/test", destination=f's3://{BUCKET}/{op_test_path}') ], arguments=["--scaler_path", op_scaler_path, "--bucket", BUCKET],
)

Pelatihan ulang

Kami membungkus modul pelatihan melalui Pipa SageMaker TrainingStep API dan menggunakan image container deep learning yang sudah tersedia melalui estimator TensorFlow Framework (juga dikenal sebagai mode Script) untuk Pelatihan SageMaker. Mode skrip memungkinkan kami untuk memiliki sedikit perubahan pada kode pelatihan kami, dan kontainer Docker pra-bangun SageMaker menangani Python, versi Framework, dan seterusnya. ProcessingOutputs dari Data_Preprocessing langkah diteruskan sebagai TrainingInput dari langkah ini.

from sagemaker.inputs import TrainingInput inputs={ "train_output_data": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs["train_output_data"].S3Output.S3Uri, content_type="text/csv", ), "train_output_label": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs["train_output_label"].S3Output.S3Uri, content_type="text/csv", )

Semua hyperparameter melewati estimator melalui file JSON. Untuk setiap zaman dalam pelatihan kami, kami telah mengirimkan metrik pelatihan kami melalui stdOut dalam skrip. Karena kami ingin melacak metrik tugas pelatihan yang sedang berlangsung dan membandingkannya dengan tugas pelatihan sebelumnya, kami hanya perlu mengurai StdOut ini dengan menentukan definisi metrik melalui regex untuk mengambil metrik dari StdOut untuk setiap zaman.

tensorflow_version = "2.11"
training_py_version = "py39"
training_instance_count = 1
training_instance_type = "ml.c5.2xlarge"
tf2_estimator = TensorFlow(
source_dir='scripts_train/training/',
entry_point='train.py',
instance_type=training_instance_type,
instance_count=training_instance_count,
framework_version=tensorflow_version,
hyperparameters=hyperparameters,
image_uri = "763104351884.dkr.ecr.ap-south-1.amazonaws.com/tensorflow-training:2.11.0-cpu-py39-ubuntu20.04-sagemaker",
role=role,
base_job_name="Training-Marco-model",
py_version=training_py_version,
metric_definitions=[ {'Name': 'iteration', 'Regex': 'Iteration=(.*?);'},
{'Name': 'Discriminator_Supervised_Loss=', 'Regex': 'Discriminator_Supervised_Loss=(.*?);'},
{'Name': 'Discriminator_UnSupervised_Loss', 'Regex': 'Discriminator_UnSupervised_Loss=(.*?);'},
{'Name': 'Generator_Loss', 'Regex': 'Generator_Loss=(.*?);'},
{'Name': 'Accuracy_Supervised', 'Regex': 'Accuracy_Supervised=(.*?);'} ]
)

Sangat menarik untuk memahami bahwa SageMaker Pipelines secara otomatis terintegrasi dengan API Eksperimen SageMaker, yang secara default membuat komponen eksperimen, uji coba, dan uji coba untuk setiap proses. Hal ini memungkinkan kami untuk membandingkan metrik pelatihan seperti akurasi dan presisi di berbagai proses seperti yang ditunjukkan di bawah ini.

percobaan-api-tampilan

Untuk setiap tugas pelatihan yang dijalankan, kami membuat empat model berbeda ke Amazon S3 berdasarkan definisi bisnis kustom kami.

Evaluasi

Langkah ini memuat model terlatih dari Amazon S3 dan mengevaluasi metrik khusus kami. ProcessingStep ini mengambil model dan data pengujian sebagai inputnya dan membuang laporan kinerja model di Amazon S3.

Kami menggunakan metrik khusus, jadi untuk mendaftarkan metrik khusus ini ke registri model, kami perlu mengonversi skema metrik evaluasi yang disimpan di Amazon S3 sebagai CSV ke Kualitas Model SageMaker keluaran JSON. Kemudian kita dapat mendaftarkan lokasi metrik JSON evaluasi ini ke registri model.

Tangkapan layar berikut menunjukkan contoh bagaimana kami mengonversi CSV ke format JSON kualitas Model Sagemaker.

csv-metrik

evaluasi-metrik-skema

Registrasi model

Seperti disebutkan sebelumnya, kami membuat beberapa model dalam satu langkah pelatihan, jadi kami harus menggunakan integrasi SageMaker Pipelines Lambda untuk mendaftarkan keempat model ke dalam registri model. Untuk pendaftaran model tunggal kita dapat menggunakan ModelLangkah API untuk membuat model SageMaker di registri. Untuk setiap model, fungsi Lambda mengambil artefak model dan metrik evaluasi dari Amazon S3 dan membuat paket model ke ARN tertentu, sehingga keempat model dapat didaftarkan ke dalam satu registri model. API SageMaker Python juga memungkinkan kami mengirim metadata khusus yang ingin kami berikan untuk memilih model terbaik. Ini terbukti menjadi tonggak utama produktivitas karena semua model sekarang dapat dibandingkan dan diaudit dari satu jendela. Kami menyediakan metadata untuk membedakan model satu sama lain secara unik. Ini juga membantu dalam menyetujui model tunggal dengan bantuan tinjauan sejawat dan tinjauan manajemen berdasarkan metrik model.

def register_model_version(model_url, model_package_group_name, model_metrics_path, key, run_id): modelpackage_inference_specification = { "InferenceSpecification": { "Containers": [ { "Image": '763104351884.dkr.ecr.ap-south-1.amazonaws.com/tensorflow-inference:2.11.0-cpu-py39-ubuntu20.04-sagemaker', "ModelDataUrl": model_url } ], "SupportedContentTypes": [ "text/csv" ], "SupportedResponseMIMETypes": [ "text/csv" ], } } ModelMetrics={ 'ModelQuality': { 'Statistics': { 'ContentType': 'application/json', 'S3Uri': model_metrics_path }, } } create_model_package_input_dict = { "ModelPackageGroupName" : model_package_group_name, "ModelPackageDescription" : key+" run_id:"+run_id, # additional metadata example "ModelApprovalStatus" : "PendingManualApproval", "ModelMetrics" : ModelMetrics } create_model_package_input_dict.update(modelpackage_inference_specification) create_model_package_response = sm_client.create_model_package(**create_model_package_input_dict) model_package_arn = create_model_package_response["ModelPackageArn"] return model_package_arn

Blok kode di atas menunjukkan contoh bagaimana kami menambahkan metadata melalui input paket model ke registri model bersama dengan metrik model.

Tangkapan layar di bawah ini menunjukkan betapa mudahnya kami membandingkan metrik dari versi model yang berbeda setelah didaftarkan.

model-registry-perbandingan

Doa Saluran Pipa

Pipa dapat dipanggil melalui Jembatan Acara , Sagemaker Studio atau SDK diri. Doa menjalankan pekerjaan berdasarkan ketergantungan data antar langkah.

from sagemaker.workflow.pipeline import Pipeline pipeline = Pipeline( name=pipeline_name, steps=[Preprocess-Kfold,Training-Marco,Evaluate-Marco,ScarceGAN-Model-register]
) definition = json.loads(pipeline.definition())
pipeline.upsert(role_arn=role)
execution = pipeline.start()
execution.wait()

Kesimpulan

Dalam postingan ini, kami mendemonstrasikan bagaimana Games24x7 mengubah aset MLOps mereka melalui pipeline SageMaker. Kemampuan untuk melacak metrik pelatihan dan metrik evaluasi secara visual, dengan lingkungan berparameter, menskalakan langkah-langkah secara individual dengan platform pemrosesan yang tepat dan registri model pusat terbukti menjadi tonggak utama dalam standarisasi dan memajukan alur kerja yang dapat diaudit, dapat digunakan kembali, efisien, dan dapat dijelaskan . Proyek ini adalah cetak biru di berbagai tim ilmu data dan telah meningkatkan produktivitas keseluruhan dengan memungkinkan anggota untuk mengoperasikan, mengelola, dan berkolaborasi dengan praktik terbaik.

Jika Anda memiliki kasus penggunaan serupa dan ingin memulai, kami sarankan untuk menggunakan SageMaker Modus skrip dan Contoh ujung ke ujung SageMaker menggunakan Sagemaker Studio. Contoh-contoh ini memiliki detail teknis yang telah dibahas di blog ini.

Strategi data modern memberi Anda rencana komprehensif untuk mengelola, mengakses, menganalisis, dan menindaklanjuti data. AWS menyediakan rangkaian layanan terlengkap untuk seluruh perjalanan data ujung ke ujung untuk semua beban kerja, semua jenis data, dan semua hasil bisnis yang diinginkan. Pada gilirannya, ini menjadikan AWS tempat terbaik untuk membuka nilai dari data Anda dan mengubahnya menjadi wawasan.

Tentang Penulis

Husain Jagirdar adalah Ilmuwan Senior – Riset Terapan di Games24x7. Dia saat ini terlibat dalam upaya penelitian di bidang AI yang dapat dijelaskan dan pembelajaran mendalam. Pekerjaannya baru-baru ini melibatkan pemodelan generatif yang mendalam, pemodelan deret waktu, dan subarea terkait pembelajaran mesin dan AI. Dia juga sangat menyukai MLOps dan menstandardisasi proyek yang menuntut batasan seperti skalabilitas, keandalan, dan sensitivitas.

Sumir Kumar adalah Arsitek Solusi di AWS dan memiliki pengalaman lebih dari 13 tahun di industri teknologi. Di AWS, dia bekerja sama dengan pelanggan utama AWS untuk merancang dan mengimplementasikan solusi berbasis cloud yang memecahkan masalah bisnis yang kompleks. Dia sangat menyukai analitik data dan pembelajaran mesin dan memiliki rekam jejak yang terbukti dalam membantu organisasi membuka potensi penuh data mereka menggunakan AWS Cloud.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
Mencetak Masa Depan bersama Adryenn Ashley. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/how-games24x7-transformed-their-retraining-mlops-pipelines-with-amazon-sagemaker/

Stempel Waktu: 12 April, 2023

Stempel Waktu: Juli 31, 2023

Diterbitkan Ulang Oleh Plato

Pelatihan tambahan dengan Amazon SageMaker JumpStart

Bangun dan latih model ML menggunakan arsitektur jala data di AWS: Bagian 1

Tingkatkan Amazon Connect dan Lex dengan kemampuan AI generatif | Layanan Web Amazon

Dapatkan wawasan yang lebih baik dari ulasan menggunakan Amazon Comprehend

Tambahkan AI percakapan ke pusat kontak mana pun dengan Amazon Lex dan Amazon Chime SDK

Terapkan model Amazon SageMaker Autopilot ke titik akhir inferensi tanpa server

Pola desain untuk inferensi serial di Amazon SageMaker

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun