Amazon SageMaker کے ساتھ Talent.com پر ETL ڈیٹا پروسیسنگ کو ہموار کرنا ایمیزون ویب سروسز

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

یہ پوسٹ اناتولی خومینکو، مشین لرننگ انجینئر، اور Talent.com کے چیف ٹیکنالوجی آفیسر عبدنور بیزوہ کے مشترکہ مصنف ہیں۔

2011 میں قائم کیا، ٹیلنٹ ڈاٹ کام۔ اپنے کلائنٹس اور عوامی ملازمت کی فہرستوں سے ادا شدہ ملازمت کی فہرستوں کو جمع کرتا ہے، اور ایک متحد، آسانی سے تلاش کرنے کے قابل پلیٹ فارم بنایا ہے۔ 30 سے زیادہ ممالک میں 75 ملین سے زیادہ ملازمتوں کی فہرستوں کا احاطہ کرتے ہوئے اور مختلف زبانوں، صنعتوں اور تقسیم کے چینلز پر محیط، Talent.com ملازمت کے متلاشیوں کی متنوع ضروریات کو پورا کرتا ہے، جو لاکھوں ملازمت کے متلاشیوں کو مؤثر طریقے سے ملازمت کے مواقع سے جوڑتا ہے۔

Talent.com کا مشن عالمی افرادی قوت کے رابطوں کو آسان بنانا ہے۔ اس مقصد کو حاصل کرنے کے لیے، Talent.com ویب پر مختلف ذرائع سے ملازمت کی فہرستوں کو جمع کرتا ہے، جو ملازمت کے متلاشیوں کو ان کی مہارتوں اور تجربات کے مطابق 30 ملین سے زیادہ ملازمت کے مواقع کے وسیع تالاب تک رسائی فراہم کرتا ہے۔ اس مشن کے مطابق، Talent.com نے AWS کے ساتھ مل کر کام کی سفارش کرنے والا ایک جدید ترین انجن تیار کیا جس کا مقصد گہری تعلیم پر مبنی ہے، جس کا مقصد صارفین کو اپنے کیریئر کو آگے بڑھانے میں مدد فراہم کرنا ہے۔

اس ملازمت کی سفارش کے انجن کے موثر آپریشن کو یقینی بنانے کے لیے، Talent.com کی مجموعی ملازمت کی فہرستوں سے خصوصیات کو نکالنے اور بہتر بنانے کے لیے ذمہ دار ایک بڑے پیمانے پر ڈیٹا پروسیسنگ پائپ لائن کو نافذ کرنا بہت ضروری ہے۔ یہ پائپ لائن 5 گھنٹے سے بھی کم وقت میں 1 ملین یومیہ ریکارڈ پر کارروائی کرنے کے قابل ہے، اور متوازی طور پر متعدد دنوں کے ریکارڈ پر کارروائی کرنے کی اجازت دیتی ہے۔ اس کے علاوہ، یہ حل پیداوار میں فوری تعیناتی کی اجازت دیتا ہے۔ اس پائپ لائن کے لیے ڈیٹا کا بنیادی ذریعہ JSON لائنز فارمیٹ ہے، جس میں ذخیرہ کیا گیا ہے۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) اور تاریخ کے لحاظ سے تقسیم۔ ہر روز، اس کے نتیجے میں دسیوں ہزار JSON لائنز فائلوں کی تخلیق ہوتی ہے، جس میں روزانہ بڑھتی ہوئی اپ ڈیٹس ہوتی ہیں۔

اس ڈیٹا پروسیسنگ پائپ لائن کا بنیادی مقصد Talent.com پر ملازمت کی سفارش کے انجن کی تربیت اور تعیناتی کے لیے ضروری خصوصیات کی تخلیق میں سہولت فراہم کرنا ہے۔ یہ بات قابل توجہ ہے کہ اس پائپ لائن کو اضافی اپ ڈیٹس کو سپورٹ کرنا چاہیے اور ملازمت کی سفارش کے نظام کے لیے ضروری تربیت اور تعیناتی ماڈیولز کے لیے ضروری پیچیدہ فیچر نکالنے کی ضروریات کو پورا کرنا چاہیے۔ ہماری پائپ لائن کا تعلق عام ETL (ایکسٹریکٹ، ٹرانسفارم، اور لوڈ) پراسیس فیملی سے ہے جو متعدد ذرائع سے ڈیٹا کو ایک بڑے، مرکزی ذخیرہ میں یکجا کرتا ہے۔

مزید بصیرت کے لیے کہ کس طرح Talent.com اور AWS نے باہمی تعاون سے جدید قدرتی زبان کی پروسیسنگ اور گہری سیکھنے کے ماڈل کی تربیت کی تکنیکوں کو استعمال کیا ایمیزون سیج میکر ملازمت کی سفارش کا نظام تیار کرنے کے لیے، رجوع کریں۔ متن سے خواب کی نوکری تک: Amazon SageMaker کے ساتھ Talent.com پر NLP پر مبنی ملازمت کے تجویز کنندہ کی تعمیر. اس سسٹم میں فیچر انجینئرنگ، ڈیپ لرننگ ماڈل آرکیٹیکچر ڈیزائن، ہائپر پیرامیٹر آپٹیمائزیشن، اور ماڈل کی تشخیص شامل ہے، جہاں تمام ماڈیولز Python کا استعمال کرتے ہوئے چلائے جاتے ہیں۔

یہ پوسٹ دکھاتی ہے کہ کس طرح ہم نے SageMaker کا استعمال کرتے ہوئے Talent.com پر ملازمت کی سفارش کے انجن کے لیے فیچرز تیار کرنے کے لیے بڑے پیمانے پر ڈیٹا پروسیسنگ پائپ لائن بنانے کے لیے استعمال کیا۔ نتیجہ خیز حل ایک ڈیٹا سائنسدان کو Python لائبریریوں کا استعمال کرتے ہوئے SageMaker نوٹ بک میں فیچر نکالنے کا تصور کرنے کے قابل بناتا ہے، جیسے سککیٹ سیکھیں or پی ٹورچ، اور پھر اسی کوڈ کو تیزی سے ڈیٹا پروسیسنگ پائپ لائن میں ڈیپلائی کرنے کے لیے جو فیچر نکالنے کے لیے پیمانے پر ہے۔ حل میں PySpark کو استعمال کرنے کے لیے فیچر ایکسٹرکشن کوڈ کو پورٹ کرنے کی ضرورت نہیں ہے، جیسا کہ استعمال کرتے وقت ضرورت ہو۔ AWS گلو ETL حل کے طور پر۔ ہمارے حل کو صرف ایک SageMaker کا استعمال کرتے ہوئے ایک ڈیٹا سائنٹسٹ اینڈ ٹو اینڈ کے ذریعے تیار اور تعینات کیا جا سکتا ہے، اور اس کے لیے دیگر ETL حلوں کے علم کی ضرورت نہیں ہے، جیسے AWS بیچ. یہ مشین لرننگ (ML) پائپ لائن کو پیداوار میں لگانے کے لیے درکار وقت کو نمایاں طور پر کم کر سکتا ہے۔ پائپ لائن Python کے ذریعے چلائی جاتی ہے اور بغیر کسی رکاوٹ کے فیچر نکالنے والے ورک فلو کے ساتھ مربوط ہوتی ہے، اسے ڈیٹا اینالیٹکس ایپلی کیشنز کی ایک وسیع رینج کے لیے موافق بناتی ہے۔

حل جائزہ

سیج میکر پروسیسنگ کا استعمال کرتے ہوئے ای ٹی ایل پائپ لائن کا جائزہ

پائپ لائن تین بنیادی مراحل پر مشتمل ہے:

ایک استعمال کریں۔ ایمیزون سیج میکر پروسیسنگ ایک مخصوص دن سے وابستہ خام JSONL فائلوں کو ہینڈل کرنے کا کام۔ ایک سے زیادہ دنوں کے ڈیٹا پر الگ الگ پروسیسنگ جابز کے ذریعے بیک وقت کارروائی کی جا سکتی ہے۔
ملازمت کرنا AWS گلو کئی دنوں کے ڈیٹا پر کارروائی کے بعد ڈیٹا کرال کرنے کے لیے۔
ایک سے ایس کیو ایل کا استعمال کرتے ہوئے مخصوص تاریخ کی حد کے لیے پروسیس شدہ خصوصیات لوڈ کریں۔ ایمیزون ایتینا ٹیبل، پھر ملازمت کے تجویز کنندہ ماڈل کو تربیت دیں اور تعینات کریں۔

خام JSONL فائلوں پر کارروائی کریں۔

ہم سیج میکر پروسیسنگ جاب کا استعمال کرتے ہوئے ایک مخصوص دن کے لیے خام JSONL فائلوں پر کارروائی کرتے ہیں۔ یہ جاب فیچر نکالنے اور ڈیٹا کو کم کرنے کو لاگو کرتا ہے، اور پروسیس شدہ خصوصیات کو Parquet فائلوں میں محفوظ کرتا ہے جس میں فی فائل 1 ملین ریکارڈ ہوتے ہیں۔ ہم متوازی طور پر ہر خام JSONL فائل کے لیے فیچر نکالنے کے لیے CPU متوازی کا فائدہ اٹھاتے ہیں۔ ہر JSONL فائل کے پروسیسنگ کے نتائج کو ایک عارضی ڈائرکٹری کے اندر ایک علیحدہ پارکیٹ فائل میں محفوظ کیا جاتا ہے۔ JSONL کی تمام فائلوں پر کارروائی کرنے کے بعد، ہم ہزاروں چھوٹی پارکیٹ فائلوں کو کئی فائلوں میں 1 ملین ریکارڈ فی فائل کے ساتھ کمپیکشن کرتے ہیں۔ اس کے بعد کمپیکٹ شدہ پارکیٹ فائلوں کو پروسیسنگ جاب کے آؤٹ پٹ کے طور پر Amazon S3 میں اپ لوڈ کیا جاتا ہے۔ ڈیٹا کمپیکشن پائپ لائن کے اگلے مراحل میں موثر رینگنے اور SQL سوالات کو یقینی بناتا ہے۔

SageMaker SDK کا استعمال کرتے ہوئے، ایک مخصوص دن، مثال کے طور پر 2020-01-01 کے لیے SageMaker پروسیسنگ جاب کو شیڈول کرنے کے لیے نمونہ کوڈ درج ذیل ہے۔ یہ کام ایمیزون S3 سے خام JSONL فائلوں کو پڑھتا ہے (مثال کے طور پر سے s3://bucket/raw-data/2020/01/01) اور کمپیکٹ شدہ Parquet فائلوں کو Amazon S3 میں محفوظ کرتا ہے (مثال کے طور پر s3://bucket/processed/table-name/day_partition=2020-01-01/).

### install dependencies %pip install sagemaker pyarrow s3fs awswrangler import sagemaker
import boto3 from sagemaker.processing import FrameworkProcessor
from sagemaker.sklearn.estimator import SKLearn
from sagemaker import get_execution_role
from sagemaker.processing import ProcessingInput, ProcessingOutput region = boto3.session.Session().region_name
role = get_execution_role()
bucket = sagemaker.Session().default_bucket() ### we use instance with 16 CPUs and 128 GiB memory
### note that the script will NOT load the entire data into memory during compaction
### depending on the size of individual jsonl files, larger instance may be needed
instance = "ml.r5.4xlarge"
n_jobs = 8 ### we use 8 process workers
date = "2020-01-01" ### process data for one day est_cls = SKLearn
framework_version_str = "0.20.0" ### schedule processing job
script_processor = FrameworkProcessor( role=role, instance_count=1, instance_type=instance, estimator_cls=est_cls, framework_version=framework_version_str, volume_size_in_gb=500,
) script_processor.run( code="processing_script.py", ### name of the main processing script source_dir="../src/etl/", ### location of source code directory ### our processing script loads raw jsonl files directly from S3 ### this avoids long start-up times of the processing jobs, ### since raw data does not need to be copied into instance inputs=[], ### processing job input is empty outputs=[ ProcessingOutput(destination="s3://bucket/processed/table-name/", source="/opt/ml/processing/output"), ], arguments=[ ### directory with job's output "--output", "/opt/ml/processing/output", ### temporary directory inside instance "--tmp_output", "/opt/ml/tmp_output", "--n_jobs", str(n_jobs), ### number of process workers "--date", date, ### date to process ### location with raw jsonl files in S3 "--path", "s3://bucket/raw-data/", ], wait=False
)

مرکزی اسکرپٹ کے لیے درج ذیل کوڈ کا خاکہ (processing_script.py) جو SageMaker پروسیسنگ کا کام چلاتا ہے وہ مندرجہ ذیل ہے:

import concurrent
import pyarrow.dataset as ds
import os
import s3fs
from pathlib import Path ### function to process raw jsonl file and save extracted features into parquet file from process_data import process_jsonl ### parse command line arguments
args = parse_args() ### we use s3fs to crawl S3 input path for raw jsonl files
fs = s3fs.S3FileSystem()
### we assume raw jsonl files are stored in S3 directories partitioned by date
### for example: s3://bucket/raw-data/2020/01/01/
jsons = fs.find(os.path.join(args.path, *args.date.split('-'))) ### temporary directory location inside the Processing job instance
tmp_out = os.path.join(args.tmp_output, f"day_partition={args.date}") ### directory location with job's output
out_dir = os.path.join(args.output, f"day_partition={args.date}") ### process individual jsonl files in parallel using n_jobs process workers
futures=[]
with concurrent.futures.ProcessPoolExecutor(max_workers=args.n_jobs) as executor: for file in jsons: inp_file = Path(file) out_file = os.path.join(tmp_out, inp_file.stem + ".snappy.parquet") ### process_jsonl function reads raw jsonl file from S3 location (inp_file) ### and saves result into parquet file (out_file) inside temporary directory futures.append(executor.submit(process_jsonl, file, out_file)) ### wait until all jsonl files are processed for future in concurrent.futures.as_completed(futures): result = future.result() ### compact parquet files
dataset = ds.dataset(tmp_out) if len(dataset.schema) > 0: ### save compacted parquet files with 1MM records per file ds.write_dataset(dataset, out_dir, format="parquet", max_rows_per_file=1024 * 1024)

اسکیل ایبلٹی ہماری پائپ لائن کی ایک اہم خصوصیت ہے۔ سب سے پہلے، متعدد سیج میکر پروسیسنگ جابز کو بیک وقت کئی دنوں تک ڈیٹا پر کارروائی کرنے کے لیے استعمال کیا جا سکتا ہے۔ دوسرا، ہم ڈیٹا کے ہر مخصوص دن پر کارروائی کرتے ہوئے، پورے پروسیس شدہ یا خام ڈیٹا کو ایک ساتھ میموری میں لوڈ کرنے سے گریز کرتے ہیں۔ یہ مثال کی قسموں کا استعمال کرتے ہوئے ڈیٹا کی پروسیسنگ کو قابل بناتا ہے جو بنیادی میموری میں پورے دن کے ڈیٹا کو ایڈجسٹ نہیں کرسکتے ہیں۔ صرف اس بات کی ضرورت ہے کہ مثال کی قسم N raw JSONL یا پروسیس شدہ Parquet فائلوں کو بیک وقت میموری میں لوڈ کرنے کے قابل ہو، جس میں N کے استعمال میں عمل کرنے والے کارکنوں کی تعداد ہو۔

AWS Glue کا استعمال کرتے ہوئے پروسیس شدہ ڈیٹا کو کرال کریں۔

متعدد دنوں کے تمام خام ڈیٹا پر کارروائی ہونے کے بعد، ہم AWS Glue کرالر کا استعمال کرکے پورے ڈیٹاسیٹ سے Athena ٹیبل بنا سکتے ہیں۔ ہم استعمال کرتے ہیں AWS SDK برائے پانڈا (awswrangler) مندرجہ ذیل ٹکڑوں کا استعمال کرتے ہوئے ٹیبل بنانے کے لیے لائبریری:

import awswrangler as wr ### crawl processed data in S3
res = wr.s3.store_parquet_metadata( path='s3://bucket/processed/table-name/', database="database_name", table="table_name", dataset=True, mode="overwrite", sampling=1.0, path_suffix='.parquet',
) ### print table schema
print(res[0])

تربیت کے لیے پروسیس شدہ خصوصیات کو لوڈ کریں۔

ایک مخصوص تاریخ کی حد کے لیے پروسیس شدہ فیچرز کو اب ایس کیو ایل کا استعمال کرتے ہوئے ایتھینا ٹیبل سے لوڈ کیا جا سکتا ہے، اور پھر ان فیچرز کو جاب تجویز کرنے والے ماڈل کی تربیت کے لیے استعمال کیا جا سکتا ہے۔ مثال کے طور پر، درج ذیل ٹکڑا ڈیٹا فریم میں پروسیس شدہ خصوصیات کے ایک مہینے کو لوڈ کرتا ہے awswrangler لائبریری:

import awswrangler as wr query = """ SELECT * FROM table_name WHERE day_partition BETWEN '2020-01-01' AND '2020-02-01' """ ### load 1 month of data from database_name.table_name into a DataFrame
df = wr.athena.read_sql_query(query, database='database_name')

مزید برآں، تربیت کے لیے پروسیسرڈ فیچرز کو لوڈ کرنے کے لیے SQL کا استعمال مختلف دیگر استعمال کے معاملات کو ایڈجسٹ کرنے کے لیے بڑھایا جا سکتا ہے۔ مثال کے طور پر، ہم دو الگ الگ ایتھینا ٹیبلز کو برقرار رکھنے کے لیے ایک جیسی پائپ لائن لگا سکتے ہیں: ایک صارف کے نقوش کو ذخیرہ کرنے کے لیے اور دوسرا ان نقوش پر صارف کے کلکس کو ذخیرہ کرنے کے لیے۔ ایس کیو ایل جوائن سٹیٹمنٹس کا استعمال کرتے ہوئے، ہم ان تاثرات کو بازیافت کر سکتے ہیں جن پر صارفین نے یا تو کلک کیا یا نہیں کیا اور پھر ان نقوش کو ماڈل ٹریننگ جاب میں منتقل کر سکتے ہیں۔

حل کے فوائد۔

مجوزہ حل کو لاگو کرنے سے ہمارے موجودہ ورک فلو کو کئی فوائد حاصل ہوتے ہیں، بشمول:

آسان نفاذ - حل مشہور ML لائبریریوں کا استعمال کرتے ہوئے Python میں فیچر نکالنے کو قابل بناتا ہے۔ اور، اس کے لیے کوڈ کو PySpark میں پورٹ کرنے کی ضرورت نہیں ہے۔ یہ خصوصیت نکالنے کو ہموار کرتی ہے جیسا کہ ایک نوٹ بک میں ڈیٹا سائنٹسٹ کے تیار کردہ وہی کوڈ اس پائپ لائن کے ذریعے عمل میں لایا جائے گا۔
پیداوار کے لیے فوری راستہ - اس حل کو ڈیٹا سائنٹسٹ کے ذریعہ تیار اور تعینات کیا جا سکتا ہے تاکہ وہ اس ڈیٹا کے خلاف ML تجویز کنندہ ماڈل تیار کر سکیں۔ ایک ہی وقت میں، اسی حل کو ایک ایم ایل انجینئر کے ذریعہ پیداوار میں تعینات کیا جا سکتا ہے جس میں تھوڑی سی ترمیم کی ضرورت ہے۔
دوبارہ پریوست - یہ حل پیمانے پر فیچر نکالنے کے لیے دوبارہ قابل استعمال پیٹرن فراہم کرتا ہے، اور اسے تجویز کنندہ ماڈلز کی تعمیر کے علاوہ دیگر استعمال کے معاملات کے لیے آسانی سے ڈھال لیا جا سکتا ہے۔
کارکردگی - حل اچھی کارکردگی پیش کرتا ہے: ایک دن کی کارروائی ٹیلنٹ ڈاٹ کام۔کے ڈیٹا میں 1 گھنٹے سے بھی کم وقت لگا۔
اضافی تازہ ترین معلومات - حل اضافی اپ ڈیٹس کو بھی سپورٹ کرتا ہے۔ نئے روزانہ ڈیٹا پر سیج میکر پروسیسنگ جاب کے ساتھ کارروائی کی جا سکتی ہے، اور پروسیس شدہ ڈیٹا پر مشتمل S3 مقام کو ایتھینا ٹیبل کو اپ ڈیٹ کرنے کے لیے دوبارہ کرال کیا جا سکتا ہے۔ ہم آج کے ڈیٹا کو روزانہ کئی بار اپ ڈیٹ کرنے کے لیے کرون جاب بھی استعمال کر سکتے ہیں (مثال کے طور پر، ہر 3 گھنٹے بعد)۔

ہم نے اس ETL پائپ لائن کا استعمال Talent.com کو روزانہ 50,000 فائلوں پر کارروائی کرنے میں مدد کرنے کے لیے کیا جس میں 5 ملین ریکارڈز ہیں، اور Talent.com سے 90 دنوں کے خام ڈیٹا سے نکالے گئے فیچرز کا استعمال کرتے ہوئے تربیتی ڈیٹا بنایا گیا ہے۔ ہماری پائپ لائن نے Talent.com کو صرف 450 ہفتوں کے اندر پیداوار میں سفارشی نظام بنانے اور تعینات کرنے میں مدد کی۔ حل نے دیگر AWS سروس کو استعمال کیے بغیر Amazon SageMaker پر ETL سمیت تمام ML عمل انجام دیے۔ ملازمت کی سفارش کے نظام نے پچھلے XGBoost پر مبنی حل کے مقابلے آن لائن A/B ٹیسٹنگ میں کلک ہونے کی شرح میں 900,000 فیصد اضافہ کیا، جس سے Talent.com کے لاکھوں صارفین کو بہتر ملازمتوں سے منسلک کرنے میں مدد ملی۔

نتیجہ

اس پوسٹ میں ETL پائپ لائن کا خاکہ پیش کیا گیا ہے جو ہم نے Talent.com پر تربیت اور ملازمت کے تجویز کنندہ ماڈل کی تعیناتی کے لیے فیچر پروسیسنگ کے لیے تیار کی ہے۔ ہماری پائپ لائن بڑے پیمانے پر موثر ڈیٹا پروسیسنگ اور فیچر نکالنے کے لیے SageMaker پروسیسنگ جابز کا استعمال کرتی ہے۔ فیچر ایکسٹرکشن کوڈ Python میں لاگو کیا گیا ہے جس سے PySpark استعمال کرنے کے لیے کوڈ کو پورٹ کرنے کی ضرورت کے بغیر، پیمانے پر فیچر نکالنے کے لیے مقبول ML لائبریریوں کے استعمال کو قابل بنایا جا سکتا ہے۔

ہم قارئین کی حوصلہ افزائی کرتے ہیں کہ اس بلاگ میں پیش کی گئی پائپ لائن کو ان کے استعمال کے معاملات کے لیے ایک ٹیمپلیٹ کے طور پر استعمال کرنے کے امکان کو تلاش کریں جہاں پیمانے پر فیچر نکالنے کی ضرورت ہو۔ ایک ایم ایل ماڈل بنانے کے لیے ایک ڈیٹا سائنٹسٹ کے ذریعے پائپ لائن کا فائدہ اٹھایا جا سکتا ہے، اور اسی پائپ لائن کو پھر ایک ایم ایل انجینئر پیداوار میں چلانے کے لیے اپنا سکتا ہے۔ یہ ML سلوشن کو آخر سے آخر تک تیار کرنے کے لیے درکار وقت کو نمایاں طور پر کم کر سکتا ہے، جیسا کہ Talent.com کا معاملہ تھا۔ قارئین اس کا حوالہ دے سکتے ہیں۔ سیج میکر پروسیسنگ جابز کو ترتیب دینے اور چلانے کے لیے ٹیوٹوریل. پوسٹ دیکھنے کے لیے ہم قارئین سے بھی رجوع کرتے ہیں۔ متن سے خواب کی نوکری تک: Amazon SageMaker کے ساتھ Talent.com پر NLP پر مبنی ملازمت کے تجویز کنندہ کی تعمیرجہاں ہم ڈیپ لرننگ ماڈل ٹریننگ تکنیک کے استعمال پر تبادلہ خیال کرتے ہیں۔ ایمیزون سیج میکر Talent.com کے ملازمت کی سفارش کا نظام بنانے کے لیے۔

مصنفین کے بارے میں

دمتری بیسپالوف ایمیزون مشین لرننگ سلوشنز لیب میں ایک سینئر اپلائیڈ سائنٹسٹ ہے، جہاں وہ مختلف صنعتوں کے AWS صارفین کو ان کے AI اور کلاؤڈ کو اپنانے میں تیزی لانے میں مدد کرتا ہے۔

یی ژیانگ ایمیزون مشین لرننگ سلوشنز لیب میں ایک اپلائیڈ سائنٹسٹ II ہے، جہاں وہ مختلف صنعتوں کے AWS صارفین کو ان کے AI اور کلاؤڈ کو اپنانے میں تیزی لانے میں مدد کرتی ہے۔

ٹونگ وانگ ایمیزون مشین لرننگ سلوشنز لیب میں ایک سینئر اپلائیڈ سائنٹسٹ ہے، جہاں وہ مختلف صنعتوں کے AWS صارفین کو ان کے AI اور کلاؤڈ کو اپنانے میں تیزی لانے میں مدد کرتا ہے۔

اناتولی خمینکو میں ایک سینئر مشین لرننگ انجینئر ہے۔ ٹیلنٹ ڈاٹ کام۔ قدرتی زبان کی پروسیسنگ کے جذبے کے ساتھ اچھے لوگوں کو اچھی ملازمتوں سے ملانا۔

عبدنور بیزوہ ایک ایگزیکٹو ہے جس کا 25 سال سے زیادہ کا تجربہ ہے اور ٹیکنالوجی کے حل فراہم کرتا ہے جو لاکھوں صارفین تک پہنچتا ہے۔ عبدنور چیف ٹیکنالوجی آفیسر (CTO) کے عہدے پر فائز تھے۔ ٹیلنٹ ڈاٹ کام۔ جب AWS ٹیم نے اس مخصوص حل کو ڈیزائن کیا اور اس پر عملدرآمد کیا۔ ٹیلنٹ ڈاٹ کام۔.

یانجون کیو ایمیزون مشین لرننگ سلوشن لیب میں ایک سینئر اپلائیڈ سائنس مینیجر ہے۔ وہ AWS صارفین کو اپنے AI اور کلاؤڈ کو اپنانے میں تیزی لانے میں مدد کرنے کے لیے مشین لرننگ کو اختراعات اور لاگو کرتی ہے۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/streamlining-etl-data-processing-at-talent-com-with-amazon-sagemaker/

ٹائم اسٹیمپ: دسمبر 14، 2023

ٹائم اسٹیمپ: اپریل 29، 2024

Amazon SageMaker کے ساتھ Talent.com پر ETL ڈیٹا پروسیسنگ کو ہموار کرنا | ایمیزون ویب سروسز

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

حل جائزہ

خام JSONL فائلوں پر کارروائی کریں۔

AWS Glue کا استعمال کرتے ہوئے پروسیس شدہ ڈیٹا کو کرال کریں۔

تربیت کے لیے پروسیس شدہ خصوصیات کو لوڈ کریں۔

حل کے فوائد۔

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

QnABot اور Amazon Lex کا استعمال کرتے ہوئے Genesys Cloud کے لیے AI سے چلنے والا ورچوئل ایجنٹ بنائیں

Amazon SageMaker پر ensemble ML ماڈل چلائیں۔

Amazon AI سروسز کا استعمال کرتے ہوئے خودکار دستاویز سے تقریر کے تبادلوں کے ساتھ اپنے مواد کی رسائی میں اضافہ کریں۔

غیر مقفل کرنے کی کارکردگی: ایمیزون سیج میکر پائپ لائنز میں انتخابی عمل کی طاقت کا استعمال | ایمیزون ویب سروسز

AlexaTM 20B اب Amazon SageMaker JumpStart میں دستیاب ہے۔

حقیقی استعمال کے معاملات کے ذریعے کنارے پر مشین لرننگ کو ختم کرنا

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ