Amazon SageMaker-এর সাথে Talent.com-এ ETL ডেটা প্রসেসিং স্ট্রীমলাইন করা

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

এই পোস্টটির সহ-লেখক আনাতোলি খোমেনকো, মেশিন লার্নিং ইঞ্জিনিয়ার, এবং Talent.com-এর চিফ টেকনোলজি অফিসার আবদেনৌর বেজোহ।

2011 সালে প্রতিষ্ঠিত, ট্যালেন্ট ডট কম তাদের ক্লায়েন্ট এবং পাবলিক কাজের তালিকা থেকে প্রদত্ত কাজের তালিকাগুলিকে একত্রিত করে এবং একটি একীভূত, সহজে অনুসন্ধানযোগ্য প্ল্যাটফর্ম তৈরি করেছে। 30টিরও বেশি দেশে 75 মিলিয়নেরও বেশি চাকরির তালিকা কভার করে এবং বিভিন্ন ভাষা, শিল্প এবং বিতরণ চ্যানেলে বিস্তৃত, Talent.com চাকরিপ্রার্থীদের বিভিন্ন চাহিদা পূরণ করে, কার্যকরভাবে লক্ষ লক্ষ চাকরিপ্রার্থীদের কাজের সুযোগের সাথে সংযুক্ত করে।

Talent.com এর লক্ষ্য হল বিশ্বব্যাপী কর্মশক্তি সংযোগ সহজতর করা। এটি অর্জনের জন্য, Talent.com ওয়েবে বিভিন্ন উত্স থেকে চাকরির তালিকাগুলিকে একত্রিত করে, চাকরিপ্রার্থীদের তাদের দক্ষতা এবং অভিজ্ঞতার জন্য তৈরি 30 মিলিয়নেরও বেশি কাজের সুযোগের একটি বিস্তৃত পুলে অ্যাক্সেসের প্রস্তাব দেয়৷ এই মিশনের সাথে সামঞ্জস্য রেখে, Talent.com AWS-এর সাথে সহযোগিতা করেছে গভীর শিক্ষার মাধ্যমে চালিত একটি অত্যাধুনিক কাজের সুপারিশ ইঞ্জিন তৈরি করতে, যার লক্ষ্য ব্যবহারকারীদের তাদের কর্মজীবনকে এগিয়ে নিতে সহায়তা করা।

এই কাজের সুপারিশ ইঞ্জিনের কার্যকরী অপারেশন নিশ্চিত করার জন্য, Talent.com-এর সমষ্টিগত কাজের তালিকা থেকে বৈশিষ্ট্যগুলি নিষ্কাশন এবং পরিমার্জন করার জন্য দায়ী একটি বৃহৎ-স্কেল ডেটা প্রক্রিয়াকরণ পাইপলাইন বাস্তবায়ন করা অত্যন্ত গুরুত্বপূর্ণ। এই পাইপলাইনটি 5 ঘন্টারও কম সময়ে 1 মিলিয়ন দৈনিক রেকর্ড প্রক্রিয়া করতে সক্ষম, এবং সমান্তরালভাবে একাধিক দিনের রেকর্ড প্রক্রিয়া করার অনুমতি দেয়। উপরন্তু, এই সমাধান উত্পাদন একটি দ্রুত স্থাপনার জন্য অনুমতি দেয়. এই পাইপলাইনের ডেটার প্রাথমিক উৎস হল JSON লাইনস ফর্ম্যাট, এতে সংরক্ষিত আছে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) এবং তারিখ অনুসারে বিভাজিত। প্রতিদিন, এর ফলে হাজার হাজার JSON লাইনস ফাইল তৈরি হয়, প্রতিদিন ক্রমবর্ধমান আপডেট হয়।

এই ডাটা প্রসেসিং পাইপলাইনের প্রাথমিক উদ্দেশ্য হল Talent.com-এ চাকরির সুপারিশ ইঞ্জিন প্রশিক্ষণ এবং স্থাপনের জন্য প্রয়োজনীয় বৈশিষ্ট্য তৈরি করা। এটি লক্ষণীয় যে এই পাইপলাইনটি অবশ্যই ক্রমবর্ধমান আপডেটগুলিকে সমর্থন করবে এবং কাজের সুপারিশ সিস্টেমের জন্য প্রয়োজনীয় প্রশিক্ষণ এবং স্থাপনার মডিউলগুলির জন্য প্রয়োজনীয় জটিল বৈশিষ্ট্য নিষ্কাশনের প্রয়োজনীয়তাগুলি পূরণ করবে। আমাদের পাইপলাইনটি সাধারণ ETL (এক্সট্রাক্ট, ট্রান্সফর্ম এবং লোড) প্রসেস ফ্যামিলির অন্তর্গত যা একাধিক উত্স থেকে ডেটা একত্রিত করে একটি বড়, কেন্দ্রীয় ভান্ডারে।

কিভাবে Talent.com এবং AWS যৌথভাবে অত্যাধুনিক প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং গভীর শিক্ষার মডেল প্রশিক্ষণ কৌশলগুলিকে কাজে লাগিয়ে তৈরি করেছে সে সম্পর্কে আরও অন্তর্দৃষ্টির জন্য আমাজন সেজমেকার একটি কাজের সুপারিশ সিস্টেম তৈরি করতে, পড়ুন পাঠ্য থেকে স্বপ্নের চাকরি: Amazon SageMaker-এর সাথে Talent.com-এ NLP-ভিত্তিক কাজের সুপারিশকারী তৈরি করা. সিস্টেমের মধ্যে রয়েছে ফিচার ইঞ্জিনিয়ারিং, ডিপ লার্নিং মডেল আর্কিটেকচার ডিজাইন, হাইপারপ্যারামিটার অপ্টিমাইজেশান এবং মডেল মূল্যায়ন, যেখানে সমস্ত মডিউল পাইথন ব্যবহার করে চালানো হয়।

এই পোস্টটি দেখায় কিভাবে আমরা Talent.com-এ কাজের সুপারিশ ইঞ্জিনের জন্য বৈশিষ্ট্যগুলি প্রস্তুত করার জন্য একটি বৃহৎ-স্কেল ডেটা প্রসেসিং পাইপলাইন তৈরি করতে SageMaker ব্যবহার করেছি। ফলস্বরূপ সমাধানটি একজন ডেটা বিজ্ঞানীকে পাইথন লাইব্রেরি ব্যবহার করে সেজমেকার নোটবুকে বৈশিষ্ট্য নিষ্কাশনের ধারণা করতে সক্ষম করে, যেমন সাইকিট-শিখুন or পাইটর্চ, এবং তারপর স্কেলে বৈশিষ্ট্য নিষ্কাশন সম্পাদন করে ডেটা প্রসেসিং পাইপলাইনে দ্রুত একই কোড স্থাপন করতে। সমাধানটির জন্য PySpark ব্যবহার করার জন্য বৈশিষ্ট্য নিষ্কাশন কোড পোর্ট করার প্রয়োজন নেই, ব্যবহার করার সময় প্রয়োজন অনুসারে এডাব্লুএস আঠালো ETL সমাধান হিসাবে। আমাদের সলিউশন শুধুমাত্র একজন ডেটা সায়েন্টিস্ট এন্ড-টু-এন্ড শুধুমাত্র একটি SageMaker ব্যবহার করে ডেভেলপ ও স্থাপন করতে পারে, এবং অন্যান্য ETL সমাধানের জ্ঞানের প্রয়োজন নেই, যেমন AWS ব্যাচ. এটি উত্পাদনে মেশিন লার্নিং (এমএল) পাইপলাইন স্থাপনের জন্য প্রয়োজনীয় সময়কে উল্লেখযোগ্যভাবে ছোট করতে পারে। পাইপলাইনটি পাইথনের মাধ্যমে চালিত হয় এবং বিরামহীনভাবে বৈশিষ্ট্য নিষ্কাশন কর্মপ্রবাহের সাথে একীভূত হয়, এটিকে ডেটা বিশ্লেষণ অ্যাপ্লিকেশনের বিস্তৃত পরিসরে অভিযোজিত করে রেন্ডার করে।

সমাধান ওভারভিউ

SageMaker প্রসেসিং ব্যবহার করে ETL পাইপলাইনের জন্য ওভারভিউ

পাইপলাইন তিনটি প্রাথমিক পর্যায় নিয়ে গঠিত:

একটি ব্যবহার করুন আমাজন সেজমেকার প্রসেসিং একটি নির্দিষ্ট দিনের সাথে যুক্ত কাঁচা JSONL ফাইলগুলি পরিচালনা করার কাজ। একাধিক দিনের ডেটা একই সাথে পৃথক প্রসেসিং কাজের দ্বারা প্রক্রিয়া করা যেতে পারে।
চাকরী এডাব্লুএস আঠালো একাধিক দিনের ডেটা প্রক্রিয়া করার পরে ডেটা ক্রল করার জন্য।
একটি থেকে SQL ব্যবহার করে একটি নির্দিষ্ট তারিখ সীমার জন্য প্রক্রিয়াকৃত বৈশিষ্ট্যগুলি লোড করুন৷ অ্যামাজন অ্যাথেনা টেবিল, তারপর প্রশিক্ষণ এবং কাজের সুপারিশকারী মডেল স্থাপন.

কাঁচা JSONL ফাইলগুলি প্রক্রিয়া করুন

আমরা একটি সেজমেকার প্রসেসিং কাজ ব্যবহার করে একটি নির্দিষ্ট দিনের জন্য কাঁচা JSONL ফাইলগুলি প্রক্রিয়া করি। কাজটি বৈশিষ্ট্য নিষ্কাশন এবং ডেটা কমপ্যাকশন প্রয়োগ করে এবং প্রতি ফাইলে 1 মিলিয়ন রেকর্ড সহ প্রক্রিয়াকৃত বৈশিষ্ট্যগুলি Parquet ফাইলগুলিতে সংরক্ষণ করে। আমরা সমান্তরালভাবে প্রতিটি কাঁচা JSONL ফাইলের জন্য বৈশিষ্ট্য নিষ্কাশন সম্পাদন করতে CPU সমান্তরালকরণের সুবিধা গ্রহণ করি। প্রতিটি JSONL ফাইলের প্রক্রিয়াকরণের ফলাফল একটি অস্থায়ী ডিরেক্টরির মধ্যে একটি পৃথক Parquet ফাইলে সংরক্ষণ করা হয়। সমস্ত JSONL ফাইল প্রসেস করার পর, আমরা প্রতি ফাইলে 1 মিলিয়ন রেকর্ড সহ হাজার হাজার ছোট Parquet ফাইলকে বিভিন্ন ফাইলে কম্প্যাকশন করি। কম্প্যাক্ট করা Parquet ফাইলগুলি তারপর প্রক্রিয়াকরণ কাজের আউটপুট হিসাবে Amazon S3 এ আপলোড করা হয়। ডেটা কমপ্যাকশন পাইপলাইনের পরবর্তী পর্যায়ে দক্ষ ক্রলিং এবং SQL প্রশ্ন নিশ্চিত করে।

SageMaker SDK ব্যবহার করে একটি নির্দিষ্ট দিনের জন্য, উদাহরণস্বরূপ 2020-01-01-এর জন্য SageMaker প্রসেসিং কাজের সময় নির্ধারণের নমুনা কোডটি নিচে দেওয়া হল। কাজটি Amazon S3 থেকে কাঁচা JSONL ফাইলগুলি পড়ে (উদাহরণস্বরূপ থেকে s3://bucket/raw-data/2020/01/01) এবং কম্প্যাক্ট করা Parquet ফাইলগুলি Amazon S3 এ সংরক্ষণ করে (উদাহরণস্বরূপ s3://bucket/processed/table-name/day_partition=2020-01-01/).

### install dependencies %pip install sagemaker pyarrow s3fs awswrangler import sagemaker
import boto3 from sagemaker.processing import FrameworkProcessor
from sagemaker.sklearn.estimator import SKLearn
from sagemaker import get_execution_role
from sagemaker.processing import ProcessingInput, ProcessingOutput region = boto3.session.Session().region_name
role = get_execution_role()
bucket = sagemaker.Session().default_bucket() ### we use instance with 16 CPUs and 128 GiB memory
### note that the script will NOT load the entire data into memory during compaction
### depending on the size of individual jsonl files, larger instance may be needed
instance = "ml.r5.4xlarge"
n_jobs = 8 ### we use 8 process workers
date = "2020-01-01" ### process data for one day est_cls = SKLearn
framework_version_str = "0.20.0" ### schedule processing job
script_processor = FrameworkProcessor( role=role, instance_count=1, instance_type=instance, estimator_cls=est_cls, framework_version=framework_version_str, volume_size_in_gb=500,
) script_processor.run( code="processing_script.py", ### name of the main processing script source_dir="../src/etl/", ### location of source code directory ### our processing script loads raw jsonl files directly from S3 ### this avoids long start-up times of the processing jobs, ### since raw data does not need to be copied into instance inputs=[], ### processing job input is empty outputs=[ ProcessingOutput(destination="s3://bucket/processed/table-name/", source="/opt/ml/processing/output"), ], arguments=[ ### directory with job's output "--output", "/opt/ml/processing/output", ### temporary directory inside instance "--tmp_output", "/opt/ml/tmp_output", "--n_jobs", str(n_jobs), ### number of process workers "--date", date, ### date to process ### location with raw jsonl files in S3 "--path", "s3://bucket/raw-data/", ], wait=False
)

প্রধান স্ক্রিপ্টের জন্য নিম্নলিখিত কোড রূপরেখা (processing_script.py) যেটি সেজমেকার প্রসেসিং কাজ চালায় তা নিম্নরূপ:

import concurrent
import pyarrow.dataset as ds
import os
import s3fs
from pathlib import Path ### function to process raw jsonl file and save extracted features into parquet file from process_data import process_jsonl ### parse command line arguments
args = parse_args() ### we use s3fs to crawl S3 input path for raw jsonl files
fs = s3fs.S3FileSystem()
### we assume raw jsonl files are stored in S3 directories partitioned by date
### for example: s3://bucket/raw-data/2020/01/01/
jsons = fs.find(os.path.join(args.path, *args.date.split('-'))) ### temporary directory location inside the Processing job instance
tmp_out = os.path.join(args.tmp_output, f"day_partition={args.date}") ### directory location with job's output
out_dir = os.path.join(args.output, f"day_partition={args.date}") ### process individual jsonl files in parallel using n_jobs process workers
futures=[]
with concurrent.futures.ProcessPoolExecutor(max_workers=args.n_jobs) as executor: for file in jsons: inp_file = Path(file) out_file = os.path.join(tmp_out, inp_file.stem + ".snappy.parquet") ### process_jsonl function reads raw jsonl file from S3 location (inp_file) ### and saves result into parquet file (out_file) inside temporary directory futures.append(executor.submit(process_jsonl, file, out_file)) ### wait until all jsonl files are processed for future in concurrent.futures.as_completed(futures): result = future.result() ### compact parquet files
dataset = ds.dataset(tmp_out) if len(dataset.schema) > 0: ### save compacted parquet files with 1MM records per file ds.write_dataset(dataset, out_dir, format="parquet", max_rows_per_file=1024 * 1024)

পরিমাপযোগ্যতা আমাদের পাইপলাইনের একটি মূল বৈশিষ্ট্য। প্রথমত, একাধিক সেজমেকার প্রসেসিং কাজগুলি একযোগে বেশ কয়েক দিনের জন্য ডেটা প্রক্রিয়া করতে ব্যবহার করা যেতে পারে। দ্বিতীয়ত, প্রতিটি নির্দিষ্ট দিনের ডেটা প্রক্রিয়া করার সময় আমরা সম্পূর্ণ প্রক্রিয়াকৃত বা কাঁচা ডেটা একবারে মেমরিতে লোড করা এড়িয়ে চলি। এটি প্রাথমিক মেমরিতে পুরো দিনের মূল্যের ডেটা মিটমাট করতে পারে না এমন উদাহরণের প্রকারগুলি ব্যবহার করে ডেটা প্রক্রিয়াকরণ সক্ষম করে। একমাত্র প্রয়োজনীয়তা হল যে উদাহরণের ধরনটি N কাঁচা JSONL বা প্রক্রিয়াকৃত Parquet ফাইলগুলিকে একই সাথে মেমরিতে লোড করতে সক্ষম হওয়া উচিত, N ব্যবহার করা প্রক্রিয়া কর্মীদের সংখ্যা।

AWS গ্লু ব্যবহার করে প্রক্রিয়াকৃত ডেটা ক্রল করুন

একাধিক দিনের জন্য সমস্ত কাঁচা ডেটা প্রক্রিয়া করার পরে, আমরা একটি AWS গ্লু ক্রলার ব্যবহার করে সমগ্র ডেটাসেট থেকে একটি এথেনা টেবিল তৈরি করতে পারি। আমরা ব্যবহার করি পান্ডার জন্য AWS SDK (awswrangler) নিম্নলিখিত স্নিপেট ব্যবহার করে টেবিল তৈরি করতে লাইব্রেরি:

import awswrangler as wr ### crawl processed data in S3
res = wr.s3.store_parquet_metadata( path='s3://bucket/processed/table-name/', database="database_name", table="table_name", dataset=True, mode="overwrite", sampling=1.0, path_suffix='.parquet',
) ### print table schema
print(res[0])

প্রশিক্ষণের জন্য প্রক্রিয়াকৃত বৈশিষ্ট্য লোড করুন

একটি নির্দিষ্ট তারিখ সীমার জন্য প্রক্রিয়াকৃত বৈশিষ্ট্যগুলি এখন এসকিউএল ব্যবহার করে অ্যাথেনা টেবিল থেকে লোড করা যেতে পারে, এবং এই বৈশিষ্ট্যগুলি তারপর কাজের সুপারিশকারী মডেলকে প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত স্নিপেটটি ব্যবহার করে একটি ডেটাফ্রেমে এক মাসের প্রক্রিয়াকৃত বৈশিষ্ট্য লোড করে awswrangler গ্রন্থাগার:

import awswrangler as wr query = """ SELECT * FROM table_name WHERE day_partition BETWEN '2020-01-01' AND '2020-02-01' """ ### load 1 month of data from database_name.table_name into a DataFrame
df = wr.athena.read_sql_query(query, database='database_name')

অতিরিক্তভাবে, প্রশিক্ষণের জন্য প্রক্রিয়াকৃত বৈশিষ্ট্য লোড করার জন্য SQL এর ব্যবহার বিভিন্ন অন্যান্য ব্যবহারের ক্ষেত্রে মিটমাট করার জন্য প্রসারিত করা যেতে পারে। উদাহরণস্বরূপ, আমরা দুটি পৃথক এথেনা টেবিল বজায় রাখার জন্য একই ধরনের পাইপলাইন প্রয়োগ করতে পারি: একটি ব্যবহারকারীর ইমপ্রেশন সংরক্ষণের জন্য এবং অন্যটি এই ইমপ্রেশনগুলিতে ব্যবহারকারীর ক্লিক সংরক্ষণের জন্য। এসকিউএল যোগদানের বিবৃতি ব্যবহার করে, আমরা ব্যবহারকারীরা ক্লিক করেছেন বা ক্লিক করেননি এমন ইম্প্রেশনগুলি পুনরুদ্ধার করতে পারি এবং তারপর এই ইমপ্রেশনগুলিকে একটি মডেল প্রশিক্ষণের কাজে পাস করতে পারি।

সমাধান সুবিধা

প্রস্তাবিত সমাধান বাস্তবায়ন করা আমাদের বিদ্যমান কর্মপ্রবাহে বিভিন্ন সুবিধা নিয়ে আসে, যার মধ্যে রয়েছে:

সরলীকৃত বাস্তবায়ন - সমাধানটি জনপ্রিয় এমএল লাইব্রেরি ব্যবহার করে পাইথনে বৈশিষ্ট্য নিষ্কাশনকে কার্যকর করতে সক্ষম করে। এবং, কোডটি PySpark এ পোর্ট করার প্রয়োজন নেই। এই স্ট্রীমলাইন বৈশিষ্ট্য নিষ্কাশন একটি নোটবুকে একজন ডেটা বিজ্ঞানী দ্বারা বিকাশিত একই কোড এই পাইপলাইন দ্বারা কার্যকর করা হবে৷
দ্রুত পাথ থেকে উত্পাদন – সমাধানটি স্কেলে বৈশিষ্ট্য নিষ্কাশন করার জন্য একটি ডেটা সায়েন্টিস্ট দ্বারা বিকশিত এবং স্থাপন করা যেতে পারে, তাদের এই ডেটার বিপরীতে একটি এমএল সুপারিশকারী মডেল তৈরি করতে সক্ষম করে৷ একই সময়ে, একই সমাধানটি সামান্য পরিবর্তনের প্রয়োজনে এমএল ইঞ্জিনিয়ার দ্বারা উত্পাদনে স্থাপন করা যেতে পারে।
রাউস ক্ষমতা - সমাধানটি স্কেলে বৈশিষ্ট্য নিষ্কাশনের জন্য একটি পুনঃব্যবহারযোগ্য প্যাটার্ন সরবরাহ করে এবং সুপারিশকারী মডেল তৈরির বাইরে অন্যান্য ব্যবহারের ক্ষেত্রে সহজেই অভিযোজিত হতে পারে।
দক্ষতা – সমাধান ভাল কর্মক্ষমতা প্রস্তাব: একটি একক দিন প্রক্রিয়াকরণ ট্যালেন্ট ডট কমএর ডেটা ১ ঘণ্টারও কম সময় নেয়।
ক্রমবর্ধমান আপডেট - সমাধানটি ক্রমবর্ধমান আপডেটগুলিকেও সমর্থন করে। নতুন দৈনিক ডেটা একটি সেজমেকার প্রসেসিং কাজের মাধ্যমে প্রক্রিয়া করা যেতে পারে, এবং প্রক্রিয়াকৃত ডেটা ধারণকারী S3 অবস্থানটি এথেনা টেবিল আপডেট করতে পুনরায় ক্রল করা যেতে পারে। আজকের ডেটা প্রতিদিন কয়েকবার আপডেট করার জন্য আমরা একটি ক্রন কাজও ব্যবহার করতে পারি (উদাহরণস্বরূপ, প্রতি 3 ঘন্টা)।

আমরা এই ETL পাইপলাইনটি Talent.com-কে প্রতিদিন 50,000 ফাইল প্রসেস করতে সাহায্য করার জন্য ব্যবহার করেছি যার মধ্যে 5 মিলিয়ন রেকর্ড রয়েছে এবং Talent.com থেকে 90 দিনের কাঁচা ডেটা থেকে প্রাপ্ত বৈশিষ্ট্যগুলি ব্যবহার করে প্রশিক্ষণের ডেটা তৈরি করেছি—মোট 450 ফাইল জুড়ে 900,000 মিলিয়ন রেকর্ড। আমাদের পাইপলাইন Talent.com কে শুধুমাত্র 2 সপ্তাহের মধ্যে উৎপাদনে সুপারিশ সিস্টেম তৈরি এবং স্থাপন করতে সাহায্য করেছে। সমাধানটি অন্যান্য AWS পরিষেবা ব্যবহার না করেই Amazon SageMaker-এ ETL সহ সমস্ত ML প্রক্রিয়া সম্পাদন করেছে। চাকরির সুপারিশ ব্যবস্থা পূর্ববর্তী XGBoost-ভিত্তিক সমাধানের বিপরীতে অনলাইন A/B পরীক্ষায় ক্লিকথ্রু হারে 8.6% বৃদ্ধি এনেছে, যা Talent.com-এর লক্ষ লক্ষ ব্যবহারকারীকে আরও ভাল চাকরির সাথে সংযুক্ত করতে সাহায্য করেছে।

উপসংহার

এই পোস্টে Talent.com-এ একটি কাজের সুপারিশকারী মডেল প্রশিক্ষণ এবং নিয়োগের জন্য বৈশিষ্ট্য প্রক্রিয়াকরণের জন্য আমরা যে ETL পাইপলাইন তৈরি করেছি তার রূপরেখা তুলে ধরেছি। আমাদের পাইপলাইন বৃহৎ পরিসরে দক্ষ ডেটা প্রক্রিয়াকরণ এবং বৈশিষ্ট্য নিষ্কাশনের জন্য সেজমেকার প্রসেসিং কাজগুলি ব্যবহার করে। PySpark ব্যবহার করার জন্য কোড পোর্ট করার প্রয়োজন ছাড়াই স্কেলে বৈশিষ্ট্য নিষ্কাশন করতে জনপ্রিয় ML লাইব্রেরি ব্যবহার করতে সক্ষম করে Python-এ বৈশিষ্ট্য নিষ্কাশন কোড প্রয়োগ করা হয়েছে।

আমরা পাঠকদের এই ব্লগে উপস্থাপিত পাইপলাইনটি তাদের ব্যবহারের ক্ষেত্রে টেমপ্লেট হিসাবে ব্যবহার করার সম্ভাবনা অন্বেষণ করতে উত্সাহিত করি যেখানে স্কেলে বৈশিষ্ট্য নিষ্কাশন প্রয়োজন। একটি ML মডেল তৈরি করতে একটি ডেটা সায়েন্টিস্ট দ্বারা পাইপলাইনটি লিভারেজ করা যেতে পারে, এবং একই পাইপলাইনটি তারপর একটি এমএল ইঞ্জিনিয়ার দ্বারা উত্পাদন চালানোর জন্য গ্রহণ করা যেতে পারে। Talent.com-এর ক্ষেত্রে যেমনটি ছিল ML সলিউশন এন্ড-টু-এন্ড উত্পাদন করার জন্য এটি প্রয়োজনীয় সময়কে উল্লেখযোগ্যভাবে হ্রাস করতে পারে। পাঠকরা উল্লেখ করতে পারেন সেজমেকার প্রসেসিং কাজগুলি সেট আপ এবং চালানোর জন্য টিউটোরিয়াল. আমরা পোস্টটি দেখার জন্য পাঠকদেরও উল্লেখ করি পাঠ্য থেকে স্বপ্নের চাকরি: Amazon SageMaker-এর সাথে Talent.com-এ NLP-ভিত্তিক কাজের সুপারিশকারী তৈরি করা, যেখানে আমরা গভীর শিক্ষার মডেল প্রশিক্ষণের কৌশলগুলি ব্যবহার করে আলোচনা করি আমাজন সেজমেকার Talent.com এর কাজের সুপারিশ সিস্টেম তৈরি করতে।

লেখক সম্পর্কে

দিমিত্রি বেসপালভ তিনি আমাজন মেশিন লার্নিং সলিউশন ল্যাবের একজন সিনিয়র ফলিত বিজ্ঞানী, যেখানে তিনি বিভিন্ন শিল্পের AWS গ্রাহকদের তাদের AI এবং ক্লাউড গ্রহণকে ত্বরান্বিত করতে সহায়তা করেন।

ই জিয়াং অ্যামাজন মেশিন লার্নিং সলিউশন ল্যাবের একজন ফলিত বিজ্ঞানী II, যেখানে তিনি বিভিন্ন শিল্পে AWS গ্রাহকদের তাদের AI এবং ক্লাউড গ্রহণকে ত্বরান্বিত করতে সহায়তা করেন।

টং ওয়াং তিনি আমাজন মেশিন লার্নিং সলিউশন ল্যাবের একজন সিনিয়র ফলিত বিজ্ঞানী, যেখানে তিনি বিভিন্ন শিল্পের AWS গ্রাহকদের তাদের AI এবং ক্লাউড গ্রহণকে ত্বরান্বিত করতে সহায়তা করেন।

আনাতোলি খোমেনকো এ একজন সিনিয়র মেশিন লার্নিং ইঞ্জিনিয়ার ট্যালেন্ট ডট কম প্রাকৃতিক ভাষা প্রক্রিয়াকরণের প্রতি আবেগের সাথে ভাল লোকেদের ভাল কাজের সাথে মেলে।

আবদেনূর বেজ্জুহ 25 বছরেরও বেশি অভিজ্ঞতাসম্পন্ন একজন নির্বাহী যিনি লক্ষ লক্ষ গ্রাহকের কাছে প্রযুক্তিগত সমাধান তৈরি এবং সরবরাহ করেন। আবদেনৌর চিফ টেকনোলজি অফিসার (সিটিও) পদে অধিষ্ঠিত ছিলেন ট্যালেন্ট ডট কম যখন AWS টিম এই বিশেষ সমাধানটির জন্য ডিজাইন এবং কার্যকর করেছে ট্যালেন্ট ডট কম.

ইয়ানজুন কুই অ্যামাজন মেশিন লার্নিং সলিউশন ল্যাবের একজন সিনিয়র অ্যাপ্লাইড সায়েন্স ম্যানেজার। তিনি AWS গ্রাহকদের তাদের AI এবং ক্লাউড গ্রহণের গতি বাড়াতে সাহায্য করার জন্য মেশিন লার্নিং উদ্ভাবন এবং প্রয়োগ করেন।

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
উত্স: https://aws.amazon.com/blogs/machine-learning/streamlining-etl-data-processing-at-talent-com-with-amazon-sagemaker/

সময় স্ট্যাম্প: ডিসেম্বর 14, 2023

সময় স্ট্যাম্প: আগস্ট 26, 2022

Amazon SageMaker এর সাথে Talent.com-এ ETL ডেটা প্রসেসিং স্ট্রীমলাইন করা আমাজন ওয়েব সার্ভিসেস

প্লেটো দ্বারা প্রকাশিত

সমাধান ওভারভিউ

কাঁচা JSONL ফাইলগুলি প্রক্রিয়া করুন

AWS গ্লু ব্যবহার করে প্রক্রিয়াকৃত ডেটা ক্রল করুন

প্রশিক্ষণের জন্য প্রক্রিয়াকৃত বৈশিষ্ট্য লোড করুন

সমাধান সুবিধা

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

অ্যামাজন কেন্দ্রের জন্য এক্সচেঞ্জ সংযোগকারী ব্যবহার করে আপনার মাইক্রোসফ্ট এক্সচেঞ্জ সামগ্রী সূচী করুন

অ্যামাজন সেজমেকার ভূ-স্থানিক ক্ষমতা ব্যবহার করে অরুপে স্থিতিস্থাপক শহরগুলি ডিজাইন করা আমাজন ওয়েব সার্ভিসেস

Amazon SageMaker JumpStart-এ দৃষ্টান্তমূলক নোটবুক

Amazon Personalize কম লেটেন্সি সহ বড় আইটেম ক্যাটালগ সমর্থন করে নতুন রেসিপি চালু করেছে | আমাজন ওয়েব সার্ভিসেস

Amazon SageMaker JumpStart দিয়ে ইমেজ সেগমেন্টেশন চালান

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব