Deploy Falcon-40B With Large Model Inference DLCs On Amazon SageMaker

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

پچھلے ہفتے، ٹیکنالوجی انوویشن انسٹی ٹیوٹ (TII) شروع TII فالکن ایل ایل ایم، ایک اوپن سورس فاؤنڈیشنل لارج لینگوئج ماڈل (LLM)۔ کے ساتھ 1 ٹریلین ٹوکن پر تربیت دی گئی۔ ایمیزون سیج میکر، فالکن اعلی درجے کی کارکردگی کا حامل ہے (# 1 پر گلے لگانا چہرہ لیڈر بورڈ تحریر کے وقت) جبکہ دیگر LLMs جیسے llama-65B کے مقابلے نسبتاً ہلکا اور میزبانی کے لیے کم مہنگا ہونے کے باوجود۔ اس پوسٹ میں، ہم دکھاتے ہیں کہ SageMaker پر بڑے ماڈل انفرنس ڈیپ لرننگ کنٹینرز کا استعمال کرتے ہوئے زبان کی سمجھ اور خودکار تحریری مدد جیسی ایپلی کیشنز کے لیے Falcon کو کیسے تعینات کیا جائے۔

فالکن سیج میکر پر اترا ہے۔

TII ابوظہبی کے اندر اطلاق شدہ تحقیقی ادارہ ہے۔ اعلی درجے کی ٹیکنالوجی ریسرچ کونسل; سائنس دانوں، محققین اور انجینئروں کی اس کی ٹیم تبدیلی کی ٹیکنالوجیز کی دریافت اور سائنسی کامیابیوں کی ترقی کے لیے وقف ہے جو ہمارے معاشرے کو مستقبل کا ثبوت دیں گی۔ اس سال کے شروع میں، TII ایک جدید ترین، اوپن سورس LLM کو تربیت دینے کے لیے نکلا اور SageMaker کے بنیادی ڈھانچے، ٹولنگ، اور مہارت کا استعمال کرکے کام انجام دیا (اس بارے میں مزید جاننے کے لیے کہ اس ماڈل کو SageMaker پر کس طرح تربیت دی گئی تھی۔ ، کا حوالہ دیتے ہیں ٹیکنالوجی انوویشن انسٹی ٹیوٹ Amazon SageMaker پر جدید ترین Falcon LLM 40B فاؤنڈیشن ماڈل کی تربیت کرتا ہے۔)۔ اس کوشش کا نتیجہ ہے۔ TII فالکن ایل ایل ایم.

1 ٹریلین ٹوکنز پر تربیت یافتہ، فالکن کے خلاف اعلیٰ ترین کارکردگی کا حامل ہے۔ ایلیوتھر اے آئی لینگویج ماڈل ایویلیویشن ہارنس اور فی الحال نمبر 1 پر ہے۔ گلے لگانا چہرہ لیڈر بورڈ درستگی کے لیے یہ ماڈل دو مختلف سائزوں میں دستیاب ہے — Falcon-40B اور Falcon-7B — اور اسے ایپلی کیشنز میں جدید ترین کارکردگی کے لیے استعمال کیا جا سکتا ہے جیسے کہ زبان کی سمجھ، بات چیت کے تجربات، اور خودکار تحریری مدد۔ اس پوسٹ سے آپ کو اس قسم کے ڈومینز میں اعلی درستگی کا اندازہ لگانے کے لیے SageMaker پر Falcon کی تعیناتی شروع کرنے میں مدد ملے گی۔

SageMaker بڑے ماڈل کا اندازہ DLCs LLM ہوسٹنگ کو آسان بناتا ہے۔

Falcon-40B اور Falcon-7B جیسے LLMs کی میزبانی کرنا مشکل ہو سکتا ہے۔ بڑے ماڈل اکثر زیادہ درست ہوتے ہیں کیونکہ ان میں اربوں پیرامیٹرز شامل ہوتے ہیں، لیکن ان کے سائز کے نتیجے میں انفرنس میں تاخیر یا خراب تھرو پٹ بھی ہو سکتا ہے۔ LLM کی میزبانی کے لیے قابل قبول کارکردگی حاصل کرنے کے لیے مزید GPU میموری اور آپٹمائزڈ کرنل کی ضرورت پڑ سکتی ہے۔ چیزوں کو مزید پیچیدہ کرنے کے لیے، اگرچہ Falcon-7B جیسے چھوٹے ماڈلز عام طور پر ایک GPU پر فٹ ہو سکتے ہیں جیسے NVIDIA A10G مثال جو AWS G5 مثال کی اقسام کو طاقت دیتی ہے، Falcon-40B جیسے بڑے ماڈل نہیں کر سکتے۔ جب ایسا ہوتا ہے تو، اس بڑے ماڈل کو ایک سے زیادہ ٹکڑوں میں تقسیم کرنے اور متعدد GPUs کی میموری سے فائدہ اٹھانے کے لیے ٹینسر متوازی جیسی حکمت عملیوں کا استعمال کیا جانا چاہیے۔ چھوٹے ماڈلز کے لیے استعمال ہونے والے لیگیسی ہوسٹنگ حل عام طور پر اس قسم کی فعالیت پیش نہیں کرتے ہیں، جس سے مشکلات میں اضافہ ہوتا ہے۔

سیج میکر لارج ماڈل انفرنس (LMI) ڈیپ لرننگ کنٹینرز (DLCs) مدد کر سکتے ہیں۔ LMI DLCs Falcon-40B جیسے LLMs کی میزبانی کے لیے ایک مکمل اینڈ ٹو اینڈ حل ہیں۔ سامنے والے سرے پر، ان میں ایک اعلیٰ کارکردگی والا ماڈل سرور (DJL سرونگ) شامل ہے جس میں بڑے ماڈل کے تخمینہ کے لیے ڈیزائن کیا گیا ہے جس میں ٹوکن اسٹریمنگ اور خودکار ماڈل ریپلیکیشن جیسی خصوصیات شامل ہیں تاکہ تھرو پٹ کو بڑھایا جا سکے۔ پسدید پر، LMI DLCs میں متعدد اعلی کارکردگی والے ماڈل کے متوازی انجن بھی شامل ہیں، جیسے ڈیپ اسپیڈ اور فاسٹر ٹرانسفارمر، جو متعدد GPUs میں ماڈل پیرامیٹرز کو تیز اور منظم کر سکتے ہیں۔ ان انجنوں میں مقبول ٹرانسفارمر ماڈلز کے لیے آپٹمائزڈ کرنل بھی شامل ہیں، جو تین گنا زیادہ تیزی سے تخمینہ کو تیز کر سکتے ہیں۔ LMI DLCs کے ساتھ، SageMaker پر LLM ہوسٹنگ شروع کرنے کے لیے آپ کو صرف ایک کنفیگریشن فائل بنانے کی ضرورت ہے۔ SageMaker LMI DLCs کے بارے میں مزید جاننے کے لیے، رجوع کریں۔ ماڈل متوازی اور بڑے ماڈل کا اندازہ اور ہماری دستیاب تصاویر کی فہرست. آپ ہوسٹنگ کے بارے میں ہماری پچھلی پوسٹ بھی دیکھ سکتے ہیں۔ سیج میکر پر بلوم-175B LMI DLCs کا استعمال کرتے ہوئے

حل جائزہ

یہ پوسٹ آپ کو بتاتی ہے کہ LMI DLCs کا استعمال کرتے ہوئے SageMaker پر DeepSpeed کا استعمال کرتے ہوئے Falcon-40B کی میزبانی کیسے کی جائے۔ Falcon-40B کا تقاضا ہے کہ ہم ایک سے زیادہ A10 GPU استعمال کریں، جبکہ Falcon-7B کو صرف ایک GPU کی ضرورت ہے۔ ہم نے ایسی مثالیں بھی تیار کی ہیں جن کا حوالہ آپ ڈیپ اسپیڈ اور ایکسلریٹ دونوں کا استعمال کرتے ہوئے میزبان Falcon-40B اور Falcon-7B کا حوالہ دے سکتے ہیں۔ آپ ہمارے کوڈ کی مثالیں تلاش کر سکتے ہیں۔ GitHub کے.

یہ مثال SageMaker نوٹ بک مثالوں میں چلائی جا سکتی ہے یا ایمیزون سیج میکر اسٹوڈیو نوٹ بک LMI اور DeepSpeed کا استعمال کرتے ہوئے Falcon-40B کی میزبانی کے لیے، ہمیں ایک ml.g5.24xlarge مثال استعمال کرنے کی ضرورت ہے۔ یہ مثالیں 4x NVIDIA A10G GPU فراہم کرتی ہیں، جو ہر ایک GPU میموری کے 96 GiB کو سپورٹ کرتی ہے۔ اس کے علاوہ، میزبان 96 vCPUs اور 384 GiB میزبان میموری فراہم کرتا ہے۔ LMI کنٹینر LLMs کی میزبانی سے منسلک زیادہ تر غیر متفاوت بھاری لفٹنگ کو حل کرنے میں مدد کرے گا، بشمول ماڈل کو ڈاؤن لوڈ کرنا اور ماڈل آرٹفیکٹ کو تقسیم کرنا تاکہ اس کے پیرامیٹرز کو متعدد GPUs میں پھیلایا جا سکے۔

SageMaker مشین لرننگ (ML) مثالوں کے کوٹے اکاؤنٹس کے درمیان مختلف ہو سکتے ہیں۔ اگر آپ کو ایک غلطی موصول ہوتی ہے جس سے یہ ظاہر ہوتا ہے کہ آپ نے اس پوسٹ کی پیروی کرتے ہوئے g5.24x بڑی مثالوں کے لیے اپنے کوٹے سے تجاوز کر لیا ہے، تو آپ اس کے ذریعے حد کو بڑھا سکتے ہیں۔ سروس کوٹاس کنسول.

نوٹ بک واک تھرو

شروع کرنے کے لیے، ہم اپنی مثال کے لیے ضروری انحصار کو انسٹال اور درآمد کرکے شروع کرتے ہیں۔ ہم Boto3 SDK کے ساتھ ساتھ SageMaker SDK بھی استعمال کرتے ہیں۔ نوٹ کریں کہ ہم استعمال کرتے ہیں۔ ایمیزون سادہ اسٹوریج سروس (Amazon S3) ماڈل نمونے کو ذخیرہ کرنے کے لیے جو ہمیں SageMaker اور LMI کو استعمال کرنے کے لیے درکار ہے، اس لیے ہم اس کے مطابق S3 کا سابقہ متغیر ترتیب دیتے ہیں۔ درج ذیل کوڈ دیکھیں:

import sagemaker
import jinja2
from sagemaker import image_uris
import boto3
import os
import time
import json
from pathlib import Path
from sagemaker.utils import name_from_base role = sagemaker.get_execution_role() # execution role for the endpoint
sess = sagemaker.session.Session() # sagemaker session for interacting with different AWS APIs
bucket = sess.default_bucket() # bucket to house artifacts
model_bucket = sess.default_bucket() # bucket to house artifacts
s3_code_prefix_deepspeed = "hf-large-model-djl-/code_falcon40b/deepspeed" # folder within bucket where code artifact will go
region = sess._region_name
account_id = sess.account_id()
s3_client = boto3.client("s3")
sm_client = boto3.client("sagemaker")
smr_client = boto3.client("sagemaker-runtime")
jinja_env = jinja2.Environment()

اس کے بعد ہم اپنے ماڈل کے نمونے کو ذخیرہ کرنے کے لیے اپنے ورک اسپیس کے لیے ایک مقامی فولڈر بناتے ہیں۔

!mkdir -p code_falcon40b_deepspeed

ہم سب سے پہلے ایک بناتے ہیں serving.properties مقامی ڈائریکٹری میں کنفیگریشن فائل جو ہم نے بنائی ہے۔ یہ serving.properties فائل ایل ایم آئی کنٹینر اور فرنٹ اینڈ ڈی جے ایل سرونگ لائبریری کی طرف اشارہ کرتی ہے جس کا ماڈل متوازی اور انفرنس آپٹیمائزیشن انجن ہم استعمال کرنا چاہتے ہیں۔ آپ ڈیپ اسپیڈ اور ہگنگ فیس ایکسلریٹ ان دونوں کے لیے کنفیگریشن کے اختیارات تلاش کر سکتے ہیں۔ کنفیگریشنز اور سیٹنگز. یہاں، نوٹ کریں کہ ہم نے سیٹ کیا ہے۔ option.model_id پیرامیٹر اس بات کی وضاحت کرنے کے لیے کہ کون سے Hugging Face ماڈل سے کھینچنا ہے۔ SageMaker Hugging Face ماڈلز کے ساتھ کام کرنا آسان بناتا ہے، اور یہ ایک لائن آپ کو درکار ہے۔ اس کے علاوہ، ہم نے مقرر کیا option.tensor_parallel_degree 4 کی قدر تک کیونکہ ہمارے پاس ہمارے ml.g5.24xlarge مثال پر چار GPUs ہیں۔ یہ پیرامیٹر اس بات کی وضاحت کرتا ہے کہ ماڈل کے کتنے پارٹیشنز بنانے اور تقسیم کرنے ہیں۔ نوٹ کریں کہ اگر ہم نے آٹھ GPUs کے ساتھ ایک بڑی مثال استعمال کی ہوتی، جیسے ml.g5.48xlarge، اور پھر بھی 4 کی قدر سیٹ کی ہوتی ہے، تو LMI خود بخود ماڈل کی دو نقلیں بناتا (ہر ایک GPUs میں دو نقلیں پھیلی ہوئی ہیں)۔ درج ذیل کوڈ دیکھیں:

%%writefile ./code_falcon40b_deepspeed/serving.properties
engine=Python
#to deploy falcon-40b-instruct set the model_id value to 'tiiuae/falcon-40b-instruct'
option.model_id=tiiuae/falcon-40b
option.tensor_parallel_degree=4
#option.s3url = {{s3url}}

آپ تبادلہ بھی کر سکتے ہیں۔ tiiuae/falcon-40b ساتھ tiiuae/falcon-40b-instruct اگر یہ آپ کی ضروریات کو بہتر بناتا ہے۔

ہم بھی شامل ہیں a requirements.txt فائل جس کی آپ ان پیکجوں کو انسٹال کرنے کے لیے وضاحت کر سکتے ہیں جن کی آپ کو ضرورت ہے:

%%writefile ./code_falcon40b_deepspeed/requirements.txt
einops
torch==2.0.1

آخری چیز جس کی ہمیں ضرورت ہے وہ ہے۔ model.py فائل جو آپ کے ماڈل کے ساتھ استعمال کی جائے گی:

%%writefile ./code_falcon40b_deepspeed/model.py
from djl_python import Input, Output
import os
import torch
from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer
from typing import Any, Dict, Tuple
import warnings predictor = None def get_model(properties): model_name = properties["model_id"] local_rank = int(os.getenv("LOCAL_RANK", "0")) model = AutoModelForCausalLM.from_pretrained( model_name, low_cpu_mem_usage=True, trust_remote_code=True, torch_dtype=torch.bfloat16, device_map="auto", ) tokenizer = AutoTokenizer.from_pretrained(model_name) generator = pipeline( task="text-generation", model=model, tokenizer=tokenizer, device_map="auto" ) return generator def handle(inputs: Input) -> None: global predictor if not predictor: predictor = get_model(inputs.get_properties()) if inputs.is_empty(): # Model server makes an empty call to warmup the model on startup return None data = inputs.get_as_json() text = data["text"] text_length = data["text_length"] outputs = predictor(text, do_sample=True, min_length=text_length, max_length=text_length) result = {"outputs": outputs} return Output().add_as_json(result)

یہی ہے! اس مقام پر، ہم نے وہ تمام نمونے تیار کر لیے ہیں جن کی آپ کو ڈیپ اسپیڈ کے ساتھ Falcon-40B تعینات کرنے کی ضرورت ہوگی! ہم ڈائریکٹری کو *.tar.gz فائل میں پیک کرتے ہیں اور اسے Amazon S3 پر اپ لوڈ کرتے ہیں۔ نوٹ کریں کہ اصل ماڈل کو اس فائل میں ڈاؤن لوڈ یا پیک نہیں کیا گیا ہے۔ LMI کنٹینر آپ کے لیے Hugging Face سے براہ راست ماڈل ڈاؤن لوڈ کرے گا۔ آپ کے پاس S3 بالٹی کو نشانہ بنانے کا اختیار بھی ہے اگر آپ کسی ایسے مقام پر ماڈل کی اپنی کاپی چاہتے ہیں جو ڈاؤن لوڈ کرنے کے لیے زیادہ پرفارمنس ہو۔ LMI میں اعلی کارکردگی کے ساتھ Amazon S3 سے ڈاؤن لوڈ کرنے کی اصلاح بھی شامل ہے۔ درج ذیل کوڈ دیکھیں:

s3_code_artifact_deepspeed= sess.upload_data("model.tar.gz", bucket, s3_code_prefix_deepspeed)
print(f"S3 Code or Model tar for deepspeed uploaded to --- > {s3_code_artifact_deepspeed}")

اس مقام پر جو کچھ کرنا باقی ہے وہ کنٹینر کی وضاحت کرنا ہے جسے ہم استعمال کرنا چاہتے ہیں اور ایک ماڈل آبجیکٹ بنانا چاہتے ہیں:

inference_image_uri = ( f"763104351884.dkr.ecr.{region}.amazonaws.com/djl-inference:0.22.1-deepspeed0.8.3-cu118"
)
model_name_acc = name_from_base(f"falcon40b-model-ds")
create_model_response = sm_client.create_model( ModelName=model_name_acc, ExecutionRoleArn=role, PrimaryContainer={"Image": inference_image_uri, "ModelDataUrl": s3_code_artifact_deepspeed},
)
model_arn = create_model_response["ModelArn"]

پھر ہم ایک اینڈ پوائنٹ کنفیگریشن بناتے ہیں اور اینڈ پوائنٹ بناتے ہیں:


endpoint_config_name = f"{model_name}-config"
endpoint_name = f"{model_name}-endpoint"
endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.24xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, # "VolumeSizeInGB": 512 }, ],
)
endpoint_config_response create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)
print(f"Created Endpoint: {create_endpoint_response['EndpointArn']}")

کامیاب ہوسٹنگ کے لیے کنفیگریشن آئٹمز کو ذہن میں رکھنا

بڑے ماڈل ہوسٹنگ کے لیے ایک اہم بات یہ یقینی بنانا ہے کہ Hugging Face سے ماڈل ڈاؤن لوڈ کرنے کے لیے مناسب وقت ہو۔ ہمارے ٹیسٹوں میں، Falcon-40B کو مثال کے طور پر ڈاؤن لوڈ ہونے میں تقریباً 90 منٹ لگے۔ اس کی اجازت دینے کے لیے کنفیگریشنز کا ایک کلیدی سیٹ ہے۔ ContainerStartupHealthCheckTimeoutInSeconds اور ماڈل ڈیٹا ڈاؤن لوڈ ٹائم آؤٹ ان سیکنڈز. اس بات کو یقینی بنائیں کہ SageMaker اینڈ پوائنٹ کنفیگریشن میں ان میں سے ہر ایک کے لیے 3600 کی قدر ہے۔ مزید برآں، ایمیزون S3 سے اصل ماڈل کے چڑیا گھر کے بجائے LMI کنٹینرز کا استعمال کرتے ہوئے ڈاؤن لوڈ کرنا بہت آسان ہے جو خاص طور پر LLMS کے لیے بنائے گئے ہیں جو S5cmd یوٹیلیٹی استعمال کرتے ہیں، جو ماڈل ڈاؤن لوڈ کے وقت کو تقریباً 10 منٹ تک کم کر دیتا ہے۔

آپ کال کرکے اختتامی نقطہ کی حیثیت کی نگرانی کرسکتے ہیں۔ DescribeEndpoint، جو آپ کو بتائے گا جب سب کچھ مکمل ہو جائے گا۔ آپ کا اختتامی نقطہ اب تخمینہ کی درخواستوں کا جواب دینے کے لیے تیار ہے! چونکہ LMI آپ کے لیے ماڈل کی تقسیم اور آرکسٹریشن کو سنبھالتا ہے، اس لیے ہر درخواست پر ہمارے ml.g4xlarge مثال پر دستیاب تمام 5.12 GPUs کا استعمال کرتے ہوئے کارروائی کی جائے گی۔ یہ ہمیں LLMs کی میزبانی کرنے اور کارکردگی بڑھانے کی اجازت دیتا ہے اگر آپ GPU ایکسلریٹر کو افقی طور پر پیمانہ کرتے ہیں۔ درج ذیل کوڈ دیکھیں:

response_model = smr_client.invoke_endpoint( EndpointName=endpoint_name, Body=json.dumps({"text": "What is the purpose of life?", "text_length": 150}), ContentType="application/json",
) response_model["Body"].read().decode("utf8")

اگر آپ کام کر چکے ہیں اور اینڈ پوائنٹ کنفیگریشن، اینڈ پوائنٹ اور ماڈل آبجیکٹ کو حذف کرنا چاہتے ہیں تو آپ درج ذیل کمانڈز چلا سکتے ہیں:

sm_client.delete_endpoint(EndpointName=endpoint_name)
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
sm_client.delete_model(ModelName=model_name)

یہ کوڈ جس کا ہم نے اس پوسٹ میں حوالہ دیا ہے اسے مکمل طور پر پایا جا سکتا ہے۔ GitHub پر نوٹ بک.

نتیجہ

SageMaker ہوسٹنگ اور LMI DLC آپ کے لیے Falcon-40B جیسے LLMs کی میزبانی کرنا آسان بناتا ہے۔ یہ ایک سے زیادہ GPUs میں ماڈلز کی میزبانی کرنے کے لیے درکار آرکیسٹریٹنگ میں غیر متفاوت ہیوی لفٹنگ کا سہارا لیتا ہے اور آپ کی ضروریات کو پورا کرنے کے لیے قابل ترتیب اختیارات فراہم کرتا ہے۔ اس کے علاوہ، ان ماڈلز کے لیے بلٹ ان سپورٹ کے ساتھ، Hugging Face ماڈلز کا استعمال بہت سیدھا ہو جاتا ہے۔

اس پوسٹ میں، ہم نے دکھایا کہ آپ ڈیپ اسپیڈ کا استعمال کرتے ہوئے Falcon-40B ماڈل کی میزبانی کے لیے SageMaker کا استعمال کیسے کر سکتے ہیں۔ اس کے علاوہ، ہم نے مثالیں فراہم کیں۔ GitHub کے ایکسلریٹ کا استعمال کرتے ہوئے Falcon-40B اور چھوٹے Falcon-7B ماڈلز کی میزبانی کرنے کے لیے۔ ہم آپ کی حوصلہ افزائی کرتے ہیں کہ LMI کے ساتھ SageMaker پر اسے آزمائیں اور آج تک بہترین کارکردگی کا مظاہرہ کرنے والے عوامی طور پر دستیاب LLM کے ساتھ کام کریں!

مصنفین کے بارے میں

Deploy Falcon-40B with large model inference DLCs on Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. جیمز پارک ایمیزون ویب سروسز میں ایک حل آرکیٹیکٹ ہے۔ وہ Amazon.com کے ساتھ AWS پر ٹکنالوجی کے حل کو ڈیزائن کرنے، بنانے اور ان کی تعیناتی کے لیے کام کرتا ہے، اور اسے AI اور مشین لرننگ میں خاص دلچسپی ہے۔ فارغ وقت میں وہ نئی ثقافتوں، نئے تجربات، اور جدید ترین ٹیکنالوجی کے رجحانات کے ساتھ اپ ٹو ڈیٹ رہنے سے لطف اندوز ہوتا ہے۔ آپ اسے اس پر تلاش کر سکتے ہیں۔ لنکڈ.

ابھی شیوادتیہ AWS میں ایک سینئر سولیوشن آرکیٹیکٹ ہے، جو مصنوعی ذہانت، تقسیم شدہ کمپیوٹنگ، نیٹ ورکنگ اور اسٹوریج جیسے شعبوں میں AWS خدمات کو اپنانے میں سہولت فراہم کرنے کے لیے اسٹریٹجک عالمی کاروباری اداروں کے ساتھ کام کر رہا ہے۔ اس کی مہارت نیچرل لینگویج پروسیسنگ (NLP) اور کمپیوٹر ویژن کے ڈومینز میں گہری سیکھنے میں ہے۔ Abhi AWS ماحولیاتی نظام کے اندر اعلی کارکردگی والے مشین لرننگ ماڈلز کو مؤثر طریقے سے تعینات کرنے میں صارفین کی مدد کرتا ہے۔

رابرٹ وان ڈوسن ایمیزون سیج میکر کے ساتھ ایک سینئر پروڈکٹ مینیجر ہے۔ وہ بڑے ماڈل کا اندازہ جیسی ایپلی کیشنز کے لیے گہری سیکھنے کے ماڈل کی اصلاح کی رہنمائی کرتا ہے۔

ایوینڈرو فرانکو ایمیزون ویب سروسز پر کام کرنے والا ایک AI/ML ماہر حل آرکیٹیکٹ ہے۔ وہ AWS کے صارفین کو AWS کے سب سے اوپر AI/ML سے متعلق کاروباری چیلنجوں پر قابو پانے میں مدد کرتا ہے۔ اس کے پاس ٹیکنالوجی کے ساتھ سافٹ ویئر ڈویلپمنٹ، انفراسٹرکچر، سرور لیس، مشین لرننگ تک 15 سال سے زیادہ کام ہے۔

کنگ لین AWS میں سافٹ ویئر ڈویلپمنٹ انجینئر ہے۔ وہ Amazon میں کئی چیلنجنگ پروڈکٹس پر کام کر رہا ہے، بشمول ہائی پرفارمنس ایم ایل انفرنس سلوشنز اور ہائی پرفارمنس لاگنگ سسٹم۔ Qing کی ٹیم نے بہت کم تاخیر کے ساتھ Amazon Advertising میں پہلا بلین پیرامیٹر ماڈل کامیابی کے ساتھ لانچ کیا۔ کنگ کو بنیادی ڈھانچے کی اصلاح اور گہری سیکھنے کی سرعت کے بارے میں گہرائی سے علم ہے۔

Deploy Falcon-40B with large model inference DLCs on Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. فرینک لیو اے ڈبلیو ایس ڈیپ لرننگ کے لیے سافٹ ویئر انجینئر ہے۔ وہ سافٹ ویئر انجینئرز اور سائنسدانوں کے لیے جدید گہرے سیکھنے کے اوزار بنانے پر توجہ مرکوز کرتا ہے۔ اپنے فارغ وقت میں، وہ دوستوں اور خاندان کے ساتھ پیدل سفر کا لطف اٹھاتا ہے۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
ای وی ایم فنانس۔ وکندریقرت مالیات کے لیے متحد انٹرفیس۔ یہاں تک رسائی حاصل کریں۔
کوانٹم میڈیا گروپ۔ آئی آر/پی آر ایمپلیفائیڈ۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 ڈیٹا انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/

ٹائم اسٹیمپ: جون 13، 2023

ٹائم اسٹیمپ: نومبر 13، 2023

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

GPU استعمال کیے بغیر کنارے پر Amazon Lookout for Vision کا استعمال کرتے ہوئے بے ضابطگیوں کے مقام کی شناخت کریں۔

ایمیزون کوڈ وِسپرر کا تعارف، ایم ایل سے چلنے والا کوڈنگ ساتھی

The Very Group میں Amazon Comprehend کے ساتھ PII ڈیٹا کو درست کرنا

Amazon Kendra کے لیے Updated ServiceNow کنیکٹر (V2) کا اعلان

Amazon Personalize | ایمیزون ویب سروسز

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ