פרוס אלפי הרכבי דגמים עם נקודות קצה מרובי דגמים של Amazon SageMaker ב-GPU כדי למזער את עלויות האירוח שלך

הועלה מחדש על ידי אפלטון

עוקב: 0

אימוץ הבינה המלאכותית (AI) מואצת בתעשיות ובמקרי שימוש. פריצות דרך מדעיות אחרונות בתחום למידה עמוקה (DL), מודלים של שפות גדולות (LLMs) ובינה מלאכותית גנרטיבית מאפשרת ללקוחות להשתמש בפתרונות מתקדמים מתקדמים עם ביצועים כמעט כמו אנושיים. מודלים מורכבים אלה דורשים לעתים קרובות האצת חומרה מכיוון שהם מאפשרים לא רק אימון מהיר יותר אלא גם הסקה מהירה יותר בעת שימוש ברשתות עצביות עמוקות ביישומים בזמן אמת. המספר הרב של ליבות עיבוד מקביליות של מעבדי גרפי הופך אותם למתאימים היטב למשימות DL אלו.

עם זאת, בנוסף להזמנת מודל, יישומי DL אלה כרוכים לעתים קרובות בעיבוד מקדים או לאחר עיבוד בצינור מסקנות. לדוגמה, ייתכן שיהיה צורך לשנות את הגודל או לחתוך תמונות קלט עבור מקרה שימוש בזיהוי אובייקט לפני הגשה למודל ראייה ממוחשבת, או אסימון של קלט טקסט לפני השימוש ב-LLM. NVIDIA טריטון הוא שרת הסקות קוד פתוח המאפשר למשתמשים להגדיר צינורות הסקה כאלה כמכלול של מודלים בצורה של גרף אציקלי מכוון (DAG). הוא נועד להריץ דגמים בקנה מידה ב-CPU וגם ב-GPU. אמזון SageMaker תומך בפריסה חלקה של Triton, מה שמאפשר לך להשתמש בתכונות של Triton ובמקביל ליהנות מהן יכולות SageMaker: סביבה מנוהלת ומאובטחת עם שילוב כלי MLOps, שינוי קנה מידה אוטומטי של מודלים מתארחים ועוד.

AWS, במסירותה לעזור ללקוחות להשיג את החיסכון הגבוה ביותר, חידשה ללא הרף לא רק בתחום אפשרויות תמחור ו אופטימיזציה של שירותים פרואקטיביים, אלא גם בהשקת תכונות חיסכון בעלויות כמו נקודות קצה מרובות-מודלים (MMEs). MMEs הם פתרון חסכוני לפריסת מספר רב של דגמים תוך שימוש באותו צי משאבים ומיכל הגשה משותף לארח את כל הדגמים שלך. במקום להשתמש במספר נקודות קצה של דגם יחיד, אתה יכול להפחית את עלויות האירוח שלך על ידי פריסת דגמים מרובים תוך תשלום רק עבור סביבת מסקנות אחת. בנוסף, MMEs מפחיתים את תקורה של הפריסה מכיוון ש- SageMaker מנהלת טעינת מודלים בזיכרון ומרחיבה אותם על סמך דפוסי התעבורה לנקודת הקצה שלך.

בפוסט זה, אנו מראים כיצד להפעיל מספר דגמי אנסמבל למידה עמוקה על מופע GPU עם SageMaker MME. כדי לעקוב אחר הדוגמה הזו, תוכל למצוא את הקוד בציבור מאגר דוגמאות של SageMaker.

כיצד עובדים MME של SageMaker עם GPU

עם MMEs, מיכל יחיד מארח מספר דגמים. SageMaker שולט במחזור החיים של דגמים המתארחים ב-MME על ידי טעינתם ופריקתם לזיכרון המכולה. במקום להוריד את כל הדגמים למופע של נקודת הקצה, SageMaker טוען באופן דינמי ומאחסן את הדגמים תוך כדי הפעלתם.

כאשר מוגשת בקשת הזמנה לדגם מסוים, SageMaker עושה את הפעולות הבאות:

תחילה הוא מנתב את הבקשה למופע נקודת הקצה.
אם הדגם לא נטען, הוא מוריד את חפץ הדגם מ שירות אחסון פשוט של אמזון (Amazon S3) לאותו מופע אמזון אחסון בלוק אלסטי נפח (Amazon EBS).
הוא טוען את הדגם לזיכרון המיכל במופע המחשוב המואץ של GPU. אם המודל כבר נטען בזיכרון של המכולה, ההפעלה מהירה יותר מכיוון שאין צורך בצעדים נוספים.

כאשר צריך לטעון דגם נוסף, וניצול הזיכרון של המופע גבוה, SageMaker יפרוק דגמים שאינם בשימוש מהמיכל של אותו מופע כדי להבטיח שיש מספיק זיכרון. דגמים אלה שנפרקו יישארו על נפח ה-EBS של המופע, כך שניתן יהיה לטעון אותם לזיכרון המכולה מאוחר יותר, ובכך יסיר את הצורך להוריד אותם שוב מדלי S3. עם זאת, אם נפח האחסון של המופע יגיע לקיבולת שלו, SageMaker תמחק את הדגמים שאינם בשימוש מנפח האחסון. במקרים שבהם ה-MME מקבל בקשות רבות להתקשרות, ומופעים נוספים (או מדיניות קנה מידה אוטומטי) מופעלים, SageMaker מנתב כמה בקשות למופעים אחרים באשכול ההסקה כדי להתאים לתעבורה הגבוהה.

זה לא רק מספק מנגנון חיסכון בעלויות, אלא גם מאפשר לך לפרוס באופן דינמי דגמים חדשים ולהוציא משימוש ישנים. כדי להוסיף דגם חדש, אתה מעלה אותו לדלי S3 שה-MME מוגדר להשתמש בו ולהפעיל אותו. כדי למחוק דגם, הפסק לשלוח בקשות ומחק אותו מה-S3 bucket. הוספת מודלים או מחיקתם מ-MME אינם מצריכים עדכון של נקודת הקצה עצמה!

הרכבי טריטון

אנסמבל המודלים של Triton מייצג צינור המורכב ממודל אחד, לוגיקה קדם-עיבוד ופוסט-עיבוד, וחיבור של טנסורי קלט ופלט ביניהם. בקשת הסקה בודדת לאנסמבל מפעילה את הריצה של כל הצינור כסדרה של שלבים באמצעות מתזמן האנסמבל. המתזמן אוסף את טנסור הפלט בכל שלב ומספק אותם כטנסורי קלט עבור שלבים אחרים בהתאם למפרט. להבהיר: מודל האנסמבל עדיין נתפס כדגם יחיד מנקודת מבט חיצונית.

שרת טריטון ארכיטקטורה כולל מאגר דגמים: מאגר מבוסס מערכת קבצים של המודלים שטריטון יהפוך לזמינים להסקת מסקנות. Triton יכול לגשת לדגמים מנתיב קבצים נגיש מקומי אחד או יותר או ממקומות מרוחקים כמו Amazon S3.

כל דגם במאגר מודלים חייב לכלול תצורת מודל המספקת מידע נדרש ואופציונלי על המודל. בדרך כלל, תצורה זו מסופקת ב-a config.pbtxt הקובץ שצוין כ ModelConfig protobuf. תצורת דגם מינימלית חייבת לציין את הפלטפורמה או הקצה האחורי (כמו PyTorch או TensorFlow), את max_batch_size תכונה, וטנסורי הקלט והפלט של המודל.

טריטון על SageMaker

SageMaker מאפשר פריסת מודל באמצעות שרת Triton עם קוד מותאם אישית. פונקציונליות זו זמינה דרך SageMaker המנוהל Triton Inference Server Containers. מיכלים אלה תומכים במסגרות נפוצות של הישענות מכונה (ML) (כמו TensorFlow, ONNX ו-PyTorch, כמו גם פורמטים של מודלים מותאמים אישית) ומשתני סביבה שימושיים המאפשרים לך לייעל את הביצועים ב- SageMaker. מומלץ להשתמש בתמונות של SageMaker Deep Learning Container (DLC) מכיוון שהן מתוחזקות ומתעדכנות באופן קבוע עם תיקוני אבטחה.

דרך פיתרון

עבור פוסט זה, אנו פורסים שני סוגים שונים של הרכבים על מופע GPU, באמצעות Triton ונקודת קצה אחת של SageMaker.

האנסמבל הראשון מורכב משני דגמים: מודל DALI לעיבוד מקדים של תמונה ודגם TensorFlow Inception v3 להסקת מסקנות בפועל. אנסמבל הצינור לוקח תמונות מקודדות כקלט, אשר יהיה צורך לפענח, לשנות את הגודל לרזולוציה של 299×299 ולנרמל. עיבוד מקדים זה יטופל על ידי מודל DALI. DALI הוא קוד פתוח ספרייה למשימות נפוצות של עיבוד מקדים של תמונה ודיבור כגון פענוח והגדלת נתונים. Inception v3 הוא מודל זיהוי תמונה המורכב מפיתולים סימטריים ואסימטריים, ומאיגום ממוצע ומקסימום שכבות מחוברות במלואן (ולכן מושלם לשימוש ב-GPU).

האנסמבל השני הופך משפטי שפה טבעית גולמית להטבעות ומורכב משלושה דגמים. ראשית, מודל עיבוד מקדים מוחל על אסימון טקסט הקלט (מיושם ב-Python). לאחר מכן אנו משתמשים במכשיר מאומן מראש דגם BERT (לא מארז). מ רכזת דוגמניות פנים מחבקות כדי לחלץ הטבעות אסימונים. BERT הוא מודל בשפה האנגלית שהוכשר באמצעות מטרת מודלים של שפה מסכת (MLM). לבסוף, אנו מיישמים מודל שלאחר עיבוד שבו הטמעות האסימון הגולמי מהשלב הקודם משולבות להטבעות משפטים.

לאחר שאנו מגדירים את Triton להשתמש בהרכבים הללו, אנו מראים כיצד להגדיר ולהפעיל את SageMaker MME.

לבסוף, אנו מספקים דוגמה לכל קריאת אנסמבל, כפי שניתן לראות בתרשים הבא:

סט 1 – הפעל את נקודת הקצה עם תמונה, תוך ציון DALI-Inception כמכלול היעד
סט 2 - הפעל את אותה נקודת קצה, הפעם עם קלט טקסט ובקשת אנסמבל preprocess-BERT-postprocess

MME עם 2 הרכבים

הגדר את הסביבה

ראשית, הגדרנו את הסביבה הדרושה. זה כולל עדכון ספריות AWS (כמו Boto3 ו SageMaker SDK) והתקנת התלות הנדרשות כדי לארוז את ההרכבים שלנו ולהפעיל מסקנות באמצעות Triton. אנו משתמשים גם בתפקיד ביצוע ברירת המחדל של SageMaker SDK. אנו משתמשים בתפקיד זה כדי לאפשר ל-SageMaker לגשת לאמזון S3 (שם מאוחסנים חפצי הדגם שלנו) ול- רישום מיכלים (מאיפה ישמש תמונת NVIDIA Triton). ראה את הקוד הבא:

import boto3, json, sagemaker, time
from sagemaker import get_execution_role
import nvidia.dali as dali
import nvidia.dali.types as types # SageMaker varaibles
sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client("sagemaker-runtime")
sagemaker_session = sagemaker.Session(boto_session=boto3.Session())
role = get_execution_role() # Other Variables
instance_type = "ml.g4dn.4xlarge"
sm_model_name = "triton-tf-dali-ensemble-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
endpoint_config_name = "triton-tf-dali-ensemble-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
endpoint_name = "triton-tf-dali-ensemble-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())

הכן הרכבים

בשלב הבא זה, אנו מכינים את שני ההרכבים: TensorFlow (TF) Inception עם DALI preprocessing ו-BERT עם Python preprocessing ופוסט-עיבוד.

זה כרוך בהורדה של הדגמים שהוכשרו מראש, אספקת קובצי התצורה של Triton ואריזת החפצים שיישמרו באמזון S3 לפני הפריסה.

הכן את אנסמבל TF ו-DALI

ראשית, אנו מכינים את הספריות לאחסון הדגמים והתצורות שלנו: עבור TF Inception (inception_graphdef), עבור עיבוד מקדים DALI (dali), ועבור האנסמבל (ensemble_dali_inception). מכיוון ש-Triton תומך בגירסת מודל, אנו מוסיפים גם את גירסת הדגם לנתיב הספרייה (מסומן כ-1 כי יש לנו רק גרסה אחת). למידע נוסף על מדיניות גרסת Triton, עיין ב מדיניות גרסה. לאחר מכן, אנו מורידים את מודל Inception v3, מחלצים אותו ומעתיקים ל- inception_graphdef ספריית דגמים. ראה את הקוד הבא:

כעת, אנו מגדירים את טריטון להשתמש בצינור האנסמבל שלנו. ב config.pbtxt קובץ, אנו מציינים את צורות וסוגי הטנזור הקלט והפלט, ואת הצעדים שמתזמן Triton צריך לנקוט (עיבוד מקדים DALI ומודל Inception לסיווג תמונה):

%%writefile model_repository/ensemble_dali_inception/config.pbtxt
name: "ensemble_dali_inception"
platform: "ensemble"
max_batch_size: 256
input [ { name: "INPUT" data_type: TYPE_UINT8 dims: [ -1 ] }
]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 1001 ] }
]
ensemble_scheduling { step [ { model_name: "dali" model_version: -1 input_map { key: "DALI_INPUT_0" value: "INPUT" } output_map { key: "DALI_OUTPUT_0" value: "preprocessed_image" } }, { model_name: "inception_graphdef" model_version: -1 input_map { key: "input" value: "preprocessed_image" } output_map { key: "InceptionV3/Predictions/Softmax" value: "OUTPUT" } } ]
}

לאחר מכן, אנו מגדירים כל אחד מהדגמים. ראשית, תצורת הדגם עבור הקצה האחורי של DALI:

%%writefile model_repository/dali/config.pbtxt
name: "dali"
backend: "dali"
max_batch_size: 256
input [ { name: "DALI_INPUT_0" data_type: TYPE_UINT8 dims: [ -1 ] }
]
output [ { name: "DALI_OUTPUT_0" data_type: TYPE_FP32 dims: [ 299, 299, 3 ] }
]
parameters: [ { key: "num_threads" value: { string_value: "12" } }
]

לאחר מכן, תצורת הדגם עבור TensorFlow Inception v3 שהורדנו קודם לכן:

%%writefile model_repository/inception_graphdef/config.pbtxt
name: "inception_graphdef"
platform: "tensorflow_graphdef"
max_batch_size: 256
input [ { name: "input" data_type: TYPE_FP32 format: FORMAT_NHWC dims: [ 299, 299, 3 ] }
]
output [ { name: "InceptionV3/Predictions/Softmax" data_type: TYPE_FP32 dims: [ 1001 ] label_filename: "inception_labels.txt" }
]
instance_group [ { kind: KIND_GPU }
]

מכיוון שזהו מודל סיווג, עלינו גם להעתיק את תוויות מודל Inception ל- inception_graphdef ספרייה במאגר המודלים. תוויות אלה כוללות 1,000 תוויות כיתות מה- אימג'נט מערך נתונים.

!aws s3 cp s3://sagemaker-sample-files/datasets/labels/inception_labels.txt model_repository/inception_graphdef/inception_labels.txt

לאחר מכן, אנו מגדירים ומסדרים את צינור ה-DALI שיטפל בעיבוד המקדים שלנו לקובץ. העיבוד המקדים כולל קריאת התמונה (באמצעות CPU), פענוח (מואץ באמצעות GPU), ושינוי גודל ונורמליזציה של התמונה.

@dali.pipeline_def(batch_size=3, num_threads=1, device_id=0)
def pipe(): """Create a pipeline which reads images and masks, decodes the images and returns them.""" images = dali.fn.external_source(device="cpu", name="DALI_INPUT_0") images = dali.fn.decoders.image(images, device="mixed", output_type=types.RGB) images = dali.fn.resize(images, resize_x=299, resize_y=299) #resize image to the default 299x299 size images = dali.fn.crop_mirror_normalize( images, dtype=types.FLOAT, output_layout="HWC", crop=(299, 299), #crop image to the default 299x299 size mean=[0.485 * 255, 0.456 * 255, 0.406 * 255], #crop a central region of the image std=[0.229 * 255, 0.224 * 255, 0.225 * 255], #crop a central region of the image ) return images pipe().serialize(filename="model_repository/dali/1/model.dali")

לבסוף, אנו אורזים את החפצים יחד ומעלים אותם כאובייקט בודד לאמזון S3:

!tar -cvzf model_tf_dali.tar.gz -C model_repository .
model_uri = sagemaker_session.upload_data( path="model_tf_dali.tar.gz", key_prefix="triton-mme-gpu-ensemble"
)
print("S3 model uri: {}".format(model_uri))

הכן את אנסמבל TensorRT ו- Python

עבור דוגמה זו, אנו משתמשים במודל מאומן מראש מה- ספריית שנאים.

אתה יכול למצוא את כל הדגמים (קדם עיבוד ופוסט תהליכים, יחד עם config.pbtxt קבצים) בתיקייה ensemble_hf. מבנה מערכת הקבצים שלנו יכלול ארבע ספריות (שלוש עבור שלבי הדגם הבודדים ואחת עבור האנסמבל) וכן את הגרסאות שלהן:


ensemble_hf
├── bert-trt
|   |── model.pt
|   |──config.pbtxt
├── ensemble
│   └── 1
|   └── config.pbtxt
├── postprocess
│   └── 1
|       └── model.py
|   └── config.pbtxt
├── preprocess
│   └── 1
|       └── model.py
|   └── config.pbtxt

ב תיקיית סביבת העבודה, אנו מספקים שני סקריפטים: הראשון להמיר את המודל לפורמט ONNX (onnx_exporter.py) ותסריט הידור TensorRT (gener_model_trt.sh).

Triton תומך באופן טבעי בזמן הריצה של TensorRT, המאפשר לך לפרוס בקלות מנוע TensorRT, ובכך לבצע אופטימיזציה עבור ארכיטקטורת GPU נבחרת.

כדי לוודא שאנו משתמשים בגרסת TensorRT ובתלות התואמות לאלה שבמיכל ה-Triton שלנו, אנו מרכיבים את המודל באמצעות הגרסה המתאימה של תמונת מיכל PyTorch של NVIDIA:

model_id = "sentence-transformers/all-MiniLM-L6-v2"
! docker run --gpus=all --rm -it -v `pwd`/workspace:/workspace nvcr.io/nvidia/pytorch:22.10-py3 /bin/bash generate_model_trt.sh $model_id

לאחר מכן אנו מעתיקים את חפצי המודל לספרייה שיצרנו קודם לכן ונוסיף גרסה לנתיב:

! mkdir -p ensemble_hf/bert-trt/1 && mv workspace/model.plan ensemble_hf/bert-trt/1/model.plan && rm -rf workspace/model.onnx workspace/core*

אנו משתמשים בחבילת Conda כדי ליצור סביבת Conda שבה הקצה האחורי של Triton Python ישתמש בעיבוד מקדים ואחרי עיבוד:

!bash conda_dependencies.sh
!cp processing_env.tar.gz ensemble_hf/postprocess/ && cp processing_env.tar.gz ensemble_hf/preprocess/
!rm processing_env.tar.gz

לבסוף, אנו מעלים את חפצי הדגם לאמזון S3:

!tar -C ensemble_hf/ -czf model_trt_python.tar.gz .
model_uri = sagemaker_session.upload_data( path="model_trt_python.tar.gz", key_prefix="triton-mme-gpu-ensemble"
) print("S3 model uri: {}".format(model_uri))

הפעל אנסמבלים על מופע SageMaker MME GPU

כעת, כאשר חפצי האנסמבל שלנו מאוחסנים באמזון S3, אנו יכולים להגדיר ולהפעיל את SageMaker MME.

אנו מתחילים באחזור ה-URI של תמונת המכולה עבור תמונת Triton DLC שתואם את אחד באזור שלנו רישום container (ומשמש עבור הידור מודל TensorRT):

account_id_map = { "us-east-1": "785573368785", "us-east-2": "007439368137", "us-west-1": "710691900526", "us-west-2": "301217895009", "eu-west-1": "802834080501", "eu-west-2": "205493899709", "eu-west-3": "254080097072", "eu-north-1": "601324751636", "eu-south-1": "966458181534", "eu-central-1": "746233611703", "ap-east-1": "110948597952", "ap-south-1": "763008648453", "ap-northeast-1": "941853720454", "ap-northeast-2": "151534178276", "ap-southeast-1": "324986816169", "ap-southeast-2": "355873309152", "cn-northwest-1": "474822919863", "cn-north-1": "472730292857", "sa-east-1": "756306329178", "ca-central-1": "464438896020", "me-south-1": "836785723513", "af-south-1": "774647643957",
}
region = boto3.Session().region_name
if region not in account_id_map.keys(): raise ("UNSUPPORTED REGION")
base = "amazonaws.com.cn" if region.startswith("cn-") else "amazonaws.com"
triton_image_uri = "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.03-py3".format( account_id=account_id_map[region], region=region, base=base
)

לאחר מכן, אנו יוצרים את המודל ב- SageMaker. בתוך ה create_model בקשה, אנו מתארים את המיכל לשימוש ואת המיקום של חפצי מודל, ואנחנו מציינים באמצעות ה- Mode פרמטר שמדובר בריבוי מודל.

container = { "Image": triton_image_uri, "ModelDataUrl": models_s3_location, "Mode": "MultiModel",
} create_model_response = sm_client.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

כדי לארח את ההרכבים שלנו, אנו יוצרים תצורת נקודת קצה עם create_endpoint_config קריאת API, ולאחר מכן צור נקודת קצה עם ה- create_endpoint ממשק API. לאחר מכן, SageMaker פורס את כל הקונטיינרים שהגדרת עבור המודל בסביבת האירוח.

create_endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": instance_type, "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
) create_endpoint_response = sm_client.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

למרות שבדוגמה זו אנו מגדירים מופע יחיד לארח את המודל שלנו, MMEs של SageMaker תומכים באופן מלא בהגדרת מדיניות קנה מידה אוטומטי. למידע נוסף על תכונה זו, ראה הפעל מספר מודלים של למידה עמוקה ב-GPU עם נקודות קצה מרובי דגמים של Amazon SageMaker.

צור עומסי בקשות והפעל את ה-MME עבור כל דגם

לאחר פריסת ה-MME בזמן אמת שלנו, הגיע הזמן להפעיל את נקודת הקצה שלנו עם כל אחד מהרכבי הדגמים שבהם השתמשנו.

ראשית, אנו יוצרים מטען עבור אנסמבל DALI-Inception. אנו משתמשים ב- shiba_inu_dog.jpg תמונה ממערך הנתונים הציבורי של SageMaker של תמונות חיות מחמד. אנו טוענים את התמונה כמערך מקודד של בתים לשימוש ב-DALI backend (למידע נוסף, ראה דוגמאות למפענח תמונה).

sample_img_fname = "shiba_inu_dog.jpg" import numpy as np s3_client = boto3.client("s3")
s3_client.download_file( "sagemaker-sample-files", "datasets/image/pets/shiba_inu_dog.jpg", sample_img_fname
) def load_image(img_path): """ Loads image as an encoded array of bytes. This is a typical approach you want to use in DALI backend """ with open(img_path, "rb") as f: img = f.read() return np.array(list(img)).astype(np.uint8) rv = load_image(sample_img_fname)
print(f"Shape of image {rv.shape}") rv2 = np.expand_dims(rv, 0)
print(f"Shape of expanded image array {rv2.shape}") payload = { "inputs": [ { "name": "INPUT", "shape": rv2.shape, "datatype": "UINT8", "data": rv2.tolist(), } ]
}

כשהתמונה המקודדת והמטען שלנו מוכנים, אנו מפעילים את נקודת הקצה.

שימו לב שאנו מציינים את אנסמבל היעד שלנו להיות model_tf_dali.tar.gz חפץ. הפרמטר TargetModel הוא מה שמבדיל MMEs מנקודות קצה של מודל יחיד ומאפשר לנו להפנות את הבקשה למודל הנכון.

response = runtime_sm_client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload), TargetModel="model_tf_dali.tar.gz"
)

התגובה כוללת מטא נתונים על הפנייה (כגון שם הדגם והגרסה) ותגובת ההסקה בפועל בחלק הנתונים של אובייקט הפלט. בדוגמה זו, נקבל מערך של 1,001 ערכים, כאשר כל ערך הוא ההסתברות של המחלקה אליה שייכת התמונה (1,000 מחלקות ו-1 נוסף עבור אחרים).
לאחר מכן, אנו מפעילים שוב את ה-MME שלנו, אך הפעם מכוונים לאנסמבל השני. כאן הנתונים הם רק שני משפטי טקסט פשוטים:

text_inputs = ["Sentence 1", "Sentence 2"]

כדי לפשט את התקשורת עם טריטון, פרויקט טריטון מספק כמה ספריות לקוחות. אנו משתמשים בספרייה זו כדי להכין את המטען בבקשה שלנו:

import tritonclient.http as http_client text_inputs = ["Sentence 1", "Sentence 2"]
inputs = []
inputs.append(http_client.InferInput("INPUT0", [len(text_inputs), 1], "BYTES"))
batch_request = [[text_inputs[i]] for i in range(len(text_inputs))]
input0_real = np.array(batch_request, dtype=np.object_)
inputs[0].set_data_from_numpy(input0_real, binary_data=True)
outputs = []
outputs.append(http_client.InferRequestedOutput("finaloutput"))
request_body, header_length = http_client.InferenceServerClient.generate_request_body( inputs, outputs=outputs
)

כעת אנו מוכנים להפעיל את נקודת הקצה - הפעם, מודל היעד הוא ה- model_trt_python.tar.gz מִכלוֹל:

response = runtime_sm_client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/vnd.sagemaker-triton.binary+json;json-header-size={}".format( header_length ), Body=request_body, TargetModel="model_trt_python.tar.gz"
)

התגובה היא הטמעות המשפט שניתן להשתמש בהן במגוון יישומי עיבוד שפה טבעית (NLP).

לנקות את

לבסוף, אנו מנקים ומוחקים את נקודת הקצה, תצורת נקודת הקצה והמודל:

sm_client.delete_endpoint(EndpointName=endpoint_name)
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
sm_client.delete_model(ModelName=sm_model_name)

סיכום

בפוסט זה, הראינו כיצד להגדיר, לפרוס ולהפעיל MME של SageMaker עם הרכבי Triton במופע מואץ של GPU. אירחנו שני הרכבים בסביבת מסקנות אחת בזמן אמת, מה שהפחית את העלות שלנו ב-50% (עבור מופע g4dn.4xlarge, שמייצג יותר מ-13,000 דולר בחיסכון שנתי). למרות שדוגמה זו השתמשה רק בשני צינורות, MMEs של SageMaker יכולים לתמוך באלפי הרכבי דגמים, מה שהופך אותו למנגנון חיסכון בעלויות יוצא דופן. יתר על כן, אתה יכול להשתמש ביכולת הדינמית של SageMaker MMEs לטעון (ולפרוק) מודלים כדי למזער את התקורה התפעולית של ניהול פריסות מודלים בייצור.

על המחברים

סאוראב טריקאנדה הוא מנהל מוצר בכיר עבור Amazon SageMaker Inference. הוא נלהב לעבוד עם לקוחות ומוטיבציה היא המטרה של דמוקרטיזציה של למידת מכונה. הוא מתמקד באתגרי ליבה הקשורים לפריסת יישומי ML מורכבים, מודלים של ML מרובי דיירים, אופטימיזציות עלויות והפיכת פריסת מודלים של למידה עמוקה לנגישה יותר. בזמנו הפנוי, סאוראב נהנה לטייל, ללמוד על טכנולוגיות חדשניות, לעקוב אחר TechCrunch ולבלות עם משפחתו.

ניקיל קולקרני היא מפתחת תוכנה עם AWS Machine Learning, המתמקדת בהפיכת עומסי עבודה של למידת מכונה לביצועים יותר בענן, והיא שותפה ליצירה של AWS Deep Learning Containers להדרכה והסקה. הוא נלהב ממערכות למידה עמוקות מבוזרות. מחוץ לעבודה הוא נהנה לקרוא ספרים, להתעסק בגיטרה ולהכין פיצה.

אורי רוזנברג הוא המנהל הטכני מומחה AI ו-ML לאירופה, המזרח התיכון ואפריקה. בהתבסס מישראל, אורי פועל להעצמת לקוחות ארגוניים לתכנן, לבנות ולהפעיל עומסי עבודה של ML בקנה מידה. בזמנו הפנוי, הוא נהנה לרכוב על אופניים, לרכוב על תרמילאים ולהתפשט.

אליוט טריאנה איזאזה הוא מנהל קשרי מפתחים בצוות NVIDIA-AWS. הוא מחבר בין מובילי מוצר, מפתחים ומדענים של אמזון ו-AWS עם טכנולוגים ומובילי מוצר של NVIDIA כדי להאיץ את עומסי העבודה של אמזון ML/DL, מוצרי EC2 ושירותי AI של AWS. בנוסף, אליוט הוא רוכב הרים נלהב, גולש סקי ושחקן פוקר.

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. רכב / רכבים חשמליים, פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
BlockOffsets. מודרניזציה של בעלות על קיזוז סביבתי. גישה כאן.
מקור: https://aws.amazon.com/blogs/machine-learning/deploy-thousands-of-model-ensembles-with-amazon-sagemaker-multi-model-endpoints-on-gpu-to-minimize-your-hosting-costs/

בול זמן: אוגוסט

בול זמן: אפריל 24, 2024

הועלה מחדש על ידי אפלטון

ByteDance חוסך עד 60% בעלויות מסקנות תוך הפחתת זמן השהייה והגדלת התפוקה באמצעות AWS Inferentia

צור ניתוח נגדי של תגובת התירס לחנקן עם פתרונות Amazon SageMaker JumpStart

הגדר את Amazon SageMaker Studio עם Jupyter Lab 3 באמצעות AWS CDK

התנסו ב-Amazon SageMaker Studio החדש והמשופר | שירותי האינטרנט של אמזון

המצאה מחדש של חווית הנתונים: השתמש בבינה מלאכותית גנרטיבית ובארכיטקטורת נתונים מודרנית כדי לפתוח תובנות | שירותי האינטרנט של אמזון

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן