מארח דגמי ML באמזון SageMaker באמצעות Triton: דגמי TensorRT

הועלה מחדש על ידי אפלטון

עוקב: 0

לפעמים זה יכול להיות מאוד מועיל להשתמש בכלים כגון מהדרים שיכולים לשנות ולהדר את המודלים שלך לביצועי הסקה מיטביים. בפוסט זה, אנו חוקרים את TensorRT וכיצד להשתמש בו אמזון SageMaker מסקנות באמצעות NVIDIA Triton Inference Server. אנו חוקרים כיצד TensorRT עובד וכיצד לארח ולייעל מודלים אלה לביצועים ויעילות עלות ב- SageMaker. SageMaker מספקת נקודות קצה של מודל יחיד (עסקים קטנים ובינוניים), המאפשרים לך לפרוס מודל ML יחיד, או נקודות קצה מרובות-מודלים (MMEs), המאפשרים לך לציין מספר דגמים לארח מאחורי נקודת קצה לוגית לניצול גבוה יותר של משאבים.

כדי לשרת דגמים, Triton תומך ב-backends שונים כמנועים לתמיכה בהפעלה והגשה של דגמי ML שונים להסקת מסקנות. עבור כל פריסה של Triton, חיוני לדעת כיצד התנהגות הקצה האחורי משפיעה על עומסי העבודה שלך ולמה לצפות כדי שתוכל להצליח. בפוסט זה, אנו עוזרים לך להבין את TensorRT אחורי שנתמך על ידי Triton ב- SageMaker כך שתוכל לקבל החלטה מושכלת עבור עומסי העבודה שלך ולקבל תוצאות נהדרות.

צלול עמוק לתוך הקצה האחורי של TensorRT

TensorRT מאפשר לך לייעל מסקנות באמצעות טכניקות כגון קוונטיזציה, היתוך שכבות וטנזור, כוונון ליבה ואחרות במעבדי NVIDIA GPU. על ידי אימוץ והידור מודלים לשימוש ב-TensorRT, אתה יכול לייעל את הביצועים והניצול לעומסי העבודה שלך. במקרים מסוימים, יש פשרות, שאופייניות לטכניקות כמו קוונטיזציה, אך התוצאות יכולות להיות דרמטיות בהטבת הביצועים, בהתייחסות ל-latency ומספר העסקאות שניתן לעבד.

הקצה האחורי של TensorRT משמש להפעלת דגמי TensorRT. TensorRT הוא SDK שפותח על ידי NVIDIA המספק ספריית מסקנות למידה עמוקה בעלת ביצועים גבוהים. זה מותאם עבור NVIDIA GPUs ומספק דרך להאיץ מסקנות למידה עמוקות בסביבות ייצור. TensorRT תומכת במסגרות למידה עמוקות עיקריות וכוללת ביצועים גבוהים של אופטימיזציית הסקת למידה עמוקה וזמן ריצה המספקת השהייה נמוכה ותפוקה גבוהה עבור יישומי AI.

TensorRT מסוגלת להאיץ את ביצועי המודל באמצעות טכניקה הנקראת אופטימיזציה של גרפים כדי לייעל את גרף החישוב שנוצר על ידי מודל למידה עמוקה. זה מייעל את הגרף כדי למזער את טביעת הרגל של הזיכרון על ידי שחרור זיכרון מיותר ושימוש חוזר ביעילות בו. הידור TensorRT ממזג את הפעולות הדלילות בתוך גרף המודל ליצירת ליבה גדולה יותר כדי למנוע את התקורה של השקות ליבה קטנות מרובות. עם כוונון אוטומטי של ליבה, המנוע בוחר את האלגוריתם הטוב ביותר עבור GPU היעד, תוך ניצול מירבי של החומרה. בנוסף, TensorRT משתמשת בזרמי CUDA כדי לאפשר עיבוד מקביל של דגמים, ולשפר עוד יותר את הניצול והביצועים של GPU. לבסוף, באמצעות קוונטיזציה, TensorRT יכולה להשתמש בהאצה בעלת דיוק מעורב של ליבות Tensor, מה שמאפשר למודל לפעול בדיוק FP32, TF32, FP16 ו-INT8 לקבלת ביצועי ההסקה הטובים ביותר. עם זאת, למרות שהדיוק המופחת יכול לשפר בדרך כלל את ביצועי ההשהיה, הוא עשוי לבוא עם חוסר יציבות וירידה ברמת דיוק המודל. בסך הכל, שילוב הטכניקות של TensorRT מביא להסקת הסקה מהירה יותר והשהייה נמוכה יותר בהשוואה למנועי הסקה אחרים.

הקצה האחורי של TensorRT עבור Triton Inference Server נועד לנצל את יכולות ההסקה החזקות של NVIDIA GPUs. כדי להשתמש ב-TensorRT כ-backend עבור Triton Inference Server, עליך ליצור מנוע TensorRT מהמודל המאומן שלך באמצעות TensorRT API. לאחר מכן, מנוע זה נטען לתוך Triton Inference Server ומשמש לביצוע הסקת מסקנות על בקשות נכנסות. להלן השלבים הבסיסיים לשימוש ב-TensorRT כ-backend עבור Triton Inference Server:

המר את הדגם המאומן שלך ל- אונקס פוּרמָט. Triton Inference Server תומך ב-ONNX כפורמט דגם. ONNX הוא תקן לייצוג מודלים של למידה עמוקה, המאפשר העברתם בין מסגרות. אם הדגם שלך עדיין לא בפורמט ONNX, עליך להמיר אותו באמצעות הכלי המתאים למסגרת הספציפית. לדוגמה, ב- PyTorch, ניתן לעשות זאת באמצעות ה torch.onnx.export שִׁיטָה.
ייבא את מודל ה-ONNX אל TensorRT והפק את מנוע TensorRT. עבור TensorRT, ישנן מספר דרכים לבנות TensorRT מדגם ה-ONNX שלך. עבור פוסט זה, אנו משתמשים ב- trtexec כלי CLI. trtexec הוא כלי לניצול מהיר של TensorRT מבלי שתצטרך לפתח אפליקציה משלך. ה trtexec לכלי שלוש מטרות עיקריות:
1. השוואת רשתות על נתוני קלט אקראיים או שסופקו על ידי המשתמש.
2. הפקת מנועים סדרתיים מדגמים.
3. יצירת מטמון תזמון מסודר מהבנאי.
טען את מנוע TensorRT ב-Triton Inference Server. לאחר יצירת מנוע TensorRT, ניתן לטעון אותו לתוך Triton Inference Server על ידי יצירת א תצורת הדגם קוֹבֶץ. תצורת הדגם (config.pbtxt) הקובץ צריך לכלול את הנתיב לקובץ מנוע TensorRT ואת צורות הקלט והפלט של המודל.

כל דגם ב-a מאגר דגמים חייב לכלול תצורת דגם המספקת מידע נדרש ואופציונלי על הדגם. בדרך כלל, תצורה זו מסופקת ב-a config.pbtxt הקובץ שצוין כ ModelConfig protobuf. יש לשים לב למספר נקודות מפתח בקובץ התצורה הזה:

שם – שדה זה מגדיר את שם המודל ועליו להיות ייחודי בתוך מאגר המודלים.
פלטפורמה – שדה זה מגדיר את סוג הדגם: מנוע TensorRT, PyTorch או משהו אחר.
מקסימום_גודל_אצווה - זה מציין את גודל האצווה המרבי שניתן להעביר לדגם זה. אם ממד האצווה של המודל הוא הממד הראשון, ולכל התשומות והפלטים למודל יש ממד אצווה זה, טריטון יכול להשתמש בו באצ'ר דינמי or באצ'ר רצף כדי להשתמש באופן אוטומטי באצווה עם הדגם. במקרה הזה, max_batch_size יש להגדיר לערך גדול או שווה ל-1, המציין את גודל האצווה המקסימלי ש-Triton צריך להשתמש בו עם המודל. עבור דגמים שאינם תומכים באצווה, או שאינם תומכים באצווה בדרכים הספציפיות שתיארנו, max_batch_size חייב להיות מוגדר ל-0.
קלט ופלט - שדות אלה נדרשים מכיוון ש-NVIDIA Triton זקוקה למטא נתונים על הדגם. בעיקרו של דבר, זה דורש את שמות שכבות הקלט והפלט של הרשת שלך ואת הצורה של הכניסות והיציאות האמורות.
instance_group - זה קובע כמה מופעים של מודל זה ייווצרו והאם הם ישתמשו ב-GPU או ב-CPU.
דינאמי_אצווה - אצווה דינמית הוא תכונה של Triton המאפשרת לשלב בקשות הסקה על ידי השרת, כך שאצווה נוצרת באופן דינמי. ה preferred_batch_size מאפיין מציין את גדלי האצווה שעל ה-batcher הדינמי לנסות ליצור. עבור רוב הדגמים, preferred_batch_size אין לציין, כמתואר ב תהליך תצורה מומלץ. יוצא דופן הוא דגמי TensorRT המציינים פרופילי אופטימיזציה מרובים עבור גדלי אצווה שונים. במקרה זה, מכיוון שפרופילי אופטימיזציה מסוימים עשויים להעניק שיפור משמעותי בביצועים בהשוואה לאחרים, ייתכן שיהיה הגיוני להשתמש בהם preferred_batch_size עבור גדלי אצווה הנתמכים על ידי פרופילי אופטימיזציה בעלי ביצועים גבוהים יותר. אתה יכול גם להתייחס לגודל האצווה ששימש בעבר בעת ההפעלה trtexec. אתה יכול גם להגדיר את זמן ההשהיה כדי לאפשר עיכוב של בקשות לזמן מוגבל במתזמן כדי לאפשר לבקשות אחרות להצטרף לאצווה הדינמית.

הקצה האחורי של TensorRT משופר כדי לקבל ביצועים טובים יותר באופן משמעותי. שיפורים כוללים הפחתת מחלוקת בין חוטים, שימוש בזיכרון מוצמד להעברות מהירות יותר בין מעבד ו-GPU, והגדלת חפיפת העתקת המחשוב והזיכרון ב-GPUs. זה גם מפחית את השימוש בזיכרון של דגמי TensorRT במקרים רבים על ידי שיתוף משקלים על פני מקרי מודל מרובים. בסך הכל, הקצה האחורי של TensorRT עבור Triton Inference Server מספק דרך רבת עוצמה וגמישה לשרת מודלים של למידה עמוקה עם הסקת TensorRT אופטימלית. על ידי התאמת אפשרויות התצורה, אתה יכול לייעל את הביצועים והתנהגות השליטה כדי להתאים למקרה השימוש הספציפי שלך.

SageMaker מספקת את Triton באמצעות חברות SME ו-MME

SageMaker מאפשר לך לפרוס שניהם יחיד ו רב דגם נקודות קצה עם Triton Inference Server. Triton תומך באשכול הטרוגני עם GPUs ו-CPUs, מה שעוזר לסטנדרטיזציה של מסקנות בין פלטפורמות ומתרחב באופן דינמי לכל CPU או GPU כדי להתמודד עם עומסי שיא. התרשים הבא ממחיש את ארכיטקטורת Triton Inference Server. בקשות להסיק מגיעות לשרת דרך אחת מהן HTTP / REST או על ידי C API, ולאחר מכן מנותבים למתזמן המתאים לכל דגם. טריטון מיישם אלגוריתמים מרובים של תזמון ואצווה שניתן להגדיר על בסיס דגם אחר דגם. מתזמן של כל דגם מבצע אופציונלי אצווה של בקשות הסקת מסקנות ולאחר מכן מעביר את הבקשות ל- Backend מתאים לסוג הדגם. ה-framework backend מבצע הסקת מסקנות באמצעות התשומות שסופקו בבקשות המצורפות כדי לייצר את הפלטים המבוקשים. לאחר מכן מתעצבים הפלטים ומוחזרים בתגובה. ה מאגר דגמים הוא מאגר מבוסס מערכת קבצים של המודלים שטריטון יהפוך לזמינים להסקת מסקנות.

ארכיטקטורת טריטון

SageMaker דואגת לעיצוב תעבורה לנקודת הקצה של MME ושומרת על עותקי דגם אופטימליים במופעי GPU לביצועי המחיר הטובים ביותר. הוא ממשיך לנתב את התעבורה למופע שבו המודל נטען. אם משאבי המופע מגיעים לקיבולת עקב ניצול גבוה, SageMaker פורק את הדגמים הכי פחות בשימוש מהמיכל כדי לפנות משאבים לטעינת מודלים בשימוש תכוף יותר. SageMaker MMEs מציעים יכולות להרצת מודלים מרובים של למידה עמוקה או ML על ה-GPU, במקביל, עם Triton Inference Server, שהורחב ליישום חוזה MME API. MMEs מאפשרים שיתוף מופעי GPU מאחורי נקודת קצה על פני מספר דגמים, וטעינה ופריקה דינמית של מודלים על סמך התעבורה הנכנסת. בעזרת זה, אתה יכול בקלות להשיג ביצועי מחיר אופטימליים.

כאשר SageMaker MME מקבל בקשת הפצת HTTP עבור דגם מסוים המשתמש TargetModel בבקשה יחד עם המטען, הוא מנתב את התנועה למופע הנכון מאחורי נקודת הקצה שבה נטען מודל היעד. SageMaker דואגת לניהול מודלים מאחורי נקודת הקצה. זה מוריד באופן דינמי דגמים מ שירות אחסון פשוט של אמזון (Amazon S3) לנפח האחסון של המופע אם הדגם המופעל אינו זמין בנפח האחסון של המופע. לאחר מכן, SageMaker טוען את הדגם לזיכרון של מיכל ה-NVIDIA Triton במופע מואץ של GPU ומשרת את בקשת ההסקה. ליבת ה-GPU משותפת לכל הדגמים במופע אחד. למידע נוסף על MME של SageMaker ב-GPU, ראה הפעל מספר מודלים של למידה עמוקה ב-GPU עם נקודות קצה מרובי דגמים של Amazon SageMaker.

MMEs של SageMaker יכולים לשנות קנה מידה אופקי באמצעות מדיניות קנה מידה אוטומטי ולספק מופעי מחשוב נוספים של GPU בהתבסס על מדדים שצוינו. בעת הגדרת קבוצות קנה המידה האוטומטי שלך עבור נקודות קצה של SageMaker, ייתכן שתרצה לשקול SageMakerVariantInvocationsPerInstance כקריטריונים העיקריים לקביעת מאפייני קנה המידה של קבוצות קנה המידה האוטומטי שלך. בנוסף, על סמך אם הדגמים שלך פועלים על GPU או CPU, אתה יכול גם לשקול להשתמש CPUUtilization or GPUUtilization כקריטריונים נוספים. עבור נקודות קצה של מודל בודד, מכיוון שהמודלים שנפרסו זהים, זה די פשוט לקבוע מדיניות מתאימה כדי לעמוד ב-SLA שלך. עבור נקודות קצה מרובות, אנו ממליצים לפרוס מודלים דומים מאחורי נקודת קצה נתונה כדי לקבל ביצועים יציבים יותר ניתנים לחיזוי. במקרים של שימוש בהם נעשה שימוש בדגמים בגדלים ודרישות שונות, ייתכן שתרצה להפריד את עומסי העבודה הללו בין מספר נקודות קצה מרובות דגמים או להקדיש זמן מה לכוונון עדין של מדיניות קבוצת קנה המידה האוטומטית שלך כדי להשיג את האיזון הטוב ביותר בין עלות וביצועים.

סקירת פתרונות

עם NVIDIA טריטון תמונת container ב- SageMaker, כעת תוכל להשתמש ב-TensorRT backend של Triton, המאפשר לך לפרוס דגמי TensorRT. ה TensorRT_backend repo מכיל את התיעוד והמקור עבור ה-backend. בסעיפים הבאים, נלווה אותך דרך ה מחברת דוגמה שמדגים כיצד להשתמש ב-NVIDIA Triton Inference Server ב-MME של SageMaker עם תכונת ה-GPU כדי לפרוס מודל BERT לעיבוד שפה טבעית (NLP).

הגדר את הסביבה

אנו מתחילים בהגדרת הסביבה הנדרשת. אנו מתקינים את התלות הנדרשות כדי לארוז את צינור המודלים שלנו ולהפעיל מסקנות באמצעות Triton Inference Server. אנחנו גם מגדירים את AWS זהות וניהול גישה תפקיד (IAM) שנותן ל-SageMaker גישה לחפצי הדגם ול-NVIDIA Triton מרשם מיכל אלסטי של אמזון תמונה (Amazon ECR). אתה יכול להשתמש בדוגמה הבאה לקוד כדי לאחזר את תמונת Triton ECR הבנויה מראש:

import transformers
import boto3, json, sagemaker, time
from sagemaker import get_execution_role
sess = boto3.Session()
sm = sess.client("sagemaker")
sagemaker_session = sagemaker.Session(boto_session=sess)
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
bucket = sagemaker_session.default_bucket()
print(bucket) account_id_map = { "us-east-1": "785573368785", "us-east-2": "007439368137", "us-west-1": "710691900526", "us-west-2": "301217895009", "eu-west-1": "802834080501", "eu-west-2": "205493899709", "eu-west-3": "254080097072", "eu-north-1": "601324751636", "eu-south-1": "966458181534", "eu-central-1": "746233611703", "ap-east-1": "110948597952", "ap-south-1": "763008648453", "ap-northeast-1": "941853720454", "ap-northeast-2": "151534178276", "ap-southeast-1": "324986816169", "ap-southeast-2": "355873309152", "cn-northwest-1": "474822919863", "cn-north-1": "472730292857", "sa-east-1": "756306329178", "ca-central-1": "464438896020", "me-south-1": "836785723513", "af-south-1": "774647643957",
} region = boto3.Session().region_name
if region not in account_id_map.keys(): raise ("UNSUPPORTED REGION") base = "amazonaws.com.cn" if region.startswith("cn-") else "amazonaws.com"
triton_image_uri = "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
)

הוסף שיטות שירות להכנת מטען הבקשה

אנו יוצרים את הפונקציות כדי להפוך את הטקסט לדוגמה שבו אנו משתמשים להסקת מסקנות למטען שניתן לשלוח להסקת מסקנות ל-Triton Inference Server. ה tritonclient החבילה, שהותקנה בהתחלה, מספקת שיטות שירות ליצירת המטען ללא צורך לדעת את פרטי המפרט. אנו משתמשים בשיטות שנוצרו כדי להמיר את בקשת ההסקה שלנו לפורמט בינארי, המספק זמן אחזור נמוך יותר להסקת הסקה. פונקציות אלו משמשות במהלך שלב ההסקה.

הכן את מודל TensorRT

בשלב זה, אנו טוענים את מודל BERT מאומן מראש ולהמיר לייצוג ONNX באמצעות יצואן הלפיד ONNX וה- onnx_exporter.py תַסרִיט. לאחר יצירת מודל ONNX, אנו משתמשים ב- TensorRT trtexec פקודה ליצירת תוכנית המודל שתתארח אצל Triton. זה מתנהל כחלק מה- generate_model.sh סקריפט מהתא הבא. שימו לב שהתא לוקח בערך 30 דקות להשלמתו.

!docker run --gpus=all --rm -it -v `pwd`/workspace:/workspace nvcr.io/nvidia/pytorch:23.02-py3 /bin/bash generate_models.sh

בזמן ההמתנה לסיום הפעלת הפקודה, תוכל לבדוק את הסקריפטים המשמשים בשלב זה. בתוך ה onnx_exporter.py סקריפט, אנו משתמשים ב- torch.onnx.export פונקציה ליצירת מודל ONNX:

 torch.onnx.export( model, dummy_inputs, args.save, export_params=True, opset_version=10, input_names=["token_ids", "attn_mask"], output_names=["output","pooled_output"], dynamic_axes={"token_ids": [0, 1], "attn_mask": [0, 1], "output": [0]}, )

שורת הפקודה בקובץ gener_model.sh יוצרת את תוכנית המודל של TensorRT. למידע נוסף, עיין ב כלי שורת הפקודה trtexec.

trtexec —onnx=model.onnx —saveEngine=model_bs16.plan —minShapes=token_ids:1x128,attn_mask:1x128 —optShapes=token_ids:16x128,attn_mask:16x128 —maxShapes=token_ids:128x128,attn_mask:128x128 —fp16 —verbose —workspace=14000 | tee conversion_bs16_dy.txt

בנה מאגר מודלים של TensorRT NLP BERT

השימוש ב-Triton ב- SageMaker מחייב אותנו להגדיר תחילה א מאגר דגמים תיקייה המכילה את הדגמים שאנו רוצים לשרת. עבור כל דגם, עלינו ליצור ספריית מודל המורכבת מחפץ המודל ולהגדיר את config.pbtxt קובץ כדי לציין את תצורת המודל שבה משתמש Triton כדי לטעון ולהגיש את המודל. למידע נוסף על הגדרות התצורה, עיין ב תצורת דגמים. מבנה מאגר המודלים עבור מודל BERT הוא כדלקמן:

מבנה תיקיות לדגם

שימו לב שלטריטון יש דרישות ספציפיות לפריסת מאגר המודלים. בתוך ספריית מאגר המודלים ברמה העליונה, לכל דגם יש ספריית משנה משלו המכילה את המידע עבור המודל המתאים. לכל ספריית מודל בטריטון חייבת להיות לפחות ספריית משנה מספרית אחת המייצגת גרסה של המודל. כאן, תיקייה 1 מייצגת את גרסה 1 של מודל BERT. כל מודל מנוהל על ידי קצה אחורי מסוים, כך שבתוך כל ספריית משנה של גרסה חייבים להיות חפצי המודל הנדרשים על ידי קצה העורפי הזה. כאן, אנו משתמשים בקצה האחורי של TensorRT, הדורש את קובץ התוכנית TensorRT המשמש להגשה (לדוגמה זו, model.plan). אם היינו משתמשים ב-PyTorch backend, א model.pt יידרש קובץ. לפרטים נוספים על מוסכמות שמות עבור קובצי מודל, עיין ב קבצי דגם.

כל דגם TensorRT חייב לספק א config.pbtxt קובץ המתאר את תצורת הדגם. על מנת להשתמש ב-backend זה, עליך להגדיר את backend התחום של הדגם שלך config.pbtxt הקובץ אל tensorrt_plan. קטע הקוד הבא מציג דוגמה כיצד להגדיר את קובץ התצורה עבור מודל BERT המוגש דרך ה-TensorRT האחורי של טריטון:

name: "bert"
platform: "tensorrt_plan"
max_batch_size: 128
input [ { name: "token_ids" data_type: TYPE_INT32 dims: [128] }, { name: "attn_mask" data_type: TYPE_INT32 dims: [128] }
]
output [ { name: "output" data_type: TYPE_FP32 dims: [128, 768] }, { name: "pooled_output" data_type: TYPE_FP32 dims: [768] }
]
instance_group { count: 1 kind: KIND_GPU
}
dynamic_batching { preferred_batch_size: 16
}

SageMaker מצפה שקובץ ‎.tar.gz המכיל כל מאגר מודלים של Triton יתארח בנקודת הקצה מרובת הדגמים. כדי לדמות כמה דגמים דומים שמתארחים, אולי תחשוב שכל מה שצריך זה לטרנס את מאגר המודלים שכבר בנינו, ואז להעתיק אותו עם שמות קבצים שונים. עם זאת, טריטון דורש שמות דגמים ייחודיים. לכן, תחילה אנו מעתיקים את ה-Repo של המודל N פעמים, ומשנים את שמות ספריית המודלים והמתאימים להם config.pbtxt קבצים. אתה יכול לשנות את מספר ה-N כדי לקבל יותר עותקים של המודל שניתן לטעון באופן דינמי לנקודת הקצה המארח כדי לדמות את פעולת הטעינה/פריקה של המודל המנוהלת על ידי SageMaker. ראה את הקוד הבא:

import os
import shutil N = 5
prefix = 'bert-mme'
model_repo_base = 'model_repo' # Get model names from model_repo_0
model_names = [name for name in os.listdir(f'{model_repo_base}_0') if os.path.isdir(f'{model_repo_base}_0/{name}')] for i in range(N): # Make copy of previous model repo, increment # id shutil.copytree(f'{model_repo_base}_0', f'{model_repo_base}_{i+1}') time.sleep(5) for name in model_names: model_dirs_path = f'{model_repo_base}_{i+1}/{name}' # Open each model's config file to increment model # id there fin = open(f'{model_dirs_path}/config.pbtxt', "rt") data = fin.read() data = data.replace(name, name[:-1] + str(i+1)) fin.close() fin = open(f'{model_dirs_path}/config.pbtxt', "wt") fin.write(data) fin.close() # Change model directory name to match new config os.rename(model_dirs_path,model_dirs_path[:-1]+str(i+1)) time.sleep(2) if i == 0: tar_file_name = f'bert-{i}.tar.gz' model_repo_target = f'{model_repo_base}_{i}/' !tar -C $model_repo_target -czf $tar_file_name . sagemaker_session.upload_data(path=tar_file_name, key_prefix=prefix) tar_file_name = f'bert-{i+1}.tar.gz' model_repo_target = f'{model_repo_base}_{i+1}/' !tar -C $model_repo_target -czf $tar_file_name . sagemaker_session.upload_data(path=tar_file_name, key_prefix=prefix) !sudo rm -r "$tar_file_name" "$model_repo_target"

צור נקודת קצה של SageMaker

כעת, לאחר שהעלינו את חפצי הדגם לאמזון S3, אנו יכולים ליצור את אובייקט המודל של SageMaker, תצורת נקודת הקצה ונקודת הקצה.

ראשית, עלינו להגדיר את מיכל ההגשה. בהגדרת המכולה, הגדר את ModelDataUrl כדי לציין את ספריית S3 שמכילה את כל הדגמים שבהם תשתמש נקודת הקצה של SageMaker מרובת מודלים כדי לטעון ולהגיש תחזיות. מַעֲרֶכֶת Mode ל MultiModel כדי לציין ש- SageMaker תיצור את נקודת הקצה עם מפרטי מיכל MME. ראה את הקוד הבא:

container = { "Image": triton_image_uri, "ModelDataUrl": model_data_uri, "Mode": "MultiModel",
}

לאחר מכן אנו יוצרים את אובייקט המודל של SageMaker באמצעות ה create_model boto3 API על ידי ציון ה- ModelName והגדרת מיכל:

create_model_response = sm.create_model(
ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

אנו משתמשים במודל זה כדי ליצור תצורת נקודת הקצה שבו נוכל לציין את סוג ומספר המופעים שאנו רוצים בנקודת הקצה. כאן אנו פורסים למופע g5.xlarge NVIDIA GPU:

create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g5.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

עם תצורת נקודת קצה זו, אנו יוצרים נקודת קצה חדשה של SageMaker ומחכים לסיום הפריסה. הסטטוס ישתנה ל InService כאשר הפריסה מוצלחת.

endpoint_name = "triton-nlp-bert-trt-mme-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint(
EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

הפעל את הדגם שלך שמתארח בנקודת הקצה של SageMaker

כאשר נקודת הקצה פועלת, אנו יכולים להשתמש בכמה נתונים גולמיים לדוגמה כדי לבצע הסקה באמצעות JSON או binary+JSON כפורמט המטען. עבור פורמט בקשת ההסקה, Triton משתמש בתקן הקהילה KFServing פרוטוקולי מסקנות. אנו יכולים לשלוח את בקשת ההסקה לנקודת הקצה מרובת המודלים באמצעות ה- invoke_enpoint ממשק API. אנו מציינים את TargetModel בקריאת ההזמנה והעבירו את המטען עבור כל סוג דגם. כאן אנו מפעילים את נקודת הקצה בלולאת for כדי לבקש את נקודת הקצה אליה לטעון או לפרוק דגמים באופן דינמי על סמך הבקשות:

text_triton = "Triton Inference Server provides a cloud and edge inferencing solution optimized for both CPUs and GPUs."
input_ids, attention_mask = tokenize_text(text_triton) payload = { "inputs": [ {"name": "token_ids", "shape": [1, 128], "datatype": "INT32", "data": input_ids}, {"name": "attn_mask", "shape": [1, 128], "datatype": "INT32", "data": attention_mask}, ]
} for i in range(N): response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload), TargetModel=f"bert-{i}.tar.gz", ) print(json.loads(response["Body"].read().decode("utf8")))

אתה יכול לעקוב אחר מצב הטעינה והפריקה של הדגם באמצעות אמזון CloudWatch מדדים ויומנים. נקודות קצה מרובות של SageMaker מספקות מדדים ברמת המופע לניטור; לפרטים נוספים, עיין ב עקוב אחר אמזון SageMaker עם אמזון CloudWatch. ה LoadedModelCount מדד מציג את מספר הדגמים הטעונים במכולות. ה ModelCacheHit המדד מציג את מספר הפניות למודל שכבר נטענו על המכולה כדי לעזור לך לקבל תובנות ברמת ההזמנה של המודל. כדי לבדוק אם מודלים נפרקים מהזיכרון, אתה יכול לחפש את ערכי היומן שנפרקו המוצלחים ביומני CloudWatch של נקודת הקצה.

את המחברת ניתן למצוא ב מאגר GitHub.

שיטות עבודה מומלצות

לפני תחילת כל מאמץ אופטימיזציה עם TensorRT, חיוני לקבוע מה יש למדוד. ללא מדידות, אי אפשר להתקדם מהימנה או למדוד אם הושגה הצלחה. הנה כמה שיטות עבודה מומלצות שכדאי לקחת בחשבון בעת השימוש ב-TensorRT backend עבור Triton Inference Server:

בצע אופטימיזציה של מודל TensorRT שלך - לפני פריסת מודל על Triton עם ה-TensorRT backend, הקפד לבצע אופטימיזציה של המודל בעקבות TensorRT שיטות עבודה מומלצות להנחות. זה יעזור לך להשיג ביצועים טובים יותר על ידי הפחתת זמן ההסקה וצריכת הזיכרון.
השתמש ב-TensorRT במקום ב-Triton backends אחרים במידת האפשר - TensorRT נועד לייעל מודלים של למידה עמוקה לפריסה על NVIDIA GPUs, כך שהשימוש בו יכול לשפר משמעותית את ביצועי ההסקות בהשוואה לשימוש ב-Triton backends נתמכים אחרים.
השתמש בדיוק הנכון - TensorRT תומך במספר דיוקים (FP32, FP16, INT8), ולבחירת הדיוק המתאים לדגם שלך יכולה להיות השפעה משמעותית על הביצועים. שקול להשתמש ברמת דיוק נמוכה יותר במידת האפשר.
השתמש בגדלי אצווה המתאימים לחומרה שלך - הקפד לבחור גדלי אצווה המתאימים לזיכרון וליכולות המחשוב של ה-GPU שלך. שימוש בגדלי אצווה גדולים מדי או קטנים מדי עלול להשפיע לרעה על הביצועים.

סיכום

בפוסט הזה, צללנו עמוק לתוך הקצה האחורי של TensorRT בו תומך Triton Inference Server ב- SageMaker. הקצה האחורי הזה מספק גם האצת מעבד ו-GPU של דגמי ה-TensorRT שלך. ישנן אפשרויות רבות לשקול כדי לקבל את הביצועים הטובים ביותר להסקת מסקנות, כגון גדלי אצווה, פורמטים של קלט נתונים וגורמים אחרים שניתן לכוון כדי לענות על הצרכים שלך. SageMaker מאפשר לך לנצל את היכולת הזו באמצעות נקודות קצה של דגם בודד לביצועים מובטחים ונקודות קצה מרובות דגמים כדי לקבל איזון טוב יותר בין ביצועים וחיסכון בעלויות. כדי להתחיל עם תמיכת MME עבור GPU, ראה אלגוריתמים, מסגרות ומופעים נתמכים.

אנו מזמינים אותך לנסות את מיכלי Triton Inference Server ב- SageMaker, ולשתף את המשוב והשאלות שלך בתגובות.

על הכותבים

מלאני לי הוא TAM מומחה בכיר בינה מלאכותית/ML ב-AWS שבסיסה בסידני, אוסטרליה. היא עוזרת ללקוחות ארגוניים לבנות פתרונות הממנפים את כלי ה-AI/ML המתקדמים ביותר ב-AWS ומספקת הנחיות לגבי ארכיטקטורה והטמעה של פתרונות למידת מכונה עם שיטות עבודה מומלצות. בזמנה הפנוי היא אוהבת לחקור את הטבע בחוץ ולבלות עם משפחה וחברים.

פארק ג'יימס הוא אדריכל פתרונות בשירותי האינטרנט של אמזון. הוא עובד עם אמזון כדי לתכנן, לבנות ולפרוס פתרונות טכנולוגיים ב-AWS, ויש לו עניין מיוחד בבינה מלאכותית ולמידת מכונה. בזמנו הפנוי הוא נהנה לחפש תרבויות חדשות, חוויות חדשות ולהישאר מעודכן בטרנדים הטכנולוגיים העדכניים ביותר.

ג'יהונג ליו הוא ארכיטקט פתרונות בצוות ספק שירותי הענן ב-NVIDIA. הוא מסייע ללקוחות באימוץ פתרונות למידת מכונה ו-AI הממנפים את המחשוב המואץ של NVIDIA כדי להתמודד עם אתגרי ההכשרה וההסקות שלהם. בשעות הפנאי שלו הוא נהנה מאוריגמי, פרויקטים של עשה זאת בעצמך ולשחק כדורסל.

קשיטיס גופטה הוא אדריכל פתרונות ב-NVIDIA. הוא נהנה לחנך את לקוחות הענן על טכנולוגיות GPU AI שיש ל-NVIDIA להציע ולסייע להם בהאצת יישומי למידת המכונה ולמידה עמוקה שלהם. מחוץ לעבודה, הוא נהנה לרוץ, לטייל ולצפות בחיות בר.

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoAiStream. Web3 Data Intelligence. הידע מוגבר. גישה כאן.
הטבעת העתיד עם אדריאן אשלי. גישה כאן.
קנה ומכירה של מניות בחברות PRE-IPO עם PREIPO®. גישה כאן.
מקור: https://aws.amazon.com/blogs/machine-learning/host-ml-models-on-amazon-sagemaker-using-triton-tensorrt-models/

בול זמן: מאי 8, 2023

בול זמן: מאי 31, 2023

הועלה מחדש על ידי אפלטון

הכן נתוני סדרות זמן עם Amazon SageMaker Data Wrangler

עיצוב ערים עמידות ב-Arup באמצעות יכולות גיאו-מרחביות של Amazon SageMaker | שירותי האינטרנט של אמזון

צור אודיו לתוכן במספר שפות עם אותה דמות קולית TTS באמזון פולי

שלב פלטפורמות SaaS עם Amazon SageMaker כדי לאפשר יישומים המופעלים על ידי ML | שירותי האינטרנט של אמזון

AWS Inferentia ו-AWS Trainium מספקים את העלות הנמוכה ביותר לפריסת דגמי Llama 3 באמזון SageMaker JumpStart | שירותי האינטרנט של אמזון

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן