השג ביצועים גבוהים עם העלות הנמוכה ביותר להסקת AI יצירתית באמצעות AWS Inferentia2 ו-AWS Trainium ב-Amazon SageMaker

הועלה מחדש על ידי אפלטון

עוקב: 0

עולם הבינה המלאכותית (AI) ולמידת מכונה (ML) היה עד לשינוי פרדיגמה עם עלייתם של מודלים AI גנרטיביים שיכולים ליצור טקסט, תמונות, קוד ואודיו דמויי אדם. בהשוואה לדגמי ML קלאסיים, דגמי AI גנרטיביים גדולים ומורכבים משמעותית. עם זאת, המורכבות הגוברת שלהם מגיעה גם עם עלויות גבוהות להסקת מסקנות וצורך הולך וגובר במשאבי מחשוב רבי עוצמה. העלות הגבוהה של מסקנות עבור מודלים של AI גנרטיביים יכולה להוות חסם כניסה עבור עסקים וחוקרים בעלי משאבים מוגבלים, מה שמחייב את הצורך בפתרונות יעילים וחסכוניים יותר. יתר על כן, רוב מקרי השימוש ב-AI גנרטיביים כוללים אינטראקציה אנושית או תרחישים בעולם האמיתי, המצריכים חומרה שיכולה לספק ביצועים עם אחזור נמוך. AWS חידשה עם שבבים ייעודיים כדי לענות על הצורך הגובר בחומרת מחשוב חזקה, יעילה וחסכונית.

היום, אנו נרגשים להכריז על כך אמזון SageMaker תומך AWS Inferentia2 (ml.inf2) ו AWS Trainium (ml.trn1) מופעים מבוססי SageMaker לארח מודלים של בינה מלאכותית להסקה בזמן אמת וא-סינכרונית. מופעי ml.inf2 זמינים לפריסת מודל ב- SageMaker במזרח ארה"ב (אוהיו) ומופעי ml.trn1 במזרח ארה"ב (מדינת וירג'יניה).

אתה יכול להשתמש במופעים אלה ב- SageMaker כדי להשיג ביצועים גבוהים בעלות נמוכה עבור דגמי AI גנרטיביים, כולל מודלים של שפה גדולה (LLMs), דיפוזיה יציבה ושנאי ראייה. בנוסף, אתה יכול להשתמש אמזון SageMaker Inference Recommend כדי לעזור לך להריץ בדיקות עומס ולהעריך את היתרונות של מחיר-ביצועים של פריסת המודל שלך במופעים אלה.

אתה יכול להשתמש במופעי ml.inf2 ו-ml.trn1 כדי להפעיל את יישומי ה-ML שלך ב- SageMaker עבור סיכום טקסט, הפקת קוד, יצירת וידאו ותמונה, זיהוי דיבור, התאמה אישית, זיהוי הונאה ועוד. אתה יכול להתחיל בקלות על ידי ציון מופעי ml.trn1 או ml.inf2 בעת הגדרת נקודת הקצה של SageMaker. אתה יכול להשתמש ב-ml.trn1 ו-ml.inf2 תואמי AWS Deep Learning Containers (DLCs) עבור PyTorch, TensorFlow, Hugging Face והסקת מודלים גדולים (LMI) כדי להתחיל בקלות. לרשימה המלאה עם גרסאות, ראה תמונות מכולות זמינות למידה עמוקה.

בפוסט זה, אנו מראים את התהליך של פריסת מודל שפה גדול ב-AWS Inferentia2 באמצעות SageMaker, ללא צורך בקידוד נוסף, על ידי ניצול מיכל ה-LMI. אנו משתמשים ב- GPT4ALL-J, דגם GPT-J 7B מכוון עדין המספק אינטראקציה בסגנון צ'טבוט.

סקירה כללית של מופעי ml.trn1 ו-ml.inf2

מופעי ml.trn1 מופעלים על ידי מאיץ Trainium, אשר נבנה בעיקר לאימון למידה עמוקה בעלת ביצועים גבוהים של דגמי AI גנרטיביים, כולל LLMs. עם זאת, מופעים אלה תומכים גם בעומסי עבודה של הסקת עבודה עבור מודלים שהם אפילו גדולים יותר ממה שמתאים ל-Inf2. גודל המופע הגדול ביותר, trn1.32xlarge מופעים, כולל 16 מאיצי טרייניום עם זיכרון מאיץ של 512 ג'יגה-בייט במופע יחיד המספק עד 3.4 petaflops של כוח מחשוב FP16/BF16. 16 מאיצי Trainium מחוברים ל-NeuronLinkv2 במהירות גבוהה במיוחד לתקשורת קולקטיבית יעילה.

מופעי ml.Inf2 מופעלים על ידי מאיץ AWS Inferentia2, מאיץ ייעודי להסקת מסקנות. הוא מספק ביצועי מחשוב גבוהים פי שלושה, תפוקה גבוהה פי ארבעה, ועד פי 10 זמן אחזור נמוך יותר בהשוואה ל-AWS Inferentia מהדור הראשון. גודל המופע הגדול ביותר, Inf2.48xlarge, כולל 12 מאיצי AWS Inferentia2 עם זיכרון מאיץ של 384 ג'יגה-בייט במופע בודד עבור כוח חישוב משולב של 2.3 petaflops עבור BF16/FP16. זה מאפשר לך לפרוס עד מודל של 175 מיליארד פרמטרים במופע בודד. Inf2 הוא המופע היחיד המותאם להסקת מסקנות שמציע את החיבור הזה, תכונה שזמינה רק במקרי אימון יקרים יותר. עבור דגמים גדולים במיוחד שאינם מתאימים למאיץ אחד, הנתונים זורמים ישירות בין מאיצים עם NeuronLink, ועוקפים לחלוטין את המעבד. עם NeuronLink, Inf2 תומך בהסקה מבוזרת מהירה יותר ומשפר את התפוקה והשהייה.

גם למאיצי AWS Inferentia2 וגם ל-Trainium יש שניים NeuronCores-v2, ערימות זיכרון HBM בנפח 32 גיגה-בייט ומנועי מחשוב קולקטיבי ייעודיים, אשר מייעלים אוטומטית את זמן הריצה על ידי חישוב ותקשורת חופפים בעת ביצוע הסקת מסקנות מרובה מאיצים. לפרטים נוספים על הארכיטקטורה, עיין ב מכשירי Trainium ו-Inferentia.

התרשים הבא מציג ארכיטקטורה לדוגמה באמצעות AWS Inferentia2.

AWS נוירון SDK

AWS נוירון הוא ה-SDK המשמש להפעלת עומסי עבודה של למידה עמוקה במופעים מבוססי AWS Inferentia ו-Trainium. AWS Neuron כולל מהדר למידה עמוקה, זמן ריצה וכלים המשולבים באופן טבעי ב- TensorFlow ו- PyTorch. עם Neuron, אתה יכול לפתח, ליצור פרופיל ולפרוס עומסי עבודה ML בעלי ביצועים גבוהים ב-ml.trn1 ו-ml.inf2.

השמיים מהדר נוירונים מקבל דגמי ML בפורמטים שונים (TensorFlow, PyTorch, XLA HLO) ומייעל אותם לרוץ על מכשירי Neuron. מהדר Neuron מופעל במסגרת ML, כאשר מודלים של ML נשלחים אל המהדר על ידי תוסף Neuron framework. חפץ המהדר שהתקבל נקרא קובץ NEFF (פורמט קובץ Neuron Executable) שבתורו נטען על ידי זמן הריצה של Neuron למכשיר ה-Neuron.

השמיים זמן ריצה של נוירונים מורכב מספריות מנהלי התקנים של ליבה ו-C/C++, המספקות ממשקי API לגישה למכשירי AWS Inferentia ו-Trainium Neuron. התוספים Neuron ML frameworks עבור TensorFlow ו- PyTorch משתמשים בזמן הריצה של Neuron כדי לטעון ולהפעיל מודלים על NeuronCores. זמן הריצה של Neuron טוען מודלים של למידה עמוקה (NEFF) למכשירי Neuron והוא מותאם לתפוקה גבוהה והשהייה נמוכה.

מארח דגמי NLP באמצעות מופעי SageMaker ml.inf2

לפני שאנחנו צוללים עמוק לתוך הגשת LLMs עם שנאים-נוירון, שהיא ספריית קוד פתוח לריסוק מטריצות המשקל הגדולות של המודל על מספר NeuronCores, הבה נעבור בקצרה על זרימת הפריסה האופיינית למודל שיכול להתאים ל- NeuronCore הבודדת.

בדקו רשימה של דגמים נתמכים כדי להבטיח שהמודל נתמך ב-AWS Inferentia2. לאחר מכן, המודל צריך להיות מורכב מראש על ידי מהדר Neuron. אתה יכול להשתמש במחברת SageMaker או ב- ענן מחשוב אלסטי של אמזון (Amazon EC2) מופע להידור המודל. אתה יכול להשתמש ב-SageMaker Python SDK כדי לפרוס מודלים באמצעות מסגרות למידה עמוקה פופולריות כגון PyTorch, כפי שמוצג בקוד הבא. אתה יכול לפרוס את המודל שלך לשירותי אירוח של SageMaker ולקבל נקודת קצה שניתן להשתמש בה להסקת מסקנות. נקודות קצה אלו מנוהלות באופן מלא ותומכות בקנה מידה אוטומטי.

from sagemaker.pytorch.model import PyTorchModel pytorch_model = PyTorchModel( model_data=s3_model_uri, role=role, source_dir="code", entry_point="inference.py", image_uri=ecr_image
) predictor = pytorch_model.deploy( initial_instance_count=1, instance_type="ml.inf2.xlarge"
)

עיין זרימת מפתחים לפרטים נוספים על זרימות פיתוח טיפוסיות של Inf2 ב- SageMaker עם סקריפטים לדוגמה.

ארח LLMs באמצעות SageMaker ml.inf2 מופעים

מודלים של שפה גדולים עם מיליארדי פרמטרים הם לרוב גדולים מכדי להתאים למאיץ יחיד. זה מחייב שימוש בטכניקות מקבילות מודל לאירוח LLMs על פני מספר מאיצים. דרישה חיונית נוספת לאירוח LLMs היא הטמעה של פתרון מתן מודלים בעל ביצועים גבוהים. פתרון זה אמור לטעון ביעילות את המודל, לנהל את המחיצות ולשרת בצורה חלקה בקשות דרך נקודות קצה HTTP.

SageMaker כולל מיכלים מיוחדים ללמידה עמוקה (DLCs), ספריות וכלים עבור מקביליות מודלים והסקת מודלים גדולים. למשאבים לתחילת העבודה עם LMI ב- SageMaker, עיין ב מקביליות מודל והסקת מודל גדולה. SageMaker מתחזקת DLCs עם ספריות קוד פתוח פופולריות לאירוח דגמים גדולים כגון GPT, T5, OPT, BLOOM ו-Stable Diffusion על תשתית AWS. DLCs מיוחדים אלה מכונים מכולות SageMaker LMI.

מכולות SageMaker LMI השתמש ב-DJLServing, שרת מודל המשולב עם ספריית ה-transformers-neuronx כדי לתמוך בהקבלה טנזורית על פני NeuronCores. למידע נוסף על אופן פעולת DJLServing, עיין ב פרוס דגמים גדולים ב-Amazon SageMaker באמצעות מסקנות מקבילות של מודל DJLServing ו-DeepSpeed. שרת מודל DJL וספריית Transformers-neuronx משמשים כרכיבי ליבה של המיכל, הכולל גם את Neuron SDK. הגדרה זו מקלה על טעינת מודלים על מאיצי AWS Inferentia2, מקבילה את המודל על פני NeuronCores מרובות ומאפשרת הגשה באמצעות נקודות קצה HTTP.

מיכל ה-LMI תומך בטעינת דגמים מ-an שירות אחסון פשוט של אמזון (Amazon S3) דלי או Hugging Face Hub. סקריפט המטפל המוגדר כברירת מחדל טוען את המודל, קומפילציה וממיר אותו לפורמט מותאם ל- Neuron, וטוען אותו. כדי להשתמש במאגר LMI לארח LLMs, יש לנו שתי אפשרויות:

ללא קוד (מועדף) - זוהי הדרך הקלה ביותר לפרוס LLM באמצעות מיכל LMI. בשיטה זו, אתה יכול להשתמש בשיטה המסופקת מטפל ברירת מחדל ופשוט להעביר את שם הדגם ואת הפרמטרים הנדרשים ב serving.properties קובץ כדי לטעון ולארח את הדגם. כדי להשתמש במטפל ברירת המחדל, אנו מספקים את entryPoint פרמטר כ djl_python.transformers-neuronx.
תביא תסריט משלך – בגישה זו, יש לך אפשרות ליצור קובץ model.py משלך, המכיל את הקוד הדרוש לטעינת המודל ולהגשתו. קובץ זה משמש כמתווך בין DJLServing ממשקי API וה- transformers-neuronx ממשקי API. כדי להתאים אישית את תהליך טעינת הדגם, אתה יכול לספק serving.properties עם פרמטרים הניתנים להגדרה. לרשימה מקיפה של פרמטרים זמינים הניתנים להגדרה, עיין ב כל אפשרויות התצורה של DJL. הנה דוגמה של א model.py קובץ.

ארכיטקטורת זמן ריצה

השמיים tensor_parallel_degree ערך המאפיין קובע את ההתפלגות של מודולים מקבילים טנזור על פני NeuronCores מרובות. לדוגמה, ל-inf2.24xlarge יש שישה מאיצי AWS Inferentia2. לכל מאיץ AWS Inferentia2 יש שתי NeuronCores. לכל NeuronCore זיכרון ייעודי ברוחב פס גבוה (HBM) של 16 ג'יגה-בייט המאחסן מודולים מקבילים טנזוריים. עם דרגת טנזור מקבילה של 4, ה-LMI יקצה שלושה עותקי דגם של אותו דגם, כל אחד ישתמש בארבעה NeuronCores. כפי שמוצג בתרשים הבא, כאשר מיכל ה-LMI יתחיל, הדגם ייטען ויעקוב ראשון בזיכרון הניתן להתייחסות של ה-CPU. כאשר המעקב הושלם, המודל מחולק על פני NeuronCores בהתבסס על דרגת מקבילית טנזור.

LMI משתמשת ב-DJLServing בתור ערימת הגשה לדגם שלה. לאחר שבדיקת התקינות של המכולה עוברת ב- SageMaker, המכולה מוכנה להגיש את בקשת ההסקה. DJLServing משיק מספר תהליכי Python השווים ל- TOTAL NUMBER OF NEURON CORES/TENSOR_PARALLEL_DEGREE. כל תהליך Python מכיל שרשורים ב-C++ המקבילים ל TENSOR_PARALLEL_DEGREE. כל פתיל C++ מחזיק רסיס אחד של הדגם על NeuronCore אחד.

מתרגלים רבים (תהליך Python) נוטים להפעיל מסקנות ברצף כאשר השרת מופעל עם מספר בקשות עצמאיות. למרות שקל יותר להגדיר, זה בדרך כלל לא השיטה הטובה ביותר לנצל את כוח המחשוב של המאיץ. כדי להתמודד עם זה, DJLServing מציע את האופטימיזציות המובנות של אצווה דינמית כדי לשלב בקשות הסקה עצמאיות אלו בצד השרת ליצירת אצווה גדולה יותר באופן דינמי כדי להגדיל את התפוקה. כל הבקשות מגיעות ל-batcher הדינמי תחילה לפני הכניסה לתורי העבודה בפועל כדי להמתין להסקת מסקנות. אתה יכול להגדיר את גדלי האצווה המועדפים עליך עבור אצווה דינמית באמצעות batch_size הגדרות ב - Windows serving.properties. אתה יכול גם להגדיר max_batch_delay כדי לציין את זמן ההשהיה המקסימלי ב-batcher להמתין לבקשות אחרות להצטרף לאצווה בהתבסס על דרישות האחזור שלך. התפוקה תלויה גם במספר עותקי הדגם ובקבוצות התהליך של Python שהושקו במיכל. כפי שמוצג בתרשים הבא, כשהדרגה המקבילה טנזור מוגדרת ל-4, מיכל ה-LMI משיק שלוש קבוצות תהליך של Python, כל אחת מחזיקה את העותק המלא של המודל. זה מאפשר לך להגדיל את גודל האצווה ולקבל תפוקה גבוהה יותר.

השג ביצועים גבוהים עם העלות הנמוכה ביותר להסקת AI יצירתית באמצעות AWS Inferentia2 ו-AWS Trainium ב-Amazon SageMaker PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מחברת SageMaker לפריסת LLMs

בחלק זה, אנו מספקים הדרכה שלב אחר שלב לפריסת GPT4All-J, דגם של 6 מיליארד פרמטרים שהוא 24 GB ב-FP32. GPT4All-J הוא צ'אט בוט פופולרי שעבר הכשרה על מגוון עצום של תוכן אינטראקציה כמו בעיות מילים, דיאלוגים, קוד, שירים, שירים וסיפורים. GPT4all-J הוא מודל GPT-J מכוון עדין שיוצר תגובות הדומות לאינטראקציות אנושיות.

המחברת המלאה עבור דוגמה זו מסופקת ב- GitHub. אנחנו יכולים להשתמש ב- SageMaker Python SDK כדי לפרוס את המודל למופע Inf2. אנו משתמשים במסופקים מטפל ברירת מחדל כדי לטעון את הדגם. עם זה, אנחנו רק צריכים לספק א servings.properties קוֹבֶץ. לקובץ זה יש את התצורות הנדרשות עבור שרת דגם ה-DJL כדי להוריד ולארח את הדגם. אנו יכולים לציין את השם של דגם ה-Huging Face באמצעות model_id פרמטר להורדת הדגם ישירות מהריפו של Hugging Face. לחלופין, אתה יכול להוריד את הדגם מאמזון S3 על ידי אספקת s3url פָּרָמֶטֶר. ה entryPoint הפרמטר מוגדר להצביע על הספרייה כדי לטעון את המודל. לפרטים נוספים על djl_python.fastertransformer, ראה קוד GitHub.

השמיים tensor_parallel_degree ערך המאפיין קובע את ההתפלגות של מודולים מקבילים טנזור על פני התקנים מרובים. לדוגמה, עם 12 NeuronCores ודרגת טנזור מקבילה של 4, LMI תקצה שלושה עותקי מודל, שכל אחד מהם ישתמש בארבעה NeuronCores. אתה יכול גם להגדיר את סוג הדיוק באמצעות המאפיין dtype. n_position פרמטר מגדיר את הסכום של אורך רצף קלט ופלט מקסימלי עבור המודל. ראה את הקוד הבא:

%%writefile serving.properties# Start writing content here
engine=Python
option.entryPoint=djl_python.transformers-neuronx
#option.model_id=nomic-ai/gpt4all-j
option.s3url = {{s3url}}
option.tensor_parallel_degree=2
option.model_loading_timeout=2400
option.n_positions=512

בנה את tarball מכיל serving.properties ולהעלות אותו לדלי S3. למרות שמשתמש ברירת המחדל משמש בדוגמה זו, אתה יכול לפתח א model.py קובץ להתאמה אישית של תהליך הטעינה וההגשה. אם יש חבילות שצריכות התקנה, כלול אותן ב- requirements.txt קוֹבֶץ. ראה את הקוד הבא:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket() # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

אחזר את תמונת מיכל DJL וצור את מודל SageMaker:

##Retrieve djl container image
image_uri = image_uris.retrieve( framework="djl-deepspeed", region=sess.boto_session.region_name, version="0.21.0" )
image_uri = image_uri.split(":")[0] + ":" + "0.22.1-neuronx-sdk2.9.0" model = Model(image_uri=image_uri, model_data=code_artifact, env=env, role=role)

לאחר מכן, אנו יוצרים את נקודת הקצה של SageMaker עם תצורת המודל שהוגדרה קודם לכן. המיכל מוריד את הדגם לתוך /tmp שטח כי SageMaker ממפה את /tmp ל חנות בלוקים אלסטית של אמזון (אמזון EBS). אנחנו צריכים להוסיף א volume_size פרמטר כדי להבטיח את /tmp בספרייה יש מספיק מקום להורדה והידור של המודל. קבענו container_startup_health_check_timeout עד 3,600 שניות כדי להבטיח שבדיקת התקינות מתחילה לאחר שהדגם מוכן. אנו משתמשים במופע ml.inf2.8xlarge. ראה את הקוד הבא:

instance_type = "ml.inf2.8xlarge"
endpoint_name = sagemaker.utils.name_from_base("lmi-model") model.deploy(initial_instance_count=1, instance_type=instance_type, endpoint_name=endpoint_name, container_startup_health_check_timeout=3600, volume_size=256 )

לאחר יצירת נקודת הקצה של SageMaker, נוכל לבצע תחזיות בזמן אמת כנגד נקודות הקצה של SageMaker באמצעות Predictor אובייקט:

# our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor( endpoint_name=endpoint_name, sagemaker_session=sess, serializer=serializers.JSONSerializer(), deserializer=deserializers.JSONDeserializer(),
) predictor.predict( {"inputs": "write a blog on new York", "parameters": {}}
)

לנקות את

מחק את נקודות הקצה כדי לחסוך בעלויות לאחר שתסיים את הבדיקות שלך:

# - Delete the end point
sess.delete_endpoint(endpoint_name)
sess.delete_endpoint_config(endpoint_name)
model.delete_model()

סיכום

בפוסט זה, הצגנו את היכולת שהושקה לאחרונה של SageMaker, אשר תומכת כעת במופעי ml.inf2 ו-ml.trn1 לאירוח דגמי AI גנרטיביים. הדגמנו כיצד לפרוס את GPT4ALL-J, מודל AI מחולל, ב-AWS Inferentia2 באמצעות SageMaker והמיכל LMI, מבלי לכתוב שום קוד. הצגנו גם איך אתה יכול להשתמש ב- DJLServing ו transformers-neuronx לטעון דגם, לחלק אותו ולהגיש.

מופעי Inf2 מספקים את הדרך החסכונית ביותר להפעיל דגמי AI גנרטיביים ב-AWS. לפרטי ביצועים, עיין ב Inf2 ביצועים.

בדוק GitHub ריפו למחברת לדוגמה. נסה את זה ודווח לנו אם יש לך שאלות כלשהן!

על הכותבים

Vivek Gangasani הוא ארכיטקט בכיר של פתרונות למידת מכונה בשירותי האינטרנט של אמזון. הוא עובד עם סטארט-אפים של Machine Learning כדי לבנות ולפרוס יישומי AI/ML ב-AWS. כיום הוא מתמקד באספקת פתרונות עבור MLOps, ML Inference ו-ML בקוד נמוך. הוא עבד על פרויקטים בתחומים שונים, כולל עיבוד שפה טבעית וראייה ממוחשבת.

הירושי טוקויו הוא אדריכל פתרונות במעבדות AWS Annapurna. מבוסס ביפן, הוא הצטרף ל- Annapurna Labs עוד לפני הרכישה על-ידי AWS ועזר באופן עקבי ללקוחות עם הטכנולוגיה של Annapurna Labs. ההתמקדות האחרונה שלו היא בפתרונות Machine Learning המבוססים על סיליקון ייעודי, AWS Inferentia ו-Trainium.

דוואל פאטל הוא אדריכל ראשי למידת מכונה ב-AWS. הוא עבד עם ארגונים החל מארגונים גדולים ועד סטארט-אפים בינוניים על בעיות הקשורות למחשוב מבוזר ובינה מלאכותית. הוא מתמקד בלמידה עמוקה כולל תחומי NLP ו-Computer Vision. הוא עוזר ללקוחות להשיג מסקנות מודל עם ביצועים גבוהים על SageMaker.

צ'ינג לאן הוא מהנדס פיתוח תוכנה ב-AWS. הוא עבד על כמה מוצרים מאתגרים באמזון, כולל פתרונות ML ביצועים גבוהים ומערכת רישום ביצועים גבוהים. הצוות של צ'ינג השיק בהצלחה את המודל הראשון של מיליארד פרמטרים בפרסום באמזון עם זמן אחזור נמוך מאוד. לצ'ינג יש ידע מעמיק באופטימיזציית התשתית והאצת הלמידה העמוקה.

צ'ינגווי לי הוא מומחה למידת מכונה בשירותי האינטרנט של אמזון. הוא קיבל את הדוקטורט. במחקר מבצעים לאחר ששבר את חשבון מענקי המחקר של יועצו ולא הצליח להעניק את פרס נובל שהבטיח. נכון לעכשיו הוא מסייע ללקוחות בענף השירותים הפיננסיים וביטוח לבנות פתרונות למידת מכונה ב- AWS. בזמנו הפנוי הוא אוהב לקרוא ולהוריד.

אלן טאן הוא מנהל מוצר בכיר עם SageMaker המוביל את המאמצים בהסקת דגמים גדולים. הוא נלהב מהיישום של למידת מכונה בתחום האנליטיקס. מחוץ לעבודה, הוא נהנה בחוץ.

השג ביצועים גבוהים עם העלות הנמוכה ביותר להסקת AI יצירתית באמצעות AWS Inferentia2 ו-AWS Trainium ב-Amazon SageMaker PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. וארון סיאל הוא מהנדס פיתוח תוכנה עם AWS Sagemaker שעובד על תכונות קריטיות מול לקוחות עבור פלטפורמת ML Inference. הוא נלהב לעבוד במרחב המערכות המבוזרות ובינה מלאכותית. בזמנו הפנוי הוא אוהב קריאה וגינון.