בניית אפליקציית בינה מלאכותית מחוללת תמונה לטקסט באמצעות מודלים מולטי-מודאליים באמזון SageMaker

הועלה מחדש על ידי אפלטון

עוקב: 0

ככל שאנו מעמיקים בעידן הדיגיטלי, הפיתוח של מודלים מולטי-מודאליים היה קריטי בשיפור הבנת המכונה. מודלים אלה מעבדים ומייצרים תוכן על פני צורות נתונים שונות, כמו טקסט ותמונות. תכונה מרכזית של מודלים אלה היא יכולות התמונה לטקסט שלהם, שהראו בקיאות יוצאת דופן במשימות כמו כיתוב תמונה ומענה על שאלות חזותיות.

על ידי תרגום תמונות לטקסט, אנו פותחים ורותמים את שפע המידע הכלול בנתונים חזותיים. לדוגמה, במסחר אלקטרוני, תמונה לטקסט יכולה להפוך סיווג מוצרים לאוטומטי על סמך תמונות, ולשפר את יעילות החיפוש והדיוק. באופן דומה, זה יכול לסייע ביצירת תיאורי תמונות אוטומטיים, לספק מידע שאולי לא כלול בכותרות או בתיאורים של מוצרים, ובכך לשפר את חווית המשתמש.

בפוסט זה אנו מספקים סקירה כללית של דגמי מולטי-מודאליות פופולריים. אנו גם מדגימים כיצד לפרוס את המודלים שהוכשרו מראש אמזון SageMaker. יתר על כן, אנו דנים ביישומים המגוונים של מודלים אלה, תוך התמקדות במיוחד במספר תרחישים בעולם האמיתי, כגון תג אפס ויצירת ייחוס למסחר אלקטרוני ויצירת הנחיות אוטומטית מתמונות.

רקע של מודלים מולטי-מודאליים

מודלים של למידת מכונה (ML) השיגו התקדמות משמעותית בתחומים כמו עיבוד שפה טבעית (NLP) וראייה ממוחשבת, שבהם מודלים יכולים להפגין ביצועים כמו אנושיים בניתוח ויצירת תוכן ממקור נתונים יחיד. לאחרונה, גברה תשומת הלב בפיתוח מודלים מולטי-מודאליים, המסוגלים לעבד ולייצר תוכן על פני אופנים שונים. מודלים אלו, כגון מיזוג של רשתות חזון ושפה, זכו לבולטות בשל יכולתם לשלב מידע ממקורות ואופנים מגוונים, ובכך לשפר את יכולות ההבנה והביטוי שלהם.

בחלק זה, אנו מספקים סקירה כללית של שני דגמי מולטי-מודאליות פופולריים: CLIP (אימון מקדים לשפה-תמונה קונטרסטית) ו-BLIP (אימון מקדים לשפה-תמונה אתחול).

דגם CLIP

CLIP הוא מודל ראייה ושפה רב-מודאלי, אשר יכול לשמש לדמיון בין תמונה לטקסט ולסיווג תמונה בצילום אפס. CLIP מאומן על מערך נתונים של 400 מיליון זוגות תמונה-טקסט שנאספו ממגוון מקורות זמינים לציבור באינטרנט. ארכיטקטורת המודל מורכבת מקודד תמונה ומקודד טקסט, כפי שמוצג בתרשים הבא.

בנו אפליקציית בינה מלאכותית מחוללת תמונה לטקסט באמצעות מודלים מולטי-מודאליים ב-Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

במהלך האימון, תמונה וקטע טקסט מתאים מוזנים דרך המקודדים כדי לקבל וקטור תכונת תמונה ו-וקטור תכונת טקסט. המטרה היא לגרום לתכונות התמונה והטקסט עבור זוג תואם להיות בעלי דמיון קוסינוס גבוה, בעוד שלתכונות עבור צמדים לא תואמים יש דמיון נמוך. זה נעשה באמצעות אובדן ניגודי. אימון מקדים ניגודי זה מביא למקודדים שממפים תמונות וטקסט למרחב הטמעה משותף שבו הסמנטיקה מיושרת.

לאחר מכן ניתן להשתמש במקודדים ללמידה של העברת אפס-shot עבור משימות במורד הזרם. בזמן הסקת מסקנות, מקודד התמונה והטקסט שהוכשר מראש מעבד את הקלט שלו והופך אותו לייצוג וקטור ממדי גבוה, או הטבעה. לאחר מכן מושווים ההטבעות של התמונה והטקסט כדי לקבוע את הדמיון ביניהם, כגון דמיון קוסינוס. שורת הטקסט (מחלקות תמונה, קטגוריות או תגיות) שההטמעה שלה הכי דומה (לדוגמה, בעלת המרחק הקטן ביותר) להטבעת התמונה נחשבת לרלוונטית ביותר, והתמונה מסווגת בהתאם.

דגם BLIP

מודל רב-מודאלי פופולרי נוסף הוא BLIP. הוא מציג ארכיטקטורת מודל חדשנית המסוגלת להסתגל למשימות שונות בשפת הראייה ומשתמשת בטכניקת אתחול של מערך נתונים ייחודית כדי ללמוד מנתוני אינטרנט רועשים. ארכיטקטורת BLIP כוללת מקודד תמונה ומקודד טקסט: מקודד הטקסט מקורקע התמונה מחדיר מידע חזותי לבלוק השנאי של מקודד הטקסט, ומפענח הטקסט המבוסס על בסיס תמונה משלב מידע חזותי בבלוק מפענח השנאי. עם ארכיטקטורה זו, BLIP מפגין ביצועים יוצאי דופן על פני קשת של משימות בשפת חזון הכרוכות במיזוג של מידע חזותי ולשוני, מחיפוש מבוסס תמונה ויצירת תוכן ועד למערכות דיאלוג חזותיות אינטראקטיביות. בפוסט הקודם הצענו א פתרון ניהול תוכן המבוסס על מודל BLIP שהתמודדה עם אתגרים מרובים באמצעות גישות ML חד-מודאליות של ראייה ממוחשבת.

מקרה שימוש 1: יצירת תג או מאפיינים ב-Zero Shoot עבור פלטפורמת מסחר אלקטרוני

פלטפורמות מסחר אלקטרוני משמשות כמקומות שוק דינמיים השופעים רעיונות, מוצרים ושירותים. עם מיליוני מוצרים ברשימה, מיון וסיווג יעילים מהווים אתגר משמעותי. זה המקום שבו הכוח של התיוג האוטומטי ויצירת תכונות בא לידי ביטוי. על ידי רתימת טכנולוגיות מתקדמות כמו ML ו-NLP, תהליכים אוטומטיים אלה יכולים לחולל מהפכה בפעולות של פלטפורמות מסחר אלקטרוני.

אחד היתרונות המרכזיים של תיוג אוטומטי או יצירת תכונות טמון ביכולתו לשפר את יכולת החיפוש. מוצרים המתויגים במדויק יכולים להימצא על ידי לקוחות במהירות וביעילות. לדוגמה, אם לקוח מחפש "חולצת טריקו עם צווארון כותנה עם לוגו מלפנים", תיוג אוטומטי ויצירת תכונות מאפשרים למנוע החיפוש לאתר מוצרים התואמים לא רק את הקטגוריה הרחבה יותר של "חולצת טריקו", אלא גם התכונות הספציפיות של "כותנה" ו"צוואר צוואר". התאמה מדויקת זו יכולה להקל על חווית קניה אישית יותר ולהגביר את שביעות רצון הלקוחות. יתרה מכך, תגים או תכונות שנוצרו באופן אוטומטי יכולים לשפר משמעותית את האלגוריתמים של המלצות למוצרים. עם הבנה מעמיקה של תכונות המוצר, המערכת יכולה להציע מוצרים רלוונטיים יותר ללקוחות, ובכך להגדיל את הסבירות לרכישות ולשפר את שביעות רצון הלקוחות.

CLIP מציעה פתרון מבטיח לאוטומציה של תהליך יצירת התגים או התכונות. זה לוקח תמונת מוצר ורשימת תיאורים או תגים כקלט, יוצר ייצוג וקטור, או הטבעה, עבור כל תג. הטמעות אלו קיימות במרחב בעל ממדים גבוהים, כאשר המרחקים והכיוונים היחסיים שלהם משקפים את היחסים הסמנטיים בין התשומות. CLIP הוכשר מראש בקנה מידה גדול של זוגות תמונה-טקסט כדי לכלול את ההטבעות המשמעותיות הללו. אם תג או מאפיין מתארים תמונה במדויק, ההטמעות שלהם צריכות להיות קרובות יחסית במרחב הזה. כדי ליצור תגים או תכונות מתאימים, ניתן להזין רשימה של תגים פוטנציאליים לחלק הטקסט של מודל ה-CLIP, ולאחסן את ההטבעות שנוצרו. באופן אידיאלי, רשימה זו צריכה להיות ממצה, לכסות את כל הקטגוריות והתכונות הפוטנציאליות הרלוונטיות למוצרים בפלטפורמת המסחר האלקטרוני. האיור הבא מציג כמה דוגמאות.

כדי לפרוס את מודל CLIP ב- SageMaker, תוכל לעקוב אחר המחברת בהמשך GitHub ריפו. אנו משתמשים ב-SageMaker המובנה מראש מיכלי מסקנות מדגם גדול (LMI). לפרוס את המודל. השימוש במכולות LMI הגשת DJL לשרת את המודל שלך להסקת מסקנות. למידע נוסף על אירוח דגמים גדולים ב- SageMaker, עיין ב פרוס דגמים גדולים ב-Amazon SageMaker באמצעות מסקנות מקבילות של מודל DJLServing ו-DeepSpeed ו פרוס דגמים גדולים בביצועים גבוהים באמצעות FasterTransformer ב- Amazon SageMaker.

בדוגמה זו, אנו מספקים את הקבצים serving.properties, model.py, ו requirements.txt להכין את חפצי הדגם ולאחסן אותם בקובץ טארבול.

serving.properties הוא קובץ התצורה שניתן להשתמש בו כדי לציין ל-DJL Serving באילו ספריות מקבילות ואופטימיזציה של הסקות תרצה להשתמש. בהתאם לצורך שלך, תוכל להגדיר את התצורה המתאימה. לפרטים נוספים על אפשרויות התצורה ורשימה ממצה, עיין ב תצורות והגדרות.
model.py הוא הסקריפט שמטפל בבקשות להגשה.
requirements.txt הוא קובץ הטקסט המכיל גלגלי פיפ נוספים להתקנה.

אם אתה רוצה להוריד את הדגם מ פנים מחבקות ישירות, אתה יכול להגדיר את option.model_id פרמטר ב serving.properties קובץ כמזהה המודל של מודל מאומן מראש המתארח בתוך מאגר מודלים ב- huggingface.co. הקונטיינר משתמש במזהה המודל הזה כדי להוריד את המודל המתאים במהלך זמן הפריסה. אם תגדיר את model_id כדי שירות אחסון פשוט של אמזון (Amazon S3) URL, ה-DJL יוריד את חפצי הדגם מאמזון S3 ויחליף את model_id למיקום בפועל של חפצי הדגם. בסקריפט שלך, אתה יכול להצביע על ערך זה כדי לטעון את המודל שהוכשר מראש. בדוגמה שלנו, אנו משתמשים באפשרות השנייה, מכיוון שמיכל ה-LMI משתמש s5cmd להוריד נתונים מאמזון S3, מה שמפחית משמעותית את המהירות בעת טעינת דגמים במהלך הפריסה. ראה את הקוד הבא:

# we plug in the appropriate model location into our `serving.properties` file based on the region in which this notebook is running template = jinja_env.from_string(Path("clip/serving.properties").open().read()) Path("clip/serving.properties").open("w").write( template.render(s3url=pretrained_model_location) ) !pygmentize clip/serving.properties | cat -n

ב model.py סקריפט, אנו טוענים את נתיב הדגם באמצעות מזהה הדגם המסופק בקובץ המאפיין:

def load_clip_model(self, properties): if self.config.caption_model is None: model_path = properties["model_id"] ... ... print(f'model path: {model_path}') model = CLIPModel.from_pretrained(model_path, cache_dir="/tmp",) self.caption_processor = CLIPProcessor.from_pretrained(model_path)

לאחר הכנת חפצי הדגם והעלאתם לאמזון S3, תוכל לפרוס את מודל ה-CLIP לאירוח של SageMaker עם כמה שורות קוד:

from sagemaker.model import Model model = Model( image_uri=inference_image_uri, model_data=s3_code_artifact, role=role, name=model_name,
) model.deploy( initial_instance_count=1, instance_type="ml.g5.2xlarge", endpoint_name=endpoint_name
)

כאשר נקודת הקצה בשירות, אתה יכול להפעיל את נקודת הקצה עם תמונת קלט ורשימת תוויות בתור הנחיה לקלט כדי ליצור את הסתברויות התווית:

def encode_image(img_file): with open(img_file, "rb") as image_file: img_str = base64.b64encode(image_file.read()) base64_string = img_str.decode("latin1") return base64_string def run_inference(endpoint_name, inputs): response = smr_client.invoke_endpoint( EndpointName=endpoint_name, Body=json.dumps(inputs) ) return response["Body"].read().decode('utf-8') base64_string = encode_image(test_image)
inputs = {"image": base64_string, "prompt": ["a photo of cats", "a photo of dogs"]}
output = run_inference(endpoint_name, inputs)
print(json.loads(output)[0])

מקרה שימוש 2: יצירה אוטומטית של הנחיות מתמונות

יישום חדשני אחד המשתמש במודלים הרב-מודאליים הוא ליצור הנחיות אינפורמטיביות מתמונה. ב-AI גנרטיבי, א הפקודה מתייחס לקלט המסופק למודל שפה או מודל מחולל אחר כדי להורות לו איזה סוג של תוכן או תגובה רצויים. ההנחיה היא בעצם נקודת התחלה או מערכת הוראות המנחה את תהליך היצירה של המודל. זה יכול ללבוש צורה של משפט, שאלה, טקסט חלקי או כל קלט שמעביר את ההקשר או הפלט הרצוי למודל. הבחירה בהנחיה מעוצבת היטב היא חיונית ביצירת תמונות באיכות גבוהה עם דיוק ורלוונטיות. הנדסה מהירה הוא תהליך של אופטימיזציה או יצירה של קלט טקסטואלי כדי להשיג תגובות רצויות ממודל שפה, לעתים קרובות כרוך בהתאמות ניסוח, פורמט או הקשר.

הנדסה מהירה ליצירת תמונות מציבה מספר אתגרים, כולל הבאים:

הגדרת מושגים ויזואליים בצורה מדויקת – תיאור מושגים ויזואליים במילים יכול לפעמים להיות לא מדויק או מעורפל, מה שמקשה על העברת התמונה המדויקת הרצויה. לכידת פרטים מורכבים או סצנות מורכבות באמצעות הנחיות טקסטואליות עשויה להיות לא פשוטה.
ציון סגנונות רצויים בצורה יעילה - העברת העדפות סגנוניות ספציפיות, כגון מצב רוח, פלטת צבעים או סגנון אמנותי, יכולה להיות מאתגרת באמצעות טקסט בלבד. תרגום מושגים אסתטיים מופשטים להוראות קונקרטיות עבור המודל יכול להיות מסובך.
איזון מורכבות למניעת עומס יתר על המודל - הנחיות משוכללות עלולות לבלבל את המודל או להוביל לעומס יתר במידע, ולהשפיע על הפלט שנוצר. יצירת האיזון הנכון בין מתן הדרכה מספקת לבין הימנעות ממורכבות מכריעה היא חיונית.

לכן, יצירת הנחיות אפקטיביות ליצירת תמונה גוזלת זמן, מה שדורש ניסויים איטרטיביים וחידוד כדי להגיע לאיזון הנכון בין דיוק ויצירתיות, מה שהופך אותה למשימה עתירת משאבים הנשענת במידה רבה על מומחיות אנושית.

השמיים חוקר CLIP הוא כלי הנדסת הנחיות אוטומטית לתמונות המשלב CLIP ו-BLIP כדי לייעל הנחיות טקסט כדי להתאים לתמונה נתונה. אתה יכול להשתמש בהנחיות המתקבלות עם מודלים של טקסט לתמונה כמו דיפוזיה יציבה ליצור אמנות מגניבה. ההנחיות שנוצרו על ידי CLIP Interrogator מציעות תיאור מקיף של התמונה, המכסה לא רק את האלמנטים הבסיסיים שלה אלא גם את הסגנון האמנותי, את ההשראה הפוטנציאלית מאחורי התמונה, את המדיום שבו ניתן היה להשתמש או עשוי לשמש את התמונה, ומעבר לכך. אתה יכול לפרוס בקלות את פתרון ה-CLIP Interrogator ב-SageMaker כדי לייעל את תהליך הפריסה, ולנצל את המדרגיות, העלות-יעילות והאבטחה החזקה שמספקים השירות המנוהל במלואו. התרשים הבא מציג את לוגיקה הזרימה של פתרון זה.

אתה יכול להשתמש בפעולות הבאות מחברה לפרוס את פתרון ה-CLIP Interrogator ב- SageMaker. באופן דומה, עבור אירוח מודל CLIP, אנו משתמשים במיכל SageMaker LMI כדי לארח את הפתרון ב- SageMaker באמצעות DJL Serving. בדוגמה זו, סיפקנו קובץ קלט נוסף עם חפצי המודל המפרטים את המודלים שנפרסו לנקודת הקצה של SageMaker. אתה יכול לבחור בדגמי CLIP או BLIP שונים על ידי העברת שם דגם הכיתוב ושם דגם הקליפ דרך model_name.json קובץ שנוצר עם הקוד הבא:

model_names = { "caption_model_name":'blip2-2.7b', #@param ["blip-base", "blip-large", "git-large-coco"] "clip_model_name":'ViT-L-14/openai' #@param ["ViT-L-14/openai", "ViT-H-14/laion2b_s32b_b79k"]
}
with open("clipinterrogator/model_name.json",'w') as file: json.dump(model_names, file)

תסריט ההסקה model.py מכיל פונקציית הפעלה ש-DJL Serving יפעיל את הבקשה שלך על ידי הפעלת פונקציה זו. כדי להכין את תסריט נקודת הכניסה הזה, אימצנו את הקוד מהמקור clip_interrogator.py קובץ ושינה אותו כך שיעבוד עם DJL Serving על אירוח של SageMaker. עדכון אחד הוא טעינת דגם BLIP. דגמי BLIP ו- CLIP נטענים דרך ה load_caption_model() ו load_clip_model() פונקציה במהלך האתחול של אובייקט החוקר. כדי לטעון את דגם BLIP, הורדנו תחילה את חפצי הדגם מ- Hugging Face והעלינו אותם לאמזון S3 כערך היעד של ה- model_id בקובץ המאפיינים. הסיבה לכך היא שמודל BLIP יכול להיות קובץ גדול, כגון ה- blip2-opt-2.7b דגם, שגודלו יותר מ-15 ג'יגה-בייט. הורדת הדגם מ-Hugging Face במהלך פריסת המודל תדרוש יותר זמן ליצירת נקודות קצה. לכן, אנו מצביעים על model_id למיקום Amazon S3 של דגם BLIP2 וטען את הדגם מנתיב הדגם שצוין בקובץ המאפיינים. שימו לב שבמהלך הפריסה, נתיב הדגם יוחלף לנתיב המכולה המקומי שאליו הורדו חפצי הדגם על ידי DJL Serving ממיקום Amazon S3. ראה את הקוד הבא:

if "model_id" in properties and any(os.listdir(properties["model_id"])): model_path = properties["model_id"] ... ... caption_model = Blip2ForConditionalGeneration.from_pretrained(model_path, torch_dtype=self.dtype)

מכיוון שדגם ה-CLIP אינו גדול במיוחד, אנו משתמשים open_clip כדי לטעון את הדגם ישירות מ-Huging Face, שזהה למקור clip_interrogator יישום:

self.clip_model, _, self.clip_preprocess = open_clip.create_model_and_transforms( clip_model_name, pretrained=clip_model_pretrained_name, precision='fp16' if config.device == 'cuda' else 'fp32', device=config.device, jit=False, cache_dir=config.clip_model_path
)

אנו משתמשים בקוד דומה כדי לפרוס את פתרון ה-CLIP Interrogator לנקודת קצה של SageMaker ומפעילים את נקודת הקצה עם תמונת קלט כדי לקבל את ההנחיות שניתן להשתמש בהן ליצירת תמונות דומות.

ניקח את התמונה הבאה כדוגמה. באמצעות נקודת הקצה CLIP Interrogator הפרוסה ב- SageMaker, הוא יוצר את תיאור הטקסט הבא: croissant on a plate, pexels contest winner, aspect ratio 16:9, cgsocietywlop, 8 h, golden cracks, the artist has used bright, picture of a loft in morning, object features, stylized border, pastry, french emperor.

אנו יכולים לשלב עוד יותר את פתרון ה-CLIP Interrogator עם דיפוזיה יציבה וטכניקות הנדסה מיידיות - נוצר מימד חדש לגמרי של אפשרויות יצירתיות. שילוב זה מאפשר לנו לא רק לתאר תמונות עם טקסט, אלא גם לתמרן וליצור וריאציות מגוונות של התמונות המקוריות. דיפוזיה יציבה מבטיחה סינתזת תמונה מבוקרת על ידי חידוד איטרטיבי של הפלט שנוצר, והנדסה מיידית אסטרטגית מנחה את תהליך היצירה לעבר התוצאות הרצויות.

ב החלק השני של המחברת, אנו מפרטים את השלבים לשימוש בהנדסה מהירה כדי לסגנן מחדש תמונות עם מודל ה-Stable Diffusion (דיפוזיה יציבה XL 1.0). אנו משתמשים ב- SDK של יציבות AI לפרוס דגם זה מ- SageMaker JumpStart לאחר הרשמה לדגם זה ב-AWS שוק. כי זו גרסה חדשה וטובה יותר ליצירת תמונות מסופקת על ידי יציבות AI, נוכל לקבל תמונות באיכות גבוהה בהתבסס על תמונת הקלט המקורית. בנוסף, אם נקדים את התיאור הקודם ונוסיף הנחיה נוספת המאזכרת אמן ידוע ואחת מיצירותיו, נקבל תוצאות מדהימות עם רסטיילינג. התמונה הבאה משתמשת בהנחיה: This scene is a Van Gogh painting with The Starry Night style, croissant on a plate, pexels contest winner, aspect ratio 16:9, cgsocietywlop, 8 h, golden cracks, the artist has used bright, picture of a loft in morning, object features, stylized border, pastry, french emperor.

התמונה הבאה משתמשת בהנחיה: This scene is a Hokusai painting with The Great Wave off Kanagawa style, croissant on a plate, pexels contest winner, aspect ratio 16:9, cgsocietywlop, 8 h, golden cracks, the artist has used bright, picture of a loft in morning, object features, stylized border, pastry, french emperor.

סיכום

הופעתם של מודלים מולטי-מודאליים, כמו CLIP ו-BLIP, והיישומים שלהם משנים במהירות את הנוף של המרת תמונה לטקסט. הם מגשרים על הפער בין מידע חזותי לסמנטי, ומספקים לנו את הכלים לפתוח את הפוטנציאל העצום של נתונים חזותיים ולרתום אותם בדרכים שלא ניתן היה להעלות על הדעת בעבר.

בפוסט זה הדגמנו יישומים שונים של המודלים הרב-מודאליים. אלה נעים בין שיפור היעילות והדיוק של החיפוש בפלטפורמות מסחר אלקטרוני דרך תיוג אוטומטי וסיווג ועד יצירת הנחיות למודלים של טקסט לתמונה כמו Stable Diffusion. יישומים אלו פותחים אופקים חדשים ליצירת תוכן ייחודי ומרתק. אנו ממליצים לך ללמוד עוד על ידי בחינת המודלים הרב-מודאליים השונים ב- SageMaker ולבנות פתרון חדשני לעסק שלך.

על הכותבים

בנו אפליקציית בינה מלאכותית מחוללת תמונה לטקסט באמצעות מודלים מולטי-מודאליים ב-Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. Yanwei Cui, PhD, הוא ארכיטקט פתרונות מומחה למידת מכונה בכירה ב-AWS. הוא התחיל לחקור למידת מכונה ב-IRISA (מכון המחקר למדעי המחשב ומערכות אקראיות), ויש לו ניסיון של כמה שנים בבניית יישומים תעשייתיים מונעי בינה מלאכותית בראייה ממוחשבת, עיבוד שפה טבעית וחיזוי התנהגות משתמשים מקוונים. ב-AWS, הוא חולק את המומחיות שלו בתחום ועוזר ללקוחות לנצל פוטנציאלים עסקיים ולהניב תוצאות ניתנות לפעולה עם למידת מכונה בקנה מידה. מחוץ לעבודה, הוא נהנה לקרוא ולטייל.

בנו אפליקציית בינה מלאכותית מחוללת תמונה לטקסט באמצעות מודלים מולטי-מודאליים ב-Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. ראגו רמשה הוא אדריכל בכיר ML Solutions בצוות Amazon SageMaker Service. הוא מתמקד בסיוע ללקוחות לבנות, לפרוס ולהעביר עומסי עבודה של ייצור ML ל-SageMaker בקנה מידה. הוא מתמחה בתחומי למידת מכונה, בינה מלאכותית וראייה ממוחשבת, ובעל תואר שני במדעי המחשב מאוניברסיטת דאלאס. בזמנו הפנוי הוא אוהב לטייל ולצלם.

בנו אפליקציית בינה מלאכותית מחוללת תמונה לטקסט באמצעות מודלים מולטי-מודאליים ב-Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. סם אדוארדס, הוא מהנדס ענן (AI/ML) ב-AWS סידני המתמחה בלמידת מכונה ואמזון SageMaker. הוא נלהב לעזור ללקוחות לפתור בעיות הקשורות לתהליכי עבודה של למידת מכונה וליצור פתרונות חדשים עבורם. מחוץ לעבודה, הוא נהנה לשחק ספורט מחבטים ולטייל.

בנו אפליקציית בינה מלאכותית מחוללת תמונה לטקסט באמצעות מודלים מולטי-מודאליים ב-Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. מלאני לי, PhD, היא מומחית בכירה ל-AI/ML TAM ב-AWS שבסיסה בסידני, אוסטרליה. היא עוזרת ללקוחות ארגוניים לבנות פתרונות תוך שימוש בכלי AI/ML מתקדמים ב-AWS ומספקת הדרכה לגבי ארכיטקטורה והטמעה של פתרונות ML עם שיטות עבודה מומלצות. בזמנה הפנוי היא אוהבת לחקור את הטבע ולבלות עם משפחה וחברים.

בנו אפליקציית בינה מלאכותית מחוללת תמונה לטקסט באמצעות מודלים מולטי-מודאליים ב-Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. גורדון וואנג הוא TAM מומחה בכיר בינה מלאכותית/ML ב-AWS. הוא תומך בלקוחות אסטרטגיים עם שיטות עבודה מומלצות של AI/ML חוצות תעשיות רבות. הוא נלהב מראייה ממוחשבת, NLP, AI גנרטיבי ו-MLOps. בזמנו הפנוי הוא אוהב ריצה וטיולים.

בנו אפליקציית בינה מלאכותית מחוללת תמונה לטקסט באמצעות מודלים מולטי-מודאליים ב-Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. דוואל פאטל הוא אדריכל ראשי למידת מכונה ב-AWS. הוא עבד עם ארגונים החל מארגונים גדולים ועד סטארט-אפים בינוניים על בעיות הקשורות למחשוב מבוזר ובינה מלאכותית. הוא מתמקד בלמידה עמוקה כולל תחומי NLP ו-Computer Vision. הוא עוזר ללקוחות להשיג מסקנות מודל עם ביצועים גבוהים על SageMaker.

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://aws.amazon.com/blogs/machine-learning/build-an-image-to-text-generative-ai-application-using-multimodality-models-on-amazon-sagemaker/

בול זמן: אוקטובר 6, 2023

בול זמן: נובמבר 22, 2023

הועלה מחדש על ידי אפלטון

זיהוי שונות באוכלוסיה של מינים בסכנת הכחדה באמצעות זיהוי אמזון

אפשר קבלת החלטות חכמה עם Amazon SageMaker Canvas ו-Amazon QuickSight

חבר בצורה חלקה את Amazon Athena עם Amazon Lookout for Metrics כדי לזהות חריגות

הצגת ניהול מכסות בשירות עצמי ומכסות שירות ברירת מחדל גבוהות יותר עבור Amazon Textract

כיצד Synamedia משתמשת ב-Amazon Rekognition Video כדי לבנות יכולות חיפוש וידאו מתקדמות לווידאו ארוך

הטמע המלצות מותאמות אישית בזמן אמת באמצעות Amazon Personalize | שירותי האינטרנט של אמזון

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן