לקוחות שירותי בריאות ומדעי החיים (HCLS) מאמצים AI גנרטיבי ככלי להפיק יותר מהנתונים שלהם. מקרי שימוש כוללים סיכום מסמכים כדי לעזור לקוראים להתמקד בנקודות מפתח של מסמך והפיכת טקסט לא מובנה לפורמטים סטנדרטיים כדי להדגיש תכונות חשובות. עם פורמטים ייחודיים של נתונים ודרישות רגולטוריות קפדניות, לקוחות מחפשים אפשרויות לבחירת המודל היעיל והחסכוני ביותר, כמו גם את היכולת לבצע התאמה אישית (כיוונון עדין) כדי להתאים למקרה השימוש העסקי שלהם. בפוסט זה, אנו מדריכים אותך דרך פריסת מודל שפה גדולה של Falcon (LLM) באמצעות אמזון SageMaker JumpStart ושימוש במודל לסיכום מסמכים ארוכים עם LangChain ו-Python.
סקירת פתרונות
אמזון SageMaker נבנה על שני עשורים של הניסיון של אמזון בפיתוח יישומי ML בעולם האמיתי, כולל המלצות למוצרים, התאמה אישית, קניות אינטליגנטיות, רובוטיקה ומכשירים בעזרת קול. SageMaker הוא שירות מנוהל כשיר ל-HIPAA המספק כלים המאפשרים למדעני נתונים, מהנדסי ML ואנליסטים עסקיים לחדש עם ML. בתוך SageMaker הוא סטודיו SageMaker של אמזון, סביבת פיתוח משולבת (IDE) שנבנתה ייעודית עבור זרימות עבודה משותפות של ML, אשר, בתורן, מכילות מגוון רחב של פתרונות התחלה מהירה ומודלים של ML מאומנים מראש ברכזת משולבת בשם SageMaker JumpStart. עם SageMaker JumpStart, אתה יכול להשתמש בדגמים מאומנים מראש, כגון Falcon LLM, עם מחברות לדוגמה מובנות מראש ותמיכה ב-SDK כדי להתנסות ולפרוס את דגמי השנאים החזקים האלה. אתה יכול להשתמש ב- SageMaker Studio וב- SageMaker JumpStart כדי לפרוס ולשאול מודל מחולל משלך בחשבון AWS שלך.
אתה גם יכול להבטיח שנתוני מטען המסקנות לא יוצאים מה-VPC שלך. אתה יכול לספק מודלים כנקודות קצה של דייר יחיד ולפרוס אותם עם בידוד רשת. יתרה מזאת, אתה יכול לאצור ולנהל את סט הדגמים הנבחר העומדים בדרישות האבטחה שלך על ידי שימוש ביכולת רכזת הדגמים הפרטיים בתוך SageMaker JumpStart ואחסון הדגמים המאושרים שם. SageMaker הוא בטווח עבור HIPAA BAA, SOC123, ו HITRUST CSF.
השמיים Falcon LLM הוא מודל שפה גדול, שהוכשר על ידי חוקרים ב-Technology Innovation Institute (TII) על למעלה מ-1 טריליון אסימונים באמצעות AWS. ל-Falcon יש וריאציות רבות ושונות, כאשר שני המרכיבים העיקריים שלה Falcon 40B ו-Falcon 7B, מורכבים מ-40 מיליארד ו-7 מיליארד פרמטרים, בהתאמה, עם גרסאות מכוונות עדינות שהוכשרו למשימות ספציפיות, כמו ביצוע הוראות. Falcon מתפקד היטב במגוון משימות, כולל סיכום טקסט, ניתוח סנטימנטים, מענה לשאלות ושיחה. פוסט זה מספק הדרכה שתוכל לעקוב אחריה כדי לפרוס את Falcon LLM בחשבון AWS שלך, באמצעות מופע מחברת מנוהל דרך SageMaker JumpStart כדי להתנסות בסיכום טקסט.
מרכז המודלים של SageMaker JumpStart כולל מחברות שלמות לפריסה ושאילתות לכל דגם. נכון לכתיבת שורות אלה, קיימות שש גרסאות של Falcon זמינות במרכז הדגמים של SageMaker JumpStart: Falcon 40B Instruct BF16, Falcon 40B BF16, Falcon 180B BF16, Falcon 180B Chat BF16, Falcon 7B Instruct BF16, ו-Falcon 7B BF16. פוסט זה משתמש במודל Falcon 7B Instruct.
בסעיפים הבאים, אנו מראים כיצד להתחיל עם סיכום מסמכים על ידי פריסת Falcon 7B ב- SageMaker Jumpstart.
תנאים מוקדמים
עבור הדרכה זו, תזדקק לחשבון AWS עם דומיין של SageMaker. אם עדיין אין לך דומיין של SageMaker, עיין ב נכלל ב-Amazon SageMaker Domain כדי ליצור אחד.
פרוס Falcon 7B באמצעות SageMaker JumpStart
כדי לפרוס את המודל שלך, בצע את הצעדים הבאים:
- נווט אל סביבת SageMaker Studio שלך ממסוף SageMaker.
- בתוך ה-IDE, מתחת SageMaker JumpStart בחלונית הניווט, בחר דגמים, מחברות, פתרונות.
- פרוס את מודל Falcon 7B Instruct לנקודת קצה להסקת מסקנות.
זה יפתח את כרטיס הדגם עבור דגם Falcon 7B Instruct BF16. בעמוד זה תוכלו למצוא את לפרוס or רכבת אפשרויות וכן קישורים לפתיחת המחברות לדוגמה ב-SageMaker Studio. פוסט זה ישתמש במחברת לדוגמה של SageMaker JumpStart כדי לפרוס את המודל.
- בחרו פתח את המחברת.
- הפעל את ארבעת התאים הראשונים של המחברת כדי לפרוס את נקודת הקצה Falcon 7B Instruct.
אתה יכול לראות את דגמי JumpStart הפרוסים שלך ב- הושק נכסי JumpStart עמוד.
- בחלונית הניווט, מתחת SageMaker Jumpstart, בחר הושק נכסי JumpStart.
- בחר את נקודות קצה של מודל לשונית כדי להציג את המצב של נקודת הקצה שלך.
עם פרוסת נקודת הקצה של Falcon LLM, אתה מוכן לשאול את המודל.
הפעל את השאילתה הראשונה שלך
כדי להפעיל שאילתה, בצע את השלבים הבאים:
- על שלח בתפריט, בחר חדש ו מחברת כדי לפתוח מחברת חדשה.
ניתן גם להוריד את המחברת המלאה כאן.
- בחר את התמונה, הליבה וסוג המופע כאשר תתבקש. עבור פוסט זה, אנו בוחרים את תמונת Data Science 3.0, ליבת Python 3 ומופע ml.t3.medium.
- ייבא את המודולים Boto3 ו-JSON על ידי הזנת שתי השורות הבאות לתא הראשון:
- חדשות ועדכונים Shift + Enter להפעיל את התא.
- לאחר מכן, תוכל להגדיר פונקציה שתקרא לנקודת הקצה שלך. פונקציה זו לוקחת מטען מילון ומשתמשת בו כדי להפעיל את לקוח זמן הריצה של SageMaker. לאחר מכן הוא מבטל את התגובה ומדפיס את הקלט והטקסט שנוצר.
המטען כולל את ההנחיה כקלט, יחד עם פרמטרי ההסקה שיועברו למודל.
- אתה יכול להשתמש בפרמטרים אלה עם ההנחיה כדי לכוון את הפלט של המודל עבור מקרה השימוש שלך:
שאילתה עם הנחית סיכום
פוסט זה משתמש במאמר מחקר לדוגמה כדי להדגים סיכום. קובץ הטקסט לדוגמה נוגע לסיכום טקסט אוטומטי בספרות ביו-רפואית. השלם את השלבים הבאים:
- הורדה את ה-PDF והעתיקו את הטקסט לקובץ בשם
document.txt
. - ב-SageMaker Studio, בחר את סמל ההעלאה והעלה את הקובץ למופע SageMaker Studio שלך.
מחוץ לקופסה, Falcon LLM מספק תמיכה לסיכום טקסט.
- בואו ניצור פונקציה שמשתמשת בטכניקות הנדסיות מהירות לסיכום
document.txt
:
תבחין כי עבור מסמכים ארוכים יותר, מופיעה שגיאה - ל-Falcon, לצד כל שאר ה-LLMs, יש מגבלה על מספר האסימונים המועברים כקלט. אנו יכולים לעקוף את המגבלה הזו באמצעות יכולות הסיכום המשופרות של LangChain, המאפשרות להעביר קלט הרבה יותר גדול ל-LLM.
ייבוא והפעל שרשרת סיכום
LangChain היא ספריית תוכנה בקוד פתוח המאפשרת למפתחים ומדעני נתונים לבנות, לכוונן ולפרוס במהירות יישומים גנרטיביים מותאמים אישית מבלי לנהל אינטראקציות ML מורכבות, המשמשות בדרך כלל להפשטה של רבים ממקרי השימוש הנפוצים עבור מודלים של שפות בינה מלאכותית. שורות קוד. התמיכה של LangChain בשירותי AWS כוללת תמיכה בנקודות קצה של SageMaker.
LangChain מספקת ממשק נגיש ל-LLMs. התכונות שלו כוללות כלים ליצירת תבנית מיידית ולשרשור מהיר. ניתן להשתמש בשרשראות אלו כדי לסכם מסמכי טקסט ארוכים ממה שמודל השפה תומך בקריאה אחת. אתה יכול להשתמש באסטרטגיית הפחתת המפה כדי לסכם מסמכים ארוכים על ידי פירוקם לנתחים ניתנים לניהול, סיכומם ושילובם (וסיכמו שוב, במידת הצורך).
- בואו נתקין את LangChain כדי להתחיל:
- ייבא את המודולים הרלוונטיים ופרק את המסמך הארוך לחלקים:
- כדי לגרום ל-LangChain לעבוד בצורה יעילה עם Falcon, עליך להגדיר את מחלקות מטפל התוכן המוגדרות כברירת מחדל עבור קלט ופלט חוקיים:
- אתה יכול להגדיר הנחיות מותאמות אישית כ
PromptTemplate
אובייקטים, הכלי העיקרי להנחות עם LangChain, עבור גישת הסיכום של הפחתת המפה. זהו שלב אופציונלי מכיוון שהנחיות מיפוי ושילוב מסופקות כברירת מחדל אם הפרמטרים בתוך הקריאה לטעינת שרשרת הסיכום (load_summarize_chain
) אינם מוגדרים.
- LangChain תומך ב-LLMs המתארחים בנקודות קצה של מסקנות של SageMaker, כך שבמקום להשתמש ב-AWS Python SDK, אתה יכול לאתחל את החיבור דרך LangChain עבור נגישות רבה יותר:
- לבסוף, ניתן לטעון בשרשרת סיכום ולהריץ סיכום על מסמכי הקלט באמצעות הקוד הבא:
בגלל verbose
פרמטר מוגדר ל True
, תראה את כל פלטי הביניים של גישת הפחתת המפה. זה שימושי לעקוב אחר רצף האירועים כדי להגיע לסיכום סופי. עם גישה זו של הפחתת מפה, אתה יכול לסכם מסמכים ביעילות הרבה יותר ממה שמותר בדרך כלל על ידי מגבלת אסימון הקלט המקסימלי של המודל.
לנקות את
לאחר שסיימת להשתמש בנקודת הסיום, חשוב למחוק אותה כדי למנוע הוצאות מיותרות באמצעות שורות הקוד הבאות:
שימוש בדגמי יסוד אחרים ב- SageMaker JumpStart
שימוש בדגמי יסוד אחרים הזמינים ב- SageMaker JumpStart לסיכום מסמכים דורש תקורה מינימלית להגדרה ולפריסה. LLMs משתנים מדי פעם עם המבנה של פורמטי הקלט והפלט, וכאשר מודלים חדשים ופתרונות מוכנים מתווספים ל- SageMaker JumpStart, בהתאם ליישום המשימה, ייתכן שיהיה עליך לבצע את שינויי הקוד הבאים:
- אם אתה מבצע סיכום באמצעות ה
summarize()
השיטה (השיטה ללא שימוש ב-LangChain), ייתכן שיהיה עליך לשנות את מבנה ה-JSON שלpayload
פרמטר, כמו גם הטיפול במשתנה התגובה ב-query_endpoint()
פונקציה - אם אתה מבצע סיכום דרך LangChain's
load_summarize_chain()
השיטה, ייתכן שיהיה עליך לשנות אתContentHandlerTextSummarization
כיתה, במיוחד אתtransform_input()
וtransform_output()
פונקציות, כדי לטפל בצורה נכונה במטען שה-LLM מצפה לו ובפלט שה-LLM מחזיר
מודלים של בסיס משתנים לא רק בגורמים כמו מהירות ואיכות מסקנות, אלא גם פורמטים של קלט ופלט. עיין בדף המידע הרלוונטי של LLM על קלט ופלט צפויים.
סיכום
דגם ה-Falcon 7B Instruct זמין במרכז הדגם של SageMaker JumpStart ומתפקד במספר מקרי שימוש. פוסט זה הדגים כיצד אתה יכול לפרוס את נקודת הקצה שלך Falcon LLM בסביבה שלך באמצעות SageMaker JumpStart ולבצע את הניסויים הראשונים שלך מ- SageMaker Studio, מה שמאפשר לך לבצע אבטיפוס מהיר של הדגמים שלך ולעבור בצורה חלקה לסביבת ייצור. עם Falcon ו-LangChain, אתה יכול לסכם ביעילות מסמכי בריאות ומדעי החיים בקנה מידה ארוך.
למידע נוסף על עבודה עם AI גנרטיבי ב-AWS, עיין ב הכרזה על כלים חדשים לבנייה עם AI גנרטיבי ב-AWS. אתה יכול להתחיל להתנסות ולבנות הוכחות לסיכום מסמכים עבור יישומי GenAI מוכווני בריאות ומדעי החיים שלך באמצעות השיטה המתוארת בפוסט זה. מתי סלע אמזון זמין באופן כללי, נפרסם פוסט המשך שיראה כיצד ניתן ליישם סיכום מסמכים באמצעות Amazon Bedrock ו-LangChain.
על הכותבים
ג'ון קיטאוקה הוא אדריכל פתרונות בשירותי האינטרנט של אמזון. John עוזר ללקוחות לעצב ולמטב עומסי עבודה של AI/ML ב-AWS כדי לעזור להם להשיג את היעדים העסקיים שלהם.
ג'וש פאמסטאד הוא אדריכל פתרונות בשירותי האינטרנט של אמזון. ג'וש עובד עם לקוחות במגזר הציבורי כדי לבנות ולבצע גישות מבוססות ענן כדי לעמוד בסדרי העדיפויות העסקיים.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/create-an-hcls-document-summarization-application-with-falcon-using-amazon-sagemaker-jumpstart/
- :יש ל
- :הוא
- :לֹא
- $ למעלה
- 1
- 10
- 100
- 11
- 12
- 14
- 150
- 16
- 1M
- 20
- 40
- 400
- 50
- 500
- 7
- a
- יכולת
- תקציר
- מקבל
- נגישות
- נגיש
- חֶשְׁבּוֹן
- להשיג
- הוסיף
- אימוץ
- שוב
- AI
- AI / ML
- תעשיות
- מותר
- מאפשר
- מאפשר
- בַּצַד
- כְּבָר
- גם
- אמזון בעברית
- אמזון SageMaker
- אמזון SageMaker JumpStart
- אמזון שירותי אינטרנט
- an
- אנליזה
- אנליסטים
- ו
- בעלי חיים
- בעלי חיים
- בקשה
- יישומים
- גישה
- גישות
- מאושר
- ARE
- סביב
- AS
- At
- תכונות
- מכני עם סלילה אוטומטית
- זמין
- לְהִמָנַע
- AWS
- מבוסס
- BE
- כי
- להתחיל
- מאמין
- B
- ביו-רפואי
- גוּף
- סיכה
- אריזה מקורית
- לשבור
- שבירה
- לִבנוֹת
- בִּניָן
- נבנה
- עסקים
- אבל
- by
- שיחה
- נקרא
- CAN
- יכול לקבל
- יכולות
- יכולת
- כרטיס
- מקרה
- מקרים
- תאים
- שרשרת
- שרשראות
- שינוי
- שינויים
- בחירות
- בחרו
- בחירה
- בכיתה
- כיתות
- לקוחות
- ענן
- קוד
- שיתוף פעולה
- לשלב
- שילוב
- Common
- בדרך כלל
- לעומת
- להשלים
- השלמת
- מורכב
- מורכב
- מושג
- תמציתית
- הקשר
- קונסול
- להכיל
- תוכן
- עלות תועלת
- עלויות
- לִיצוֹר
- מנהג
- לקוחות
- התאמה אישית
- נתונים
- מדע נתונים
- עשרות שנים
- בְּרִירַת מֶחדָל
- לְהַגדִיר
- למסור
- להפגין
- מופגן
- תלוי
- לפרוס
- פרס
- פריסה
- פריסה
- עיצוב
- מפתחים
- מתפתח
- צעצועי התפתחות
- התקנים
- אחר
- do
- מסמך
- מסמכים
- לא
- תחום
- לא
- מטה
- להורדה
- כל אחד
- כדור הארץ
- יעילות
- לאפשר
- נקודת קצה
- הנדסה
- מהנדסים
- משופר
- לְהַבטִיחַ
- הזנת
- סביבה
- שגיאה
- אירועים
- דוגמה
- לבצע
- צפוי
- מצפה
- ניסיון
- לְנַסוֹת
- ניסויים
- פָּנִים
- גורמים
- שקר
- תכונות
- מעטים
- שלח
- סופי
- ראשון
- מתאים
- להתמקד
- לעקוב
- הבא
- בעד
- קרן
- ארבע
- החל מ-
- פונקציה
- פונקציות
- יתר על כן
- בדרך כלל
- ליצור
- נוצר
- גנרטטיבית
- AI Generative
- לקבל
- שערים
- יותר
- לטפל
- טיפול
- יש
- בריאות
- לעזור
- עוזר
- להבליט
- אירח
- איך
- איך
- HTML
- HTTPS
- טבור
- ICON
- if
- תמונה
- ליישם
- הפעלה
- לייבא
- חשוב
- in
- לכלול
- כולל
- כולל
- מידע
- לחדש
- חדשנות
- קלט
- תשומות
- להתקין
- למשל
- במקום
- מכון
- הוראות
- משולב
- אינטליגנטי
- יחסי גומלין
- מִמְשָׁק
- אל תוך
- בדידות
- IT
- שֶׁלָה
- ג'ון
- ג'סון
- רק
- מפתח
- שפה
- גָדוֹל
- גדול יותר
- הושק
- יציאה
- סִפְרִיָה
- החיים
- מדעי חיים
- להגביל
- קווים
- קישורים
- ספרות
- LLM
- לִטעוֹן
- ארוך
- עוד
- הסתכלות
- ראשי
- לעשות
- לנהל
- ניתן לניהול
- הצליח
- ניהול
- רב
- מיפוי
- מקסימום
- מאי..
- בינוני
- תפריט
- שיטה
- מינימלי
- ML
- מודל
- מודלים
- לשנות
- מודולים
- יותר
- רוב
- הרבה
- ניווט
- הכרחי
- צורך
- נחוץ
- רשת
- חדש
- NIH
- בדרך כלל
- מחברה
- הודעה..
- מספר
- אובייקטים
- of
- on
- ONE
- רק
- לפתוח
- קוד פתוח
- תוכנת קוד פתוח
- מטב
- אפשרויות
- אחר
- המתואר
- תפוקה
- יותר
- שֶׁלוֹ
- עמוד
- זגוגית
- מאמר
- פרמטר
- פרמטרים
- עבר
- לְבַצֵעַ
- ביצוע
- מבצע
- התאמה אישית
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- נקודות
- הודעה
- חזק
- קופונים להדפסה
- הדפסים
- פְּרָטִי
- תהליך
- המוצר
- הפקה
- הוכחות
- אב טיפוס
- לספק
- ובלבד
- מספק
- אַספָּקָה
- ציבורי
- לפרסם
- פיתון
- איכות
- שאלה
- מהירות
- מהר
- הקוראים
- מוכן
- עולם אמיתי
- המלצות
- להתייחס
- רגולטורים
- רלוונטי
- דרישות
- דורש
- מחקר
- חוקרים
- בהתאמה
- תגובה
- לַחֲזוֹר
- רובוטיקה
- הפעלה
- בעל חכמים
- SageMaker Inference
- סולם
- מדע
- מדעים
- מדענים
- היקף
- Sdk
- בצורה חלקה
- סעיפים
- מגזר
- אבטחה
- לִרְאוֹת
- נבחר
- עצמי
- רגש
- רצף
- שרות
- שירותים
- סט
- הצבה
- קניות
- קצר
- לְהַצִיג
- יחיד
- שישה
- So
- תוכנה
- פתרונות
- ספציפי
- במיוחד
- מְהִירוּת
- התחלה
- החל
- מצב
- שלב
- צעדים
- אחסון
- אִסטרָטֶגִיָה
- קפדן
- מִבְנֶה
- סטודיו
- כזה
- לסכם
- סיכום
- תמיכה
- תומך
- לוקח
- המשימות
- משימות
- טכניקות
- טכנולוגיה
- טכנולוגיה חדשנות
- טֶקסט
- מֵאֲשֶׁר
- זֶה
- השמיים
- שֶׁלָהֶם
- אותם
- אז
- שם.
- אלה
- זֶה
- דרך
- ל
- יַחַד
- אסימון
- מטבעות
- כלי
- כלים
- מְאוּמָן
- שנאי
- הפיכה
- מַעֲבָר
- טרִילִיוֹן
- נָכוֹן
- תור
- הדרכה
- שתיים
- סוג
- לא מוגדר
- ייחודי
- מְיוּתָר
- העלאה
- להשתמש
- במקרה להשתמש
- מְשׁוּמָשׁ
- שימושים
- באמצעות
- משתנה
- מגוון
- רכב
- גירסאות
- באמצעות
- לצפיה
- ללכת
- בהדרכה
- we
- אינטרנט
- שירותי אינטרנט
- טוֹב
- מה
- מתי
- אשר
- רָחָב
- יצטרך
- עם
- בתוך
- לְלֹא
- תיק עבודות
- זרימות עבודה
- עובד
- עובד
- לכתוב
- כתיבה
- אתה
- זפירנט