חברות בתעשיות שונות יוצרות, סורקות ומאחסנות כמויות גדולות של מסמכי PDF. במקרים רבים, התוכן כבד בטקסט ולרוב כתוב בשפה אחרת ודורש תרגום. כדי להתמודד עם זה, אתה צריך פתרון אוטומטי כדי לחלץ את התוכן בתוך קובצי PDF אלה ולתרגם אותם במהירות ובעלות יעילה.
לעסקים רבים יש משתמשים גלובליים מגוונים וצריכים לתרגם טקסט כדי לאפשר תקשורת חוצה לשונית ביניהם. זהו מאמץ אנושי ידני, איטי ויקר. יש צורך למצוא פתרון ניתן להרחבה, אמין וחסכוני לתרגום מסמכים תוך שמירה על עיצוב המסמך המקורי.
עבור ענפים כגון שירותי בריאות, עקב דרישות רגולטוריות, המסמכים המתורגמים דורשים אדם נוסף במעגל כדי לאמת את תקפות המסמך המתורגם במכונה.
אם המסמך המתורגם אינו שומר על העיצוב והמבנה המקוריים, הוא מאבד את ההקשר שלו. זה יכול להקשות על סוקר אנושי לאמת ולבצע תיקונים.
בפוסט זה, אנו מדגימים כיצד ליצור PDF מתורגם חדש ממסמך PDF סרוק תוך שמירה על מבנה המסמך המקורי ועיצוב באמצעות גישה מבוססת גיאומטריה עם טקסטורה באמזון, אמזון תרגם, ו אפאצ'י PDFBox.
סקירת פתרונות
הפתרון המוצג בפוסט זה משתמש ברכיבים הבאים:
- טקסטורה באמזון - שירות למידת מכונה מנוהלת במלואה (ML) המחלץ אוטומטית טקסט מודפס, כתב יד ונתונים אחרים ממסמכים סרוקים שחורג מעבר לזיהוי תווים אופטי פשוט (OCR) כדי לזהות, להבין ולחלץ נתונים מטפסים וטבלאות. Amazon Textract יכולה לזהות טקסט במגוון מסמכים, כולל דוחות כספיים, רשומות רפואיות וטפסי מס.
- אמזון תרגם – שירות תרגום מכונות עצביות המספק תרגום שפה מהיר, איכותי ובמחיר סביר. Amazon Translate מספקת יכולות תרגום לפי דרישה ואצווה באיכות גבוהה ביותר מ-2,970 צמדי שפות, תוך הפחתת עלויות התרגום שלך.
- תרגום PDF – ספריית קוד פתוח שנכתבה ב-Java ופורסמה ב- דוגמאות של AWS ב-GitHub. ספרייה זו מכילה היגיון ליצור מסמכי PDF מתורגמים בשפה הרצויה לך עם Amazon Textract ו-Amazon Translate. הוא גם משתמש בספריית Java בקוד פתוח Apache PDFBox כדי ליצור מסמכי PDF. יש ספריות דומות לעיבוד PDF זמינות בשפות תכנות אחרות, למשל צומת PDFBox.
בזמן ביצוע תרגומי מכונה, ייתכן שיהיו לך מצבים שבהם ברצונך לשמור על קטעי טקסט ספציפיים מפני תרגום, כגון שמות או מזהים ייחודיים. Amazon Translate מאפשר שינויי תגים, המאפשרים לך לציין איזה טקסט אסור לתרגם. Amazon Translate תומך גם בהתאמה אישית של פורמליות, המאפשרת לך להתאים אישית את רמת הרשמיות בפלט התרגום שלך.
לפרטים על מגבלות Amazon Textract, עיין ב מכסות ב- Amazon Textract.
הפתרון מוגבל לשפות שניתן לחלץ על ידי Amazon Textract, אשר תומכת כיום באנגלית, ספרדית, איטלקית, פורטוגזית, צרפתית וגרמנית. שפות אלו נתמכות גם על ידי Amazon Translate. לרשימה המלאה של השפות הנתמכות על ידי Amazon Translate, עיין ב שפות נתמכות וקודי שפה.
אנו משתמשים ב-PDF הבא כדי להדגים את תרגום הטקסט מאנגלית לספרדית. הפתרון תומך גם ביצירת המסמך המתורגם ללא כל עיצוב. המיקום של הטקסט המתורגם נשמר. ניתן למצוא את המקור ואת מסמכי ה-PDF המתורגמים גם ב- דוגמאות AWS ל- GitHub repo.
בסעיפים הבאים, אנו מדגימים כיצד להפעיל את קוד התרגום במכונה מקומית ולהסתכל על קוד התרגום ביתר פירוט.
תנאים מוקדמים
לפני שתתחיל, הגדר את חשבון AWS שלך ואת ממשק שורת הפקודה של AWS (AWS CLI). עבור גישה לכל שירותי AWS כגון Textract ו-Translate, יש צורך בהרשאות IAM מתאימות. אנו ממליצים להשתמש בהרשאות הנמוכות ביותר. למידע נוסף על הרשאות IAM ראה מדיניות והרשאות ב-IAM כמו גם איך Amazon Textract עובד עם IAM ו איך Amazon Translate עובד עם IAM.
הפעל את קוד התרגום במכונה מקומית
פתרון זה מתמקד בקוד Java העצמאי לחילוץ ותרגום מסמך PDF. זה נועד לבדיקות והתאמות אישיות קלות יותר כדי לקבל את מסמך ה-PDF המתורגם בצורה הטובה ביותר. לאחר מכן ניתן לשלב את הקוד בפתרון אוטומטי לפריסה והרצה ב-AWS. לִרְאוֹת תרגום מסמכי PDF באמצעות Amazon Translate ו- Amazon Textract עבור ארכיטקטורה לדוגמה המשתמשת שירות אחסון פשוט של אמזון (Amazon S3) לאחסון המסמכים ו AWS למבדה כדי להפעיל את הקוד.
כדי להפעיל את הקוד במחשב מקומי, בצע את השלבים הבאים. דוגמאות הקוד זמינות ב- ריפו GitHub.
- שיבוט את מאגר GitHub:
- הפעל את הפקודה הבאה:
- הפעל את הפקודה הבאה כדי לתרגם מאנגלית לספרדית:
שני מסמכי PDF מתורגמים נוצרים בתיקיית המסמכים, עם ובלי העיצוב המקורי (SampleOutput-es.pdf
ו SampleOutput-min-es.pdf
).
קוד להפקת ה-PDF המתורגם
קטעי הקוד הבאים מראים כיצד לקחת מסמך PDF וליצור מסמך PDF מתורגם תואם. הוא מחלץ את הטקסט באמצעות Amazon Textract ויוצר את ה-PDF המתורגם על ידי הוספת הטקסט המתורגם כשכבה לתמונה. זה מתבסס על הפתרון שמוצג בפוסט הפקת קובצי PDF הניתנים לחיפוש ממסמכים סרוקים באופן אוטומטי עם Amazon Textract.
הקוד מקבל תחילה כל שורת טקסט עם Amazon Textract. Amazon Translate משמש כדי לקבל טקסט מתורגם ולשמור את הגיאומטריה של הטקסט המתורגם.
גודל הגופן מחושב באופן הבא וניתן להגדיר אותו בקלות:
ה-PDF המתורגם נוצר מהגיאומטריה השמורה ומהטקסט המתורגם. ניתן להגדיר בקלות שינויים בצבע הטקסט המתורגם.
התמונה הבאה מציגה את המסמך מתורגם לספרדית עם העיצוב המקורי (SampleOutput-es.pdf
).
התמונה הבאה מציגה את ה-PDF המתורגם בספרדית ללא כל עיצוב (SampleOutput-min-es.pdf
).
זמן עיבוד
בקשת ה-PDF לתעסוקה ארכה כ-10 שניות לחלץ, לעבד ולעבד את ה-PDF המתורגם. זמן העיבוד של מסמך כבד טקסט כגון מגילת העצמאות PDF ארך פחות מדקה.
עלות
עם Amazon Textract, אתה משלם תוך כדי תנועה על סמך מספר הדפים והתמונות שעובדו. עם Amazon Translate, אתה משלם תוך כדי תנועה על סמך מספר תווי הטקסט המעובדים. מתייחס תמחור אמזון טקסטראקט ו תמחור של אמזון טרנסל עבור עלויות בפועל.
סיכום
פוסט זה הראה כיצד להשתמש ב- Amazon Textract וב- Amazon Translate כדי ליצור מסמכי PDF מתורגמים תוך שמירה על מבנה המסמך המקורי. ניתן לבחון אופציונלי לאחר עיבוד של תוצאות Amazon Textract כדי לשפר את איכות התרגום, למשל ניתן להעביר מילים שחולצו דרך בדיקות איות מבוססות ML כגון סימספל לאימות נתונים, או ניתן להשתמש באלגוריתמים של אשכולות כדי לשמור על סדר הקריאה. אתה יכול גם להשתמש אמזון AI מוגדל (Amazon A2I) לבניית זרימות עבודה של סקירה אנושית שבהן תוכל להשתמש בכוח העבודה הפרטי שלך כדי לסקור את מסמכי ה-PDF המקוריים והמתורגמים כדי לספק דיוק והקשר רב יותר. לִרְאוֹת תכנון זרימות עבודה של ביקורת אנושית באמצעות Amazon Translate ו- AI Augmented AI ו בניית זרימת עבודה לתרגום מסמכים רב לשוני עם התאמה אישית ספציפית לתחום ולשפה כדי להתחיל בעבודה.
על הכותבים
אנובה סינגאל הוא אדריכל ענן בכיר בחברת Amazon Web Services בארגון AWS Professional Services.
שון לורנס היה בעבר מהנדס קצה ב-AWS. הוא התמחה בפיתוח קצה בארגון AWS Professional Services ובצוות הפרטיות של אמזון.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. רכב / רכבים חשמליים, פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- BlockOffsets. מודרניזציה של בעלות על קיזוז סביבתי. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- אודות
- גישה
- חֶשְׁבּוֹן
- דיוק
- לרוחב
- ממשי
- מוסיף
- נוסף
- כתובת
- מחיר סביר
- אלגוריתמים
- מאפשר
- גם
- אמזון בעברית
- טקסטורה באמזון
- אמזון תרגם
- אמזון שירותי אינטרנט
- an
- ו
- כל
- אַפָּשׁ
- בקשה
- גישה
- מתאים
- ארכיטקטורה
- ARE
- AS
- At
- מוגבר
- אוטומטי
- באופן אוטומטי
- זמין
- AWS
- שירותים מקצועיים של AWS
- מבוסס
- BE
- להיות
- בֵּין
- מעבר
- שחור
- לחסום
- אבני
- אריזה מקורית
- לִבנוֹת
- בונה
- עסקים
- by
- מחושב
- CAN
- יכולות
- מקרים
- שינויים
- אופי
- זיהוי תווים
- תווים
- ענן
- קיבוץ
- קוד
- צֶבַע
- תקשורת
- להשלים
- מוגדר
- מכיל
- תוכן
- תוכן
- הקשר
- תיקונים
- תוֹאֵם
- עלות תועלת
- עלויות
- לִיצוֹר
- נוצר
- יוצר
- כיום
- התאמה אישית
- אישית
- נתונים
- מספק
- להפגין
- לפרוס
- רצוי
- פרט
- פרטים
- צעצועי התפתחות
- אחר
- קשה
- שונה
- מסמך
- מסמכים
- לא
- ראוי
- כל אחד
- קל יותר
- בקלות
- מאמץ
- אחר
- תעסוקה
- לאפשר
- סוף
- מהנדס
- אנגלית
- דוגמה
- דוגמאות
- יקר
- תמצית
- תמציות
- שקר
- מהר
- למלא
- כספי
- ראשון
- לָצוּף
- מתמקד
- הבא
- כדלקמן
- בעד
- לשעבר
- צורות
- מצא
- צרפתית
- החל מ-
- חזית
- חזיתי
- פיתוח קצה
- מלא
- לגמרי
- ליצור
- יצירת
- גרמנית
- לקבל
- GitHub
- גלוֹבָּלִי
- Go
- Goes
- יש
- he
- בריאות
- כבד
- גובה
- כאן
- באיכות גבוהה
- בית
- איך
- איך
- HTML
- http
- HTTPS
- בן אנוש
- מזהים
- לזהות
- if
- תמונה
- תמונות
- לשפר
- in
- באחר
- לכלול
- כולל
- תעשיות
- קלט
- משולב
- אל תוך
- IT
- שֶׁלָה
- Java
- שפה
- שפות
- גָדוֹל
- שכבה
- לִלמוֹד
- למידה
- הכי פחות
- עזבו
- פחות
- רמה
- ספריות
- סִפְרִיָה
- גבולות
- קו
- קווים
- רשימה
- מקומי
- הגיון
- נראה
- מאבד
- מכונה
- למידת מכונה
- לעשות
- הצליח
- מדריך ל
- רב
- מאי..
- רפואי
- דקה
- ML
- שינויים
- יותר
- שמות
- צורך
- נחוץ
- חדש
- מספר
- אובייקט
- OCR
- of
- לעתים קרובות
- on
- On-Demand
- קוד פתוח
- מבצע
- זיהוי תווים אופטי
- or
- להזמין
- ארגון
- מְקוֹרִי
- אחר
- תפוקה
- שֶׁלוֹ
- עמוד
- דפים
- זוגות
- עבר
- תשלום
- ביצוע
- הרשאות
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- פורטוגזי
- עמדה
- הודעה
- מוצג
- פְּרָטִיוּת
- פְּרָטִי
- זְכוּת
- תהליך
- מעובד
- תהליך
- מקצועי
- תכנות
- שפות תכנות
- לספק
- מספק
- לאור
- איכות
- מהירות
- קריאה
- הכרה
- להמליץ
- רשום
- באזור
- רגולטורים
- אָמִין
- דוחות לדוגמא
- לדרוש
- דרישות
- דורש
- מוגבל
- תוצאות
- לִשְׁמוֹר
- שמירה
- לַחֲזוֹר
- סקירה
- הפעלה
- שמור
- להרחבה
- סריקה
- שניות
- סעיפים
- לִרְאוֹת
- לחצני מצוקה לפנסיונרים
- שרות
- שירותים
- סט
- צריך
- לְהַצִיג
- הראה
- הראה
- הופעות
- דומה
- פָּשׁוּט
- מצבים
- מידה
- להאט
- פִּתָרוֹן
- מָקוֹר
- ספרדי
- מיוחד
- ספציפי
- עצמאי
- החל
- צעדים
- אחסון
- חנות
- מחרוזת
- מִבְנֶה
- כזה
- נתמך
- תומך
- תָג
- לקחת
- מס
- נבחרת
- בדיקות
- מֵאֲשֶׁר
- זֶה
- השמיים
- המקור
- אותם
- אז
- שם.
- אלה
- זֶה
- דרך
- זמן
- ל
- לקח
- חלק עליון
- לתרגם
- תרגום
- להבין
- ייחודי
- להשתמש
- מְשׁוּמָשׁ
- משתמשים
- שימושים
- באמצעות
- ניצול
- לְאַמֵת
- אימות
- מגוון
- שונים
- לאמת
- אנכיות
- לצפיה
- כרכים
- היה
- we
- אינטרנט
- שירותי אינטרנט
- טוֹב
- מה
- אשר
- בזמן
- לבן
- רוחב
- עם
- בתוך
- לְלֹא
- מילים
- זרימת עבודה
- זרימות עבודה
- כוח עבודה
- עובד
- כתוב
- אתה
- זפירנט