ขอแนะนำแอปพลิเคชัน AI แปลงภาพเป็นคำพูดโดยใช้ Amazon SageMaker และ Hugging Face | บริการเว็บอเมซอน

ขอแนะนำแอปพลิเคชัน AI แปลงภาพเป็นคำพูดโดยใช้ Amazon SageMaker และ Hugging Face | บริการเว็บอเมซอน

การสูญเสียการมองเห็นมีหลายรูปแบบ สำหรับบางคน มันเป็นมาตั้งแต่กำเนิด สำหรับบางคน มันค่อยๆ ลดลงเมื่อเวลาผ่านไปซึ่งมาพร้อมกับวันหมดอายุมากมาย: วันที่คุณไม่สามารถเห็นภาพ จดจำตัวเอง หรือคนที่คุณรักเผชิญ หรือแม้แต่อ่านจดหมายของคุณ ในบล็อกโพสต์ก่อนหน้าของเรา เปิดใช้งานผู้พิการทางสายตาเพื่อฟังเอกสารโดยใช้ Amazon Textract และ Amazon Pollyเราแสดงแอปพลิเคชัน Text to Speech ของเราที่ชื่อว่า “อ่านให้ฉันฟัง” การช่วยสำหรับการเข้าถึงมาไกลแล้ว แต่รูปภาพล่ะ

ที่การประชุม AWS re:Invent ปี 2022 ในลาสเวกัส เราได้แสดงให้เห็น “อธิบายให้ฉันฟัง” ที่งาน AWS Builders' Fair ซึ่งเป็นเว็บไซต์ที่ช่วยให้ผู้พิการทางสายตาเข้าใจภาพผ่านคำบรรยายภาพ การจดจำใบหน้า และการอ่านออกเสียงข้อความ ซึ่งเป็นเทคโนโลยีที่เราเรียกว่า “Image to Speech” ด้วยการใช้บริการ AI/ML หลายรายการ “Describe For Me” จะสร้างคำบรรยายของภาพที่ป้อนเข้า และจะอ่านกลับด้วยเสียงที่ชัดเจนและเป็นธรรมชาติในภาษาและภาษาถิ่นต่างๆ ที่หลากหลาย

ในบล็อกโพสต์นี้ เราจะแนะนำคุณเกี่ยวกับสถาปัตยกรรมโซลูชันที่อยู่เบื้องหลัง “Describe For Me” และข้อควรพิจารณาในการออกแบบโซลูชันของเรา

ภาพรวมโซลูชัน

สถาปัตยกรรมอ้างอิงต่อไปนี้แสดงขั้นตอนการทำงานของผู้ใช้ที่ถ่ายภาพด้วยโทรศัพท์และเล่น MP3 ของคำบรรยายภาพ

สถาปัตยกรรมอ้างอิงสำหรับโซลูชันที่อธิบายไว้

เวิร์กโฟลว์ประกอบด้วยขั้นตอนด้านล่าง

  1. AWS ขยาย เผยแพร่เว็บแอป DescribeForMe ซึ่งประกอบด้วย HTML, JavaScript และ CSS ไปยังอุปกรณ์เคลื่อนที่ของผู้ใช้ปลายทาง
  2. พื้นที่ Amazon Cognito Co Identity Pool อนุญาตให้เข้าถึงชั่วคราว Amazon S3 ถัง.
  3. ผู้ใช้อัปโหลดไฟล์รูปภาพไปยัง Amazon S3 ถังที่ใช้ AWS SDK ผ่านเว็บแอพ
  4. เว็บแอป DescribeForMe เรียกใช้บริการ AI แบ็กเอนด์โดยส่ง Amazon S3 วัตถุ คีย์ในเพย์โหลดไปที่ Amazon API Gateway Amazon
  5. Amazon API Gateway Amazon ยกตัวอย่าง ฟังก์ชันขั้นตอนของ AWS ขั้นตอนการทำงาน เครื่องจักรของรัฐจัดการบริการปัญญาประดิษฐ์ / การเรียนรู้ของเครื่อง (AI / ML) ความหมายของ Amazon, อเมซอน SageMakerAmazon Text, อเมซอน แปลภาษา, และ Amazon Polly  การใช้ AWS แลมบ์ดา ฟังก์ชั่น
  6. พื้นที่ ฟังก์ชันขั้นตอนของ AWS เวิร์กโฟลว์สร้างไฟล์เสียงเป็นเอาต์พุตและจัดเก็บไว้ใน Amazon S3 ในรูปแบบ MP3
  7. URL ที่ลงนามล่วงหน้าพร้อมตำแหน่งของไฟล์เสียงที่จัดเก็บไว้ใน Amazon S3 ถูกส่งกลับไปยังเบราว์เซอร์ของผู้ใช้ผ่าน Amazon API Gateway Amazon. อุปกรณ์เคลื่อนที่ของผู้ใช้เล่นไฟล์เสียงโดยใช้ URL ที่ลงนามล่วงหน้า

แนวทางการแก้ปัญหา

ในส่วนนี้ เรามุ่งเน้นไปที่ข้อควรพิจารณาในการออกแบบว่าทำไมเราถึงเลือก

  1. การประมวลผลแบบขนานภายใน ฟังก์ชันขั้นตอนของ AWS เวิร์กโฟลว์
  2. โมเดลแมชชีนเลิร์นนิงแบบรวมลำดับต่อลำดับของ OFA (One For All) จาก กอดหน้า ไปยัง อเมซอน SageMaker สำหรับคำบรรยายภาพ
  3. ความหมายของ Amazon เพื่อการจดจำใบหน้า

สำหรับภาพรวมโดยละเอียดเพิ่มเติมว่าทำไมเราถึงเลือกสถาปัตยกรรมไร้เซิร์ฟเวอร์, เวิร์กโฟลว์แบบซิงโครนัส, เวิร์กโฟลว์ของฟังก์ชันขั้นตอนด่วน, สถาปัตยกรรมแบบไม่มีส่วนหัว และประโยชน์ที่ได้รับ โปรดอ่านบล็อกโพสต์ก่อนหน้าของเรา เปิดใช้งานผู้พิการทางสายตาเพื่อฟังเอกสารโดยใช้ Amazon Textract และ Amazon Polly

การประมวลผลแบบขนาน

การใช้การประมวลผลแบบขนานภายในเวิร์กโฟลว์ Step Functions ช่วยลดเวลาในการประมวลผลได้ถึง 48% เมื่อผู้ใช้อัปโหลดอิมเมจไปยังบัคเก็ต S3 แล้ว Amazon API Gateway จะสร้างอินสแตนซ์ของเวิร์กโฟลว์ AWS Step Functions จากนั้นฟังก์ชัน Lambda สามฟังก์ชันด้านล่างจะประมวลผลภาพภายในเวิร์กโฟลว์ Step Functions พร้อมกัน

  • ฟังก์ชันแลมบ์ดาตัวแรกที่เรียกใช้ describe_image วิเคราะห์ภาพโดยใช้ รุ่น OFA_IMAGE_CAPTION โฮสต์บนตำแหน่งข้อมูลแบบเรียลไทม์ของ SageMaker เพื่อให้คำบรรยายภาพ
  • เรียกใช้ฟังก์ชัน Lambda ที่สอง describe_faces ขั้นแรกให้ตรวจสอบว่ามีใบหน้าหรือไม่โดยใช้ Amazon Rekognition's ตรวจจับใบหน้า APIและถ้าเป็นจริง ก็จะเรียก API เปรียบเทียบใบหน้า เหตุผลนี้คือการเปรียบเทียบใบหน้าจะส่งข้อผิดพลาดหากไม่พบใบหน้าในภาพ นอกจากนี้ การเรียกใช้ Detect Faces ก่อนยังเร็วกว่าการเรียกใช้การเปรียบเทียบใบหน้าและจัดการข้อผิดพลาด ดังนั้นสำหรับภาพที่ไม่มีใบหน้า เวลาในการประมวลผลจะเร็วขึ้น
  • ฟังก์ชันแลมบ์ดาที่สามเรียกว่า extract_text จัดการการอ่านออกเสียงข้อความโดยใช้ Amazon Texttract และ Amazon Comprehend

การดำเนินการฟังก์ชันแลมบ์ดาแบบต่อเนื่องนั้นเหมาะสม แต่วิธีที่เร็วกว่าและมีประสิทธิภาพมากกว่าคือการประมวลผลแบบขนาน ตารางต่อไปนี้แสดงเวลาในการคำนวณที่บันทึกไว้สำหรับภาพตัวอย่างสามภาพ

ภาพ คน เวลาตามลำดับ เวลาคู่ขนาน ประหยัดเวลา (%) คำบรรยายภาพ
ขอแนะนำแอปพลิเคชัน Generative AI แบบรูปภาพเป็นคำพูดโดยใช้ Amazon SageMaker และ Hugging Face | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI. 0 1869ms 1702ms 8% แมวลายตัวหนึ่งนอนขดตัวอยู่บนเตียงสีขาวนุ่ม
ขอแนะนำแอปพลิเคชัน Generative AI แบบรูปภาพเป็นคำพูดโดยใช้ Amazon SageMaker และ Hugging Face | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI. 1 4277ms 2197ms 48% ผู้หญิงในเสื้อสีเขียวและคาร์ดิแกนสีดำยิ้มให้กล้อง ฉันรู้จักคนหนึ่ง: Kanbo
ขอแนะนำแอปพลิเคชัน Generative AI แบบรูปภาพเป็นคำพูดโดยใช้ Amazon SageMaker และ Hugging Face | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI. 4 6603ms 3904ms 40% คนที่ยืนอยู่หน้า Amazon Spheres ฉันรู้จักคน 3 คน: Kanbo, Jack และ Ayman

คำบรรยายภาพ

Hugging Face เป็นชุมชนโอเพ่นซอร์สและแพลตฟอร์มวิทยาการข้อมูลที่ช่วยให้ผู้ใช้สามารถแชร์ สร้าง ฝึกฝน และปรับใช้โมเดลแมชชีนเลิร์นนิง หลังจากสำรวจโมเดลที่มีในฮับโมเดล Hugging Face แล้ว เราเลือกใช้ แบบจำลอง OFA เนื่องจากตามที่ผู้เขียนอธิบายไว้ มันคือ "กรอบงานที่ไม่เชื่อเรื่องพระเจ้าและแบบไม่เชื่อเรื่องพระเจ้าที่สนับสนุนงานที่ครอบคลุม"

OFA เป็นก้าวไปสู่ ​​"หนึ่งเดียวสำหรับทุกคน" เนื่องจากเป็นโมเดลที่ได้รับการฝึกอบรมล่วงหน้าต่อเนื่องหลายรูปแบบแบบรวมเป็นหนึ่งเดียว ซึ่งสามารถถ่ายโอนไปยังงานดาวน์สตรีมจำนวนหนึ่งได้อย่างมีประสิทธิภาพ แม้ว่าโมเดล OFA จะสนับสนุนงานหลายอย่าง รวมถึงการแสดงภาพ การเข้าใจภาษา และการสร้างภาพ เราใช้ แบบจำลอง OFA สำหรับคำบรรยายภาพ ในโครงการ Describe For Me เพื่อดำเนินการเปลี่ยนรูปภาพเป็นข้อความในส่วนของแอปพลิเคชัน ตรวจสอบพื้นที่เก็บข้อมูลอย่างเป็นทางการของ OFA (ICML 2022) กระดาษ เพื่อเรียนรู้เกี่ยวกับสถาปัตยกรรม ภารกิจ และรูปแบบที่รวมเป็นหนึ่งเดียวของ OFA ผ่านกรอบการเรียนรู้แบบลำดับต่อลำดับอย่างง่าย

ในการรวม OFA ในแอปพลิเคชันของเรา เราได้โคลน repo จาก Hugging Face และคอนเทนเนอร์โมเดลเพื่อปรับใช้กับตำแหน่งข้อมูล SageMaker เดอะ โน๊ตบุ๊คใน repo นี้ เป็นคำแนะนำที่ยอดเยี่ยมในการปรับใช้โมเดลขนาดใหญ่ของ OFA ในสมุดบันทึก Jupyter ใน SageMaker หลังจากบรรจุสคริปต์การอนุมานของคุณแล้ว โมเดลก็พร้อมที่จะปรับใช้หลังตำแหน่งข้อมูล SageMaker ตามที่อธิบายไว้ใน SageMaker เอกสาร. เมื่อปรับใช้โมเดลแล้ว ให้สร้างจุดสิ้นสุด HTTPS ซึ่งสามารถรวมเข้ากับฟังก์ชันแลมบ์ดา “describe_image” ที่วิเคราะห์รูปภาพเพื่อสร้างคำอธิบายภาพ เราปรับใช้โมเดลขนาดเล็กของ OFA เนื่องจากเป็นโมเดลที่เล็กกว่าและใช้งานได้ในระยะเวลาที่สั้นกว่าในขณะที่ให้ประสิทธิภาพที่ใกล้เคียงกัน

ตัวอย่างของเนื้อหาภาพเป็นคำพูดที่สร้างโดย “Describe For Me“ แสดงอยู่ด้านล่าง:

แสงออโรรา บอเรลลีส หรือแสงเหนือ ส่องประกายบนท้องฟ้ายามค่ำคืนเหนือเงาของบ้าน...

แสงออโรรา บอเรลลีส หรือแสงเหนือ ส่องประกายบนท้องฟ้ายามค่ำคืนเหนือเงาของบ้าน...

สุนัขนอนบนผ้าห่มสีแดงบนพื้นไม้เนื้อแข็ง ข้างกระเป๋าเดินทางที่เต็มไปด้วยของเล่น..

สุนัขนอนบนผ้าห่มสีแดงบนพื้นไม้เนื้อแข็ง ข้างกระเป๋าเดินทางที่เต็มไปด้วยของเล่น..

แมวลายตัวหนึ่งนอนขดตัวอยู่บนเตียงสีขาวนุ่ม

แมวลายตัวหนึ่งนอนขดตัวอยู่บนเตียงสีขาวนุ่ม

จดจำใบหน้า

Amazon Rekognition Image นำเสนอ ตรวจจับใบหน้า การทำงานที่ค้นหาลักษณะใบหน้าที่สำคัญ เช่น ตา จมูก และปาก เพื่อตรวจจับใบหน้าในภาพอินพุต ในโซลูชันของเรา เราใช้ฟังก์ชันนี้เพื่อตรวจหาบุคคลในภาพอินพุต หากตรวจพบบุคคลเราจะใช้ เปรียบเทียบใบหน้า การดำเนินการเพื่อเปรียบเทียบใบหน้าในภาพอินพุตกับใบหน้าที่ “Describe For Me” ได้รับการฝึกและอธิบายบุคคลตามชื่อ เราเลือกใช้ Rekognition สำหรับการตรวจจับใบหน้าเนื่องจากมีความแม่นยำสูงและความง่ายในการรวมเข้ากับแอปพลิเคชันของเราด้วยความสามารถนอกกรอบ

กลุ่มคนกำลังถ่ายรูปในห้อง ฉันรู้จัก 4 คน: Jack, Kanbo, Alak และ Trac มีการพบข้อความในภาพด้วย อ่านว่า: AWS re: Invent

กลุ่มคนกำลังถ่ายรูปในห้อง ฉันรู้จัก 4 คน: Jack, Kanbo, Alak และ Trac มีการพบข้อความในภาพด้วย อ่านว่า: AWS re: Invent

กรณีการใช้งานที่เป็นไปได้

การสร้างข้อความสำรองสำหรับรูปภาพบนเว็บ

รูปภาพทั้งหมดบนเว็บไซต์จำเป็นต้องมีข้อความแสดงแทนเพื่อให้โปรแกรมอ่านหน้าจอสามารถพูดกับผู้พิการทางสายตาได้ นอกจากนี้ยังดีสำหรับการเพิ่มประสิทธิภาพเครื่องมือค้นหา (SEO) การสร้างคำบรรยายภาพแทนอาจใช้เวลานานเนื่องจากผู้เขียนคำโฆษณาได้รับมอบหมายให้จัดเตรียมไว้ในเอกสารการออกแบบ API ของ Describe For Me สามารถสร้างข้อความแสดงแทนสำหรับรูปภาพได้โดยอัตโนมัติ นอกจากนี้ยังสามารถใช้เป็นปลั๊กอินของเบราว์เซอร์เพื่อเพิ่มคำบรรยายภาพให้กับรูปภาพที่ไม่มีข้อความแสดงแทนบนเว็บไซต์ใดๆ โดยอัตโนมัติ

คำอธิบายเสียงสำหรับวิดีโอ

คำอธิบายเสียงมีแทร็กเสียงบรรยายสำหรับเนื้อหาวิดีโอเพื่อช่วยให้ผู้พิการทางสายตาติดตามไปพร้อมกับภาพยนตร์ เมื่อคำบรรยายภาพมีประสิทธิภาพและแม่นยำมากขึ้น เวิร์กโฟลว์ที่เกี่ยวข้องกับการสร้างแทร็กเสียงตามคำอธิบายสำหรับส่วนสำคัญของฉากอาจเป็นไปได้ Amazon Rekognition สามารถตรวจจับการเปลี่ยนแปลงของฉาก โลโก้ ลำดับเครดิต และการตรวจจับคนดังได้แล้ว คำอธิบายเวอร์ชันในอนาคตจะอนุญาตให้ใช้คุณสมบัติหลักนี้โดยอัตโนมัติสำหรับภาพยนตร์และวิดีโอ

สรุป

ในโพสต์นี้ เราได้กล่าวถึงวิธีการใช้บริการของ AWS รวมถึง AI และบริการแบบไร้เซิร์ฟเวอร์ เพื่อช่วยให้ผู้พิการทางสายตามองเห็นภาพได้ คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับโครงการ Describe For Me และใช้งานได้โดยไปที่ Descriptionforme.com. เรียนรู้เพิ่มเติมเกี่ยวกับคุณลักษณะเฉพาะของ อเมซอน SageMakerการรับรู้ของ Amazon และ ความร่วมมือของ AWS กับ Hugging Face.

ข้อจำกัดความรับผิดชอบของโมเดล ML บุคคลที่สามสำหรับคำแนะนำ

คำแนะนำนี้มีวัตถุประสงค์เพื่อให้ข้อมูลเท่านั้น คุณยังคงควรทำการประเมินโดยอิสระของคุณเอง และใช้มาตรการเพื่อให้แน่ใจว่าคุณปฏิบัติตามแนวทางปฏิบัติและมาตรฐานการควบคุมคุณภาพเฉพาะของคุณเอง รวมถึงกฎ กฎหมาย ข้อบังคับ ใบอนุญาต และเงื่อนไขการใช้งานในท้องถิ่นที่บังคับใช้กับคุณ เนื้อหาของคุณ และ โมเดลแมชชีนเลิร์นนิงของบุคคลที่สามที่อ้างอิงในคำแนะนำนี้ AWS ไม่มีอำนาจควบคุมหรืออำนาจเหนือโมเดล Machine Learning ของบุคคลที่สามที่อ้างอิงในคำแนะนำนี้ และไม่ได้รับรองหรือรับประกันว่าโมเดล Machine Learning ของบุคคลที่สามนั้นปลอดภัย ปราศจากไวรัส ใช้งานได้ หรือเข้ากันได้กับสภาพแวดล้อมการผลิตของคุณ และมาตรฐาน AWS ไม่ได้รับรอง รับประกัน หรือรับประกันว่าข้อมูลใดๆ ในคำแนะนำนี้จะส่งผลให้เกิดผลลัพธ์หรือผลลัพธ์ที่เฉพาะเจาะจง


เกี่ยวกับผู้เขียน

แจ็ค มาร์เค็ตติแจ็ค มาร์เค็ตติ เป็นสถาปนิกอาวุโสด้านโซลูชันของ AWS ที่มุ่งเน้นการช่วยเหลือลูกค้าในการปรับปรุงและนำสถาปัตยกรรมที่ขับเคลื่อนด้วยเหตุการณ์มาใช้แบบไร้เซิร์ฟเวอร์ แจ็คตาบอดตามกฎหมายและอาศัยอยู่ในชิคาโกกับเอริน ภรรยาของเขาและแมวมิโน เขายังเป็นผู้เขียนบทและผู้กำกับที่มุ่งเน้นไปที่ภาพยนตร์คริสต์มาสและสยองขวัญเป็นหลัก ดูผลงานภาพยนตร์ของแจ็คที่เขา หน้า IMDb.

อาลัก เอสวาร์ดาสอาลัก เอสวาร์ดาส เป็น Senior Solutions Architect ที่ AWS ในเมืองชิคาโก รัฐอิลลินอยส์ เธอมีความกระตือรือร้นในการช่วยลูกค้าออกแบบสถาปัตยกรรมระบบคลาวด์โดยใช้บริการของ AWS เพื่อแก้ปัญหาความท้าทายทางธุรกิจ Alak มีความกระตือรือร้นในการใช้ SageMaker เพื่อแก้ไขกรณีการใช้งาน ML ที่หลากหลายสำหรับลูกค้า AWS เมื่อเธอไม่ได้ทำงาน Alak ชอบใช้เวลากับลูกสาวและออกสำรวจกลางแจ้งกับสุนัขของเธอ

แคนดีซี โบแฮนนอนแคนดีซี โบแฮนนอน เป็นสถาปนิกโซลูชันอาวุโสจากมินนิอาโปลิส มินนิโซตา ในบทบาทนี้ Kandyce ทำงานเป็นที่ปรึกษาด้านเทคนิคให้กับลูกค้า AWS ขณะที่พวกเขาปรับปรุงกลยุทธ์ด้านเทคโนโลยีให้ทันสมัย ​​โดยเฉพาะที่เกี่ยวข้องกับข้อมูลและ DevOps เพื่อนำแนวทางปฏิบัติที่ดีที่สุดใน AWS ไปใช้ นอกจากนี้ Kandyce ยังหลงใหลในการให้คำปรึกษาแก่นักเทคโนโลยีรุ่นต่อๆ ไป และนำเสนอผู้หญิงในแวดวงเทคโนโลยีผ่านโปรแกรม AWS She Builds Tech Skills

แทรค โดแทรค โด เป็นสถาปนิกโซลูชันที่ AWS ในบทบาทของเขา Trac ทำงานร่วมกับลูกค้าองค์กรเพื่อสนับสนุนการโยกย้ายระบบคลาวด์และความคิดริเริ่มในการปรับปรุงแอปพลิเคชันให้ทันสมัย เขาหลงใหลในการเรียนรู้ความท้าทายของลูกค้าและแก้ปัญหาด้วยโซลูชันที่แข็งแกร่งและปรับขนาดได้โดยใช้บริการของ AWS ปัจจุบัน Trac อาศัยอยู่ในชิคาโกกับภรรยาและลูกชาย 3 คน เขาเป็นคนที่คลั่งไคล้การบินอย่างมากและอยู่ในขั้นตอนของการขอใบอนุญาตนักบินส่วนตัว

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS