ระบุภาษาโดยอัตโนมัติในเสียงหลายภาษาโดยใช้ Amazon Transcribe

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

หากคุณทำงานในประเทศที่มีภาษาทางการหลายภาษาหรือในหลายภูมิภาค ไฟล์เสียงของคุณอาจมีภาษาต่างๆ ผู้เข้าร่วมอาจพูดภาษาที่แตกต่างกันโดยสิ้นเชิงหรืออาจสลับไปมาระหว่างภาษาต่างๆ พิจารณาการโทรติดต่อฝ่ายบริการลูกค้าเพื่อรายงานปัญหาในพื้นที่ที่มีประชากรหลายภาษาจำนวนมาก แม้ว่าการสนทนาจะเริ่มต้นในภาษาเดียว แต่ก็มีความเป็นไปได้ที่ลูกค้าจะเปลี่ยนเป็นภาษาอื่นเพื่ออธิบายปัญหา ทั้งนี้ขึ้นอยู่กับระดับความสะดวกสบายหรือการตั้งค่าการใช้งานกับภาษาอื่น ในทำนองเดียวกัน ตัวแทนฝ่ายดูแลลูกค้าอาจเปลี่ยนระหว่างภาษาต่างๆ ในขณะที่ถ่ายทอดคำแนะนำในการใช้งานหรือการแก้ไขปัญหา

ด้วยเสียงอย่างน้อย 3 วินาที ถอดความจากอเมซอน สามารถระบุและสร้างการถอดเสียงโดยอัตโนมัติอย่างมีประสิทธิภาพในภาษาที่พูดในเสียง โดยไม่จำเป็นต้องให้มนุษย์ระบุภาษา สิ่งนี้นำไปใช้กับกรณีการใช้งานต่างๆ เช่น การถอดเสียงการโทรของลูกค้า การแปลงข้อความเสียงเป็นข้อความ การจับภาพการโต้ตอบในการประชุม การติดตามการสื่อสารในฟอรัมของผู้ใช้ หรือการตรวจสอบการผลิตเนื้อหาสื่อและเวิร์กโฟลว์การแปลเป็นภาษาท้องถิ่น

โพสต์นี้จะแนะนำขั้นตอนสำหรับการถอดเสียงไฟล์เสียงหลายภาษาโดยใช้ Amazon Transcribe เราจะหารือเกี่ยวกับวิธีทำให้ไฟล์เสียงพร้อมใช้งานสำหรับ Amazon Transcribe และเปิดใช้งานการถอดเสียงของไฟล์เสียงหลายภาษาเมื่อเรียกใช้ Amazon Transcribe API

ภาพรวมโซลูชัน

Amazon Transcribe เป็นบริการของ AWS ที่ช่วยให้คุณแปลงคำพูดเป็นข้อความได้ง่าย การเพิ่มฟังก์ชันเสียงพูดเป็นข้อความในแอปพลิเคชันใดๆ นั้นง่ายดายด้วยความช่วยเหลือของ Amazon Transcribe ซึ่งเป็นบริการการรู้จำเสียงพูดอัตโนมัติ (ASR) คุณสามารถรับอินพุตเสียงโดยใช้ Amazon Transcribe สร้างการถอดเสียงที่ชัดเจนซึ่งอ่านและตรวจสอบได้ง่าย เพิ่มความแม่นยำด้วยการปรับแต่ง และกรองข้อมูลเพื่อปกป้องความเป็นส่วนตัวของลูกค้า

สารละลายยังใช้ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) บริการจัดเก็บวัตถุที่สร้างขึ้นเพื่อจัดเก็บและดึงข้อมูลจำนวนเท่าใดก็ได้จากทุกที่ เป็นบริการจัดเก็บข้อมูลที่เรียบง่ายซึ่งนำเสนอความทนทาน ความพร้อมใช้งาน ประสิทธิภาพ ความปลอดภัย และความสามารถในการปรับขนาดได้ไม่จำกัดในระดับชั้นนำของอุตสาหกรรมด้วยต้นทุนที่ต่ำมาก เมื่อคุณจัดเก็บข้อมูลใน Amazon S3 คุณจะทำงานกับทรัพยากรที่เรียกว่า บุ้งกี๋ และ วัตถุ. บัคเก็ตคือคอนเทนเนอร์สำหรับวัตถุ วัตถุคือไฟล์และข้อมูลเมตาใดๆ ที่อธิบายถึงไฟล์

ในโพสต์นี้ เราจะแนะนำคุณเกี่ยวกับขั้นตอนต่อไปนี้เพื่อใช้โซลูชันการถอดเสียงหลายภาษา:

สร้างบัคเก็ต S3
อัปโหลดไฟล์เสียงของคุณไปที่บัคเก็ต
สร้างงานถอดความ
ตรวจสอบผลลัพธ์ของงาน

เบื้องต้น

สำหรับคำแนะนำนี้ คุณควรมีข้อกำหนดเบื้องต้นต่อไปนี้:

Amazon Transcribe มีตัวเลือกในการจัดเก็บเอาต์พุตที่ถอดเสียงไว้ในบัคเก็ต S3 ที่จัดการโดยบริการหรือที่จัดการโดยลูกค้า สำหรับโพสต์นี้ เรามี Amazon Transcribe เขียนผลลัพธ์ไปยังบัคเก็ต S3 ที่จัดการโดยบริการ

โปรดทราบว่า Amazon Transcribe เป็นบริการระดับภูมิภาคและตำแหน่งข้อมูล Amazon Transcribe API ที่ถูกเรียกใช้ต้องอยู่ในภูมิภาคเดียวกับบัคเก็ต S3

สร้างบัคเก็ต S3 เพื่อจัดเก็บไฟล์อินพุตเสียงของคุณ

หากต้องการสร้างบัคเก็ต S3 ให้ทำตามขั้นตอนต่อไปนี้:

บนคอนโซล Amazon S3 ให้เลือก สร้างที่เก็บข้อมูล.
สำหรับ ชื่อถังป้อนชื่อเฉพาะส่วนกลางสำหรับบัคเก็ต
สำหรับ ภูมิภาค AWSเลือกภูมิภาคเดียวกับตำแหน่งข้อมูล Amazon Transcribe API ของคุณ
ปล่อยค่าเริ่มต้นทั้งหมดตามที่เป็นอยู่
Choose สร้างที่เก็บข้อมูล.

อัปโหลดไฟล์เสียงของคุณไปยังบัคเก็ต S3

อัปโหลดไฟล์เสียงหลายภาษาไปยังบัคเก็ต S3 ในบัญชี AWS ของคุณ สำหรับจุดประสงค์ของแบบฝึกหัดนี้ เราใช้ตัวอย่างต่อไปนี้ ไฟล์เสียงหลายภาษา. โดยจะจับสายสนับสนุนลูกค้าที่เกี่ยวข้องกับภาษาอังกฤษและสเปน.

บนคอนโซล Amazon S3 ให้เลือก บุ้งกี๋ ในบานหน้าต่างนำทาง
เลือกที่เก็บข้อมูลที่คุณสร้างไว้ก่อนหน้านี้เพื่อจัดเก็บไฟล์เสียงอินพุต
Choose อัพโหลด.
Choose เพิ่มไฟล์.
เลือกไฟล์เสียงที่คุณต้องการคัดลอกจากเครื่องคอมพิวเตอร์ของคุณ
Choose อัพโหลด.

ไฟล์เสียงของคุณจะพร้อมใช้งานในบัคเก็ต S3 ในไม่ช้า

สร้างงานถอดความ

เมื่ออัปโหลดไฟล์เสียงแล้ว ตอนนี้เราสร้างงานการถอดความ

บนคอนโซล Amazon Transcribe ให้เลือก งานถอดความ ในบานหน้าต่างนำทาง
Choose สร้างงาน.
สำหรับ Nameป้อนชื่อเฉพาะสำหรับงาน
นี่จะเป็นชื่อของไฟล์การถอดเสียงเอาต์พุตด้วย
สำหรับ ตั้งค่าภาษาให้เลือก การระบุหลายภาษาโดยอัตโนมัติ.
คุณลักษณะนี้ทำให้ Amazon Transcribe สามารถระบุและถอดเสียงทุกภาษาที่พูดในไฟล์เสียงได้โดยอัตโนมัติ
สำหรับ ตัวเลือกภาษาสำหรับการระบุภาษาอัตโนมัติให้ปล่อยไว้โดยไม่เลือก
Amazon Transcribe จะระบุและถอดเสียงทุกภาษาที่พูดในเสียงโดยอัตโนมัติ เพื่อปรับปรุงความแม่นยำในการถอดเสียง คุณสามารถเลือกได้สองภาษาหรือมากกว่าที่คุณรู้ว่ามีการพูดในเสียง
สำหรับ ประเภทรุ่น, เพียง รุ่นทั่วไป ตัวเลือกสามารถใช้ได้ในขณะที่เขียนโพสต์นี้
สำหรับ ป้อนข้อมูลเลือก เรียกดู S3.
เลือกไฟล์ต้นฉบับเสียงที่เราอัปโหลดไว้ก่อนหน้านี้
สำหรับ ข้อมูลเอาต์พุตคุณสามารถเลือกอย่างใดอย่างหนึ่ง บัคเก็ต S3 ที่จัดการโดยบริการ or ลูกค้าระบุที่เก็บข้อมูล S3. สำหรับโพสต์นี้ เลือก บัคเก็ต S3 ที่จัดการโดยบริการ
Choose ถัดไป.
Choose สร้างงาน.

ตรวจสอบผลงาน

เมื่องานถอดความเสร็จสมบูรณ์ ให้เปิดงานถอดความ

เลื่อนลงไปที่ ตัวอย่างการถอดความ ส่วน. การถอดเสียงจะแสดงบน ข้อความ แท็บ การถอดความมีทั้งส่วนที่เป็นภาษาอังกฤษและสเปนของการสนทนา

คุณสามารถเลือกดาวน์โหลดสำเนาการถอดเสียงเป็นไฟล์ JSON ซึ่งนำไปใช้เพิ่มเติมได้ การวิเคราะห์หลังการโทร.

ทำความสะอาด

เพื่อหลีกเลี่ยงค่าใช้จ่ายในอนาคต ให้ล้างข้อมูลและลบบัคเก็ต S3 ที่คุณสร้างขึ้นสำหรับจัดเก็บไฟล์ต้นฉบับเสียงอินพุต ตรวจสอบให้แน่ใจว่าคุณจัดเก็บไฟล์ไว้ที่อื่น เพราะการดำเนินการนี้จะลบวัตถุทั้งหมดที่อยู่ในบัคเก็ตอย่างถาวร ในคอนโซล Amazon Transcribe ให้เลือกและลบงานที่สร้างไว้ก่อนหน้านี้สำหรับการถอดเสียง

สรุป

ในโพสต์นี้ เราได้สร้างเวิร์กโฟลว์แบบ end-to-end เพื่อทำให้การระบุและการถอดเสียงไฟล์เสียงหลายภาษาเป็นไปโดยอัตโนมัติ โดยไม่ต้องเขียนโค้ดใดๆ เราใช้ฟังก์ชันใหม่ใน Amazon Transcribe เพื่อระบุภาษาต่างๆ ในไฟล์เสียงโดยอัตโนมัติ และถอดเสียงแต่ละภาษาได้อย่างถูกต้อง

สำหรับข้อมูลเพิ่มเติมโปรดดูที่ การระบุภาษาพร้อมงานการถอดความแบบกลุ่ม.

เกี่ยวกับผู้เขียน

มูร์ตูซา บูทวาลา เป็นสถาปนิกโซลูชันอาวุโสของ AWS ที่มีความสนใจในเทคโนโลยี AI/ML เขาสนุกกับการทำงานร่วมกับลูกค้าเพื่อช่วยให้บรรลุผลลัพธ์ทางธุรกิจ นอกเวลางาน เขาชอบทำกิจกรรมกลางแจ้งและใช้เวลากับครอบครัว

วิกเตอร์สีแดง มีความหลงใหลเกี่ยวกับ AI/ML และการพัฒนาซอฟต์แวร์ เขาช่วยให้ Amazon Alexa ใช้งานได้ในสหรัฐอเมริกาและเม็กซิโก เขายังนำ Amazon Textract มาสู่ AWS Partners และได้รับ AWS Contact Center Intelligence (CCI) อีกด้วย ปัจจุบันเขาเป็นผู้นำเทคโนโลยีระดับโลกสำหรับพันธมิตร AI แบบสนทนา

บาบู ศรีนิวาสัน เป็น AWS Sr. Specialist SA (Language AI Services) จากชิคาโก เขามุ่งเน้นไปที่ Amazon Transcribe (แปลงคำพูดเป็นข้อความ) ช่วยให้ลูกค้าของเราใช้บริการ AI เพื่อแก้ปัญหาทางธุรกิจ นอกเวลางาน เขาชอบงานไม้และการแสดงมายากล

ประทับเวลา: December 14, 2022December 14, 2022

ประทับเวลา: กรกฎาคม 8, 2022

ถ่ายโอนการเรียนรู้สำหรับโมเดลการจัดประเภทรูปภาพ TensorFlow ใน Amazon SageMaker

คลัสเตอร์ต้นทาง:

AWS Machine Learning AWS

โหนดต้นทาง: 1655641

ประทับเวลา: กันยายน 7, 2022

ขณะนี้ LightGBM ในตัวของ Amazon SageMaker มีการฝึกอบรมแบบกระจายโดยใช้ Dask

คลัสเตอร์ต้นทาง:

AWS Machine Learning AWS

โหนดต้นทาง: 1797416

ประทับเวลา: ม.ค. 30, 2023

ระบุภาษาโดยอัตโนมัติในเสียงหลายภาษาโดยใช้ Amazon Transcribe

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมโซลูชัน

เบื้องต้น

สร้างบัคเก็ต S3 เพื่อจัดเก็บไฟล์อินพุตเสียงของคุณ

อัปโหลดไฟล์เสียงของคุณไปยังบัคเก็ต S3

สร้างงานถอดความ

ตรวจสอบผลงาน

ทำความสะอาด

สรุป

เกี่ยวกับผู้เขียน

เพิ่มเติมจาก AWS Machine Learning AWS

สร้างโซลูชันการบำรุงรักษาเชิงคาดการณ์ด้วย Amazon Kinesis, AWS Glue และ Amazon SageMaker

เปิดใช้งานผู้พิการทางสายตาเพื่อฟังเอกสารโดยใช้ Amazon Texttract และ Amazon Polly

การฝึกปรับขนาดและการอนุมานแบบจำลอง ML นับพันด้วย Amazon SageMaker | บริการเว็บอเมซอน

Onboard PaddleOCR พร้อม Amazon SageMaker Projects สำหรับ MLOps เพื่อทำการจดจำอักขระด้วยแสงบนเอกสารระบุตัวตน

ถ่ายโอนการเรียนรู้สำหรับโมเดลการจัดประเภทรูปภาพ TensorFlow ใน Amazon SageMaker

ขณะนี้ LightGBM ในตัวของ Amazon SageMaker มีการฝึกอบรมแบบกระจายโดยใช้ Dask

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้