ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ระบุภาษาโดยอัตโนมัติในเสียงหลายภาษาโดยใช้ Amazon Transcribe

หากคุณทำงานในประเทศที่มีภาษาทางการหลายภาษาหรือในหลายภูมิภาค ไฟล์เสียงของคุณอาจมีภาษาต่างๆ ผู้เข้าร่วมอาจพูดภาษาที่แตกต่างกันโดยสิ้นเชิงหรืออาจสลับไปมาระหว่างภาษาต่างๆ พิจารณาการโทรติดต่อฝ่ายบริการลูกค้าเพื่อรายงานปัญหาในพื้นที่ที่มีประชากรหลายภาษาจำนวนมาก แม้ว่าการสนทนาจะเริ่มต้นในภาษาเดียว แต่ก็มีความเป็นไปได้ที่ลูกค้าจะเปลี่ยนเป็นภาษาอื่นเพื่ออธิบายปัญหา ทั้งนี้ขึ้นอยู่กับระดับความสะดวกสบายหรือการตั้งค่าการใช้งานกับภาษาอื่น ในทำนองเดียวกัน ตัวแทนฝ่ายดูแลลูกค้าอาจเปลี่ยนระหว่างภาษาต่างๆ ในขณะที่ถ่ายทอดคำแนะนำในการใช้งานหรือการแก้ไขปัญหา

ด้วยเสียงอย่างน้อย 3 วินาที ถอดความจากอเมซอน สามารถระบุและสร้างการถอดเสียงโดยอัตโนมัติอย่างมีประสิทธิภาพในภาษาที่พูดในเสียง โดยไม่จำเป็นต้องให้มนุษย์ระบุภาษา สิ่งนี้นำไปใช้กับกรณีการใช้งานต่างๆ เช่น การถอดเสียงการโทรของลูกค้า การแปลงข้อความเสียงเป็นข้อความ การจับภาพการโต้ตอบในการประชุม การติดตามการสื่อสารในฟอรัมของผู้ใช้ หรือการตรวจสอบการผลิตเนื้อหาสื่อและเวิร์กโฟลว์การแปลเป็นภาษาท้องถิ่น

โพสต์นี้จะแนะนำขั้นตอนสำหรับการถอดเสียงไฟล์เสียงหลายภาษาโดยใช้ Amazon Transcribe เราจะหารือเกี่ยวกับวิธีทำให้ไฟล์เสียงพร้อมใช้งานสำหรับ Amazon Transcribe และเปิดใช้งานการถอดเสียงของไฟล์เสียงหลายภาษาเมื่อเรียกใช้ Amazon Transcribe API

ภาพรวมโซลูชัน

Amazon Transcribe เป็นบริการของ AWS ที่ช่วยให้คุณแปลงคำพูดเป็นข้อความได้ง่าย การเพิ่มฟังก์ชันเสียงพูดเป็นข้อความในแอปพลิเคชันใดๆ นั้นง่ายดายด้วยความช่วยเหลือของ Amazon Transcribe ซึ่งเป็นบริการการรู้จำเสียงพูดอัตโนมัติ (ASR) คุณสามารถรับอินพุตเสียงโดยใช้ Amazon Transcribe สร้างการถอดเสียงที่ชัดเจนซึ่งอ่านและตรวจสอบได้ง่าย เพิ่มความแม่นยำด้วยการปรับแต่ง และกรองข้อมูลเพื่อปกป้องความเป็นส่วนตัวของลูกค้า

สารละลายยังใช้ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) บริการจัดเก็บวัตถุที่สร้างขึ้นเพื่อจัดเก็บและดึงข้อมูลจำนวนเท่าใดก็ได้จากทุกที่ เป็นบริการจัดเก็บข้อมูลที่เรียบง่ายซึ่งนำเสนอความทนทาน ความพร้อมใช้งาน ประสิทธิภาพ ความปลอดภัย และความสามารถในการปรับขนาดได้ไม่จำกัดในระดับชั้นนำของอุตสาหกรรมด้วยต้นทุนที่ต่ำมาก เมื่อคุณจัดเก็บข้อมูลใน Amazon S3 คุณจะทำงานกับทรัพยากรที่เรียกว่า บุ้งกี๋ และ วัตถุ. บัคเก็ตคือคอนเทนเนอร์สำหรับวัตถุ วัตถุคือไฟล์และข้อมูลเมตาใดๆ ที่อธิบายถึงไฟล์

ในโพสต์นี้ เราจะแนะนำคุณเกี่ยวกับขั้นตอนต่อไปนี้เพื่อใช้โซลูชันการถอดเสียงหลายภาษา:

  1. สร้างบัคเก็ต S3
  2. อัปโหลดไฟล์เสียงของคุณไปที่บัคเก็ต
  3. สร้างงานถอดความ
  4. ตรวจสอบผลลัพธ์ของงาน

เบื้องต้น

สำหรับคำแนะนำนี้ คุณควรมีข้อกำหนดเบื้องต้นต่อไปนี้:

Amazon Transcribe มีตัวเลือกในการจัดเก็บเอาต์พุตที่ถอดเสียงไว้ในบัคเก็ต S3 ที่จัดการโดยบริการหรือที่จัดการโดยลูกค้า สำหรับโพสต์นี้ เรามี Amazon Transcribe เขียนผลลัพธ์ไปยังบัคเก็ต S3 ที่จัดการโดยบริการ

โปรดทราบว่า Amazon Transcribe เป็นบริการระดับภูมิภาคและตำแหน่งข้อมูล Amazon Transcribe API ที่ถูกเรียกใช้ต้องอยู่ในภูมิภาคเดียวกับบัคเก็ต S3

สร้างบัคเก็ต S3 เพื่อจัดเก็บไฟล์อินพุตเสียงของคุณ

หากต้องการสร้างบัคเก็ต S3 ให้ทำตามขั้นตอนต่อไปนี้:

  1. บนคอนโซล Amazon S3 ให้เลือก สร้างที่เก็บข้อมูล.
  2. สำหรับ ชื่อถังป้อนชื่อเฉพาะส่วนกลางสำหรับบัคเก็ต
  3. สำหรับ ภูมิภาค AWSเลือกภูมิภาคเดียวกับตำแหน่งข้อมูล Amazon Transcribe API ของคุณ
    ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  4. ปล่อยค่าเริ่มต้นทั้งหมดตามที่เป็นอยู่
  5. Choose สร้างที่เก็บข้อมูล.
    ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

อัปโหลดไฟล์เสียงของคุณไปยังบัคเก็ต S3

อัปโหลดไฟล์เสียงหลายภาษาไปยังบัคเก็ต S3 ในบัญชี AWS ของคุณ สำหรับจุดประสงค์ของแบบฝึกหัดนี้ เราใช้ตัวอย่างต่อไปนี้ ไฟล์เสียงหลายภาษา. โดยจะจับสายสนับสนุนลูกค้าที่เกี่ยวข้องกับภาษาอังกฤษและสเปน.

  1. บนคอนโซล Amazon S3 ให้เลือก บุ้งกี๋ ในบานหน้าต่างนำทาง
  2. เลือกที่เก็บข้อมูลที่คุณสร้างไว้ก่อนหน้านี้เพื่อจัดเก็บไฟล์เสียงอินพุต
  3. Choose อัพโหลด.
    ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  4. Choose เพิ่มไฟล์.
    ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  5. เลือกไฟล์เสียงที่คุณต้องการคัดลอกจากเครื่องคอมพิวเตอร์ของคุณ
    ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  6. Choose อัพโหลด.
    ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ไฟล์เสียงของคุณจะพร้อมใช้งานในบัคเก็ต S3 ในไม่ช้า

สร้างงานถอดความ

เมื่ออัปโหลดไฟล์เสียงแล้ว ตอนนี้เราสร้างงานการถอดความ

  1. บนคอนโซล Amazon Transcribe ให้เลือก งานถอดความ ในบานหน้าต่างนำทาง
  2. Choose สร้างงาน.
    ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  3. สำหรับ Nameป้อนชื่อเฉพาะสำหรับงาน
    นี่จะเป็นชื่อของไฟล์การถอดเสียงเอาต์พุตด้วย
  4. สำหรับ ตั้งค่าภาษาให้เลือก การระบุหลายภาษาโดยอัตโนมัติ.
    คุณลักษณะนี้ทำให้ Amazon Transcribe สามารถระบุและถอดเสียงทุกภาษาที่พูดในไฟล์เสียงได้โดยอัตโนมัติ
    ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  5. สำหรับ ตัวเลือกภาษาสำหรับการระบุภาษาอัตโนมัติให้ปล่อยไว้โดยไม่เลือก
    Amazon Transcribe จะระบุและถอดเสียงทุกภาษาที่พูดในเสียงโดยอัตโนมัติ เพื่อปรับปรุงความแม่นยำในการถอดเสียง คุณสามารถเลือกได้สองภาษาหรือมากกว่าที่คุณรู้ว่ามีการพูดในเสียง
    ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  6. สำหรับ ประเภทรุ่น, เพียง รุ่นทั่วไป ตัวเลือกสามารถใช้ได้ในขณะที่เขียนโพสต์นี้
  7. สำหรับ ป้อนข้อมูลเลือก เรียกดู S3.
  8. เลือกไฟล์ต้นฉบับเสียงที่เราอัปโหลดไว้ก่อนหน้านี้
    ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  9. สำหรับ ข้อมูลเอาต์พุตคุณสามารถเลือกอย่างใดอย่างหนึ่ง บัคเก็ต S3 ที่จัดการโดยบริการ or ลูกค้าระบุที่เก็บข้อมูล S3. สำหรับโพสต์นี้ เลือก บัคเก็ต S3 ที่จัดการโดยบริการ
    ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  10. Choose ถัดไป.
  11. Choose สร้างงาน.

ตรวจสอบผลงาน

เมื่องานถอดความเสร็จสมบูรณ์ ให้เปิดงานถอดความ
ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เลื่อนลงไปที่ ตัวอย่างการถอดความ ส่วน. การถอดเสียงจะแสดงบน ข้อความ แท็บ การถอดความมีทั้งส่วนที่เป็นภาษาอังกฤษและสเปนของการสนทนา
ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

คุณสามารถเลือกดาวน์โหลดสำเนาการถอดเสียงเป็นไฟล์ JSON ซึ่งนำไปใช้เพิ่มเติมได้ การวิเคราะห์หลังการโทร.

ทำความสะอาด

เพื่อหลีกเลี่ยงค่าใช้จ่ายในอนาคต ให้ล้างข้อมูลและลบบัคเก็ต S3 ที่คุณสร้างขึ้นสำหรับจัดเก็บไฟล์ต้นฉบับเสียงอินพุต ตรวจสอบให้แน่ใจว่าคุณจัดเก็บไฟล์ไว้ที่อื่น เพราะการดำเนินการนี้จะลบวัตถุทั้งหมดที่อยู่ในบัคเก็ตอย่างถาวร ในคอนโซล Amazon Transcribe ให้เลือกและลบงานที่สร้างไว้ก่อนหน้านี้สำหรับการถอดเสียง

สรุป

ในโพสต์นี้ เราได้สร้างเวิร์กโฟลว์แบบ end-to-end เพื่อทำให้การระบุและการถอดเสียงไฟล์เสียงหลายภาษาเป็นไปโดยอัตโนมัติ โดยไม่ต้องเขียนโค้ดใดๆ เราใช้ฟังก์ชันใหม่ใน Amazon Transcribe เพื่อระบุภาษาต่างๆ ในไฟล์เสียงโดยอัตโนมัติ และถอดเสียงแต่ละภาษาได้อย่างถูกต้อง

สำหรับข้อมูลเพิ่มเติมโปรดดูที่ การระบุภาษาพร้อมงานการถอดความแบบกลุ่ม.


เกี่ยวกับผู้เขียน

ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.มูร์ตูซา บูทวาลา เป็นสถาปนิกโซลูชันอาวุโสของ AWS ที่มีความสนใจในเทคโนโลยี AI/ML เขาสนุกกับการทำงานร่วมกับลูกค้าเพื่อช่วยให้บรรลุผลลัพธ์ทางธุรกิจ นอกเวลางาน เขาชอบทำกิจกรรมกลางแจ้งและใช้เวลากับครอบครัว

ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.วิกเตอร์สีแดง มีความหลงใหลเกี่ยวกับ AI/ML และการพัฒนาซอฟต์แวร์ เขาช่วยให้ Amazon Alexa ใช้งานได้ในสหรัฐอเมริกาและเม็กซิโก เขายังนำ Amazon Textract มาสู่ AWS Partners และได้รับ AWS Contact Center Intelligence (CCI) อีกด้วย ปัจจุบันเขาเป็นผู้นำเทคโนโลยีระดับโลกสำหรับพันธมิตร AI แบบสนทนา

ระบุภาษาโดยอัตโนมัติด้วยเสียงหลายภาษาโดยใช้ Amazon Transcribe PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.บาบู ศรีนิวาสัน เป็น AWS Sr. Specialist SA (Language AI Services) จากชิคาโก เขามุ่งเน้นไปที่ Amazon Transcribe (แปลงคำพูดเป็นข้อความ) ช่วยให้ลูกค้าของเราใช้บริการ AI เพื่อแก้ปัญหาทางธุรกิจ นอกเวลางาน เขาชอบงานไม้และการแสดงมายากล

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS