การแยกเสียงของผู้พูดเป็นกระบวนการสำคัญในการวิเคราะห์เสียง โดยจะแบ่งไฟล์เสียงตามเอกลักษณ์ของผู้พูด โพสต์นี้เจาะลึกเกี่ยวกับการบูรณาการ PyAnnote ของ Hugging Face เพื่อการแยกแยะผู้พูดด้วย อเมซอน SageMaker จุดสิ้นสุดแบบอะซิงโครนัส
เรามีคำแนะนำที่ครอบคลุมเกี่ยวกับวิธีการปรับใช้โซลูชันการแบ่งส่วนผู้พูดและการจัดกลุ่มโดยใช้ SageMaker บน AWS Cloud คุณสามารถใช้โซลูชันนี้สำหรับแอปพลิเคชันที่เกี่ยวข้องกับการบันทึกเสียงที่มีลำโพงหลายตัว (มากกว่า 100 ตัว)
ภาพรวมโซลูชัน
ถอดความจากอเมซอน เป็นบริการแบบ go-to สำหรับการแยกแยะผู้พูดใน AWS อย่างไรก็ตาม สำหรับภาษาที่ไม่รองรับ คุณสามารถใช้โมเดลอื่นๆ (ในกรณีของเราคือ PyAnnote) ที่จะนำไปใช้ใน SageMaker เพื่อการอนุมาน สำหรับไฟล์เสียงสั้นที่การอนุมานใช้เวลาถึง 60 วินาที คุณสามารถใช้ได้ การอนุมานตามเวลาจริง- เป็นเวลานานกว่า 60 วินาที ไม่ตรงกัน ควรใช้การอนุมาน ประโยชน์เพิ่มเติมของการอนุมานแบบอะซิงโครนัสคือการประหยัดต้นทุนโดยปรับขนาดอินสแตนซ์นับให้เป็นศูนย์โดยอัตโนมัติเมื่อไม่มีคำขอให้ดำเนินการ
กอดหน้า เป็นฮับโอเพ่นซอร์สยอดนิยมสำหรับโมเดลการเรียนรู้ของเครื่อง (ML) AWS และ Hugging Face มี ห้างหุ้นส่วน ที่ช่วยให้สามารถผสานรวมได้อย่างราบรื่นผ่าน SageMaker กับชุด AWS Deep Learning Containers (DLC) สำหรับการฝึกอบรมและการอนุมานใน PyTorch หรือ TensorFlow และตัวประมาณค่า Hugging Face และตัวทำนายสำหรับ SageMaker Python SDK คุณสมบัติและความสามารถของ SageMaker ช่วยให้นักพัฒนาและนักวิทยาศาสตร์ข้อมูลเริ่มต้นการประมวลผลภาษาธรรมชาติ (NLP) บน AWS ได้อย่างง่ายดาย
การบูรณาการสำหรับโซลูชันนี้เกี่ยวข้องกับการใช้โมเดลการแยกเสียงของผู้พูดที่ได้รับการฝึกอบรมล่วงหน้าของ Hugging Face โดยใช้ ไลบรารี PyAnnote- PyAnnote เป็นชุดเครื่องมือโอเพ่นซอร์สที่เขียนด้วยภาษา Python สำหรับการแยกเสียงของผู้พูด แบบจำลองนี้ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลเสียงตัวอย่าง ช่วยให้สามารถแบ่งพาร์ติชันลำโพงในไฟล์เสียงได้อย่างมีประสิทธิภาพ โมเดลนี้ใช้งานบน SageMaker ในรูปแบบการตั้งค่าตำแหน่งข้อมูลแบบอะซิงโครนัส ซึ่งให้การประมวลผลงานไดอะไรซ์ที่มีประสิทธิภาพและปรับขนาดได้
ไดอะแกรมต่อไปนี้แสดงสถาปัตยกรรมโซลูชัน
สำหรับโพสต์นี้ เราใช้ไฟล์เสียงต่อไปนี้
ไฟล์เสียงสเตอริโอหรือหลายช่องสัญญาณจะถูกดาวน์มิกซ์เป็นโมโนโดยอัตโนมัติโดยการหาค่าเฉลี่ยของช่องสัญญาณ ไฟล์เสียงที่สุ่มตัวอย่างในอัตราอื่นจะถูกสุ่มใหม่เป็น 16kHz โดยอัตโนมัติเมื่อโหลด
เบื้องต้น
กรอกข้อกำหนดเบื้องต้นต่อไปนี้:
- สร้างโดเมน SageMaker.
- ตรวจสอบให้แน่ใจของคุณ AWS Identity และการจัดการการเข้าถึง ผู้ใช้ (IAM) มีสิทธิ์การเข้าถึงที่จำเป็นสำหรับการสร้าง บทบาทของ SageMaker.
- ตรวจสอบให้แน่ใจว่าบัญชี AWS มีโควต้าบริการสำหรับการโฮสต์ตำแหน่งข้อมูล SageMaker สำหรับอินสแตนซ์ ml.g5.2xlarge
สร้างฟังก์ชันแบบจำลองสำหรับการเข้าถึงการแยกเสียงของผู้พูด PyAnnote จาก Hugging Face
คุณสามารถใช้ Hugging Face Hub เพื่อเข้าถึงการฝึกล่วงหน้าที่ต้องการได้ โมเดลการแยกเสียงลำโพง PyAnnote- คุณใช้สคริปต์เดียวกันในการดาวน์โหลดไฟล์โมเดลเมื่อสร้างตำแหน่งข้อมูล SageMaker
ดูรหัสต่อไปนี้:
บรรจุรหัสรุ่น
เตรียมไฟล์สำคัญ เช่น inference.py ซึ่งมีโค้ดการอนุมาน:
เตรียมไฟล์ requirements.txt
ซึ่งมีไลบรารี Python ที่จำเป็นซึ่งจำเป็นต่อการเรียกใช้การอนุมาน:
สุดท้ายให้บีบอัดไฟล์ inference.py
และไฟล์require.txtแล้วบันทึกเป็น model.tar.gz
:
กำหนดค่าโมเดล SageMaker
กำหนดทรัพยากรโมเดล SageMaker โดยการระบุ URI รูปภาพ ตำแหน่งข้อมูลโมเดล บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (S3) และบทบาท SageMaker:
อัปโหลดโมเดลไปยัง Amazon S3
อัปโหลดไฟล์โมเดล PyAnnote Hugging Face ที่ถูกซิปไปยังบัคเก็ต S3:
สร้างจุดสิ้นสุดแบบอะซิงโครนัสของ SageMaker
กำหนดค่าตำแหน่งข้อมูลแบบอะซิงโครนัสสำหรับการปรับใช้โมเดลบน SageMaker โดยใช้การกำหนดค่าการอนุมานแบบอะซิงโครนัสที่ให้มา:
ทดสอบจุดสิ้นสุด
ประเมินฟังก์ชันการทำงานของตำแหน่งข้อมูลโดยการส่งไฟล์เสียงเพื่อทำไดอะไรเซชัน และเรียกข้อมูลเอาต์พุต JSON ที่จัดเก็บไว้ในเส้นทางเอาต์พุต S3 ที่ระบุ:
หากต้องการปรับใช้โซลูชันนี้ในวงกว้าง เราขอแนะนำให้ใช้ AWS แลมบ์ดา, บริการแจ้งเตือนแบบง่ายของ Amazon (อเมซอน SNS) หรือ บริการ Amazon Simple Queue (อเมซอน SQS) บริการเหล่านี้ได้รับการออกแบบมาเพื่อความสามารถในการปรับขนาด สถาปัตยกรรมที่ขับเคลื่อนด้วยเหตุการณ์ และการใช้ทรัพยากรอย่างมีประสิทธิภาพ สามารถช่วยแยกกระบวนการอนุมานแบบอะซิงโครนัสออกจากการประมวลผลผลลัพธ์ได้ ช่วยให้คุณสามารถปรับขนาดแต่ละองค์ประกอบได้อย่างอิสระและจัดการคำขออนุมานต่อเนื่องได้อย่างมีประสิทธิภาพมากขึ้น
ผลสอบ
โมเดลเอาท์พุตจะถูกเก็บไว้ที่ s3://sagemaker-xxxx /async_inference/output/.
ผลลัพธ์แสดงว่าการบันทึกเสียงถูกแบ่งออกเป็นสามคอลัมน์:
- เริ่มต้น (เวลาเริ่มต้นเป็นวินาที)
- สิ้นสุด (เวลาสิ้นสุดเป็นวินาที)
- ลำโพง (ป้ายลำโพง)
รหัสต่อไปนี้แสดงตัวอย่างผลลัพธ์ของเรา:
ทำความสะอาด
คุณสามารถตั้งค่านโยบายการปรับขนาดให้เป็นศูนย์ได้โดยตั้งค่า MinCapacity เป็น 0 การอนุมานแบบอะซิงโครนัส ช่วยให้คุณปรับขนาดเป็นศูนย์อัตโนมัติโดยไม่ต้องร้องขอ คุณไม่จำเป็นต้องลบปลายทางมัน ตาชั่ง จากศูนย์เมื่อจำเป็นอีกครั้ง ลดต้นทุนเมื่อไม่ได้ใช้งาน ดูรหัสต่อไปนี้:
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/deploy-a-hugging-face-pyannote-speaker-diarization-model-on-amazon-sagemaker-as-an-asynchronous-endpoint/
- :มี
- :เป็น
- :ไม่
- :ที่ไหน
- $ ขึ้น
- 1
- 10
- 100
- 11
- 118
- 12
- 13
- 14
- 16
- 17
- 23
- 25
- ลด 26%
- 27
- 28
- 31
- 60
- 7
- 8
- 9
- a
- เกี่ยวกับเรา
- เข้า
- การเข้าถึง
- รองรับ
- ลงชื่อเข้าใช้
- ข้าม
- เพิ่ม
- ที่เพิ่ม
- ปรับ
- สูง
- อีกครั้ง
- AI
- บริการ AI
- AI / ML
- การอนุญาต
- ช่วยให้
- ด้วย
- อเมซอน
- อเมซอน SageMaker
- Amazon Web Services
- an
- การวิเคราะห์
- การวิเคราะห์
- และ
- ใด
- การใช้งาน
- การใช้งาน
- เข้าใกล้
- สถาปัตยกรรม
- สถาปัตยกรรม
- เป็น
- รอบ
- AS
- At
- ความพยายามในการ
- เสียง
- รถยนต์
- อัตโนมัติ
- ค่าเฉลี่ย
- AWS
- ตาม
- BE
- รับ
- ประโยชน์
- ประโยชน์ที่ได้รับ
- ระหว่าง
- ธุรกิจ
- ธุรกิจ
- by
- CAN
- ความสามารถในการ
- กรณี
- กรณี
- การเปลี่ยนแปลง
- ช่อง
- ชั้น
- ไคลเอนต์
- เมฆ
- การจัดกลุ่ม
- รหัส
- คอลัมน์
- ความคิดเห็น
- ร่วมกัน
- ส่วนประกอบ
- ครอบคลุม
- แนวคิด
- พร้อมกัน
- องค์ประกอบ
- ภาชนะบรรจุ
- มี
- การควบคุม
- ราคา
- ประหยัดค่าใช้จ่าย
- ค่าใช้จ่าย
- นับ
- สร้าง
- การสร้าง
- ลูกค้า
- ข้อมูล
- การซื้อขาย
- ลึก
- การเรียนรู้ลึก ๆ
- กำหนด
- ส่งมอบ
- เดลฟ์
- สาธิต
- ปรับใช้
- นำไปใช้
- ปรับใช้
- ออกแบบ
- ได้รับการออกแบบ
- ที่ต้องการ
- พัฒนา
- ผู้พัฒนา
- นักพัฒนา
- พัฒนาการ
- แผนภาพ
- ต่าง
- ดิจิตอล
- แปลงดิจิตอล
- ไดเรกทอรี
- เอกสาร
- Dont
- ดาวน์โหลด
- แบบไดนามิก
- แต่ละ
- ความสะดวก
- มีประสิทธิภาพ
- มีประสิทธิภาพ
- ที่มีประสิทธิภาพ
- อย่างมีประสิทธิภาพ
- ช่วยให้
- ปลาย
- ปลายทาง
- ความผิดพลาด
- จำเป็น
- ตัวอย่าง
- ยกเว้น
- ประสบการณ์
- สำรวจ
- ใบหน้า
- คุณสมบัติ
- เนื้อไม่มีมัน
- ไฟล์
- ดังต่อไปนี้
- สำหรับ
- รูป
- ราคาเริ่มต้นที่
- ฟังก์ชัน
- ฟังก์ชั่น
- กำเนิด
- ได้รับ
- ได้รับ
- GitHub
- ให้คำแนะนำ
- จัดการ
- มี
- he
- ช่วย
- ช่วย
- จะช่วยให้
- ของเขา
- โฮสติ้ง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTML
- ที่ http
- HTTPS
- Hub
- กอดใบหน้า
- ร้อย
- เอกลักษณ์
- if
- แสดงให้เห็นถึง
- ภาพ
- การดำเนินการ
- นำเข้า
- in
- อิสระ
- อินเดีย
- ตัวอย่าง
- การบูรณาการ
- บูรณาการ
- เข้าไป
- ที่เกี่ยวข้องกับการ
- IT
- การเดินทาง
- jpg
- JSON
- คีย์
- ฉลาก
- ภาษา
- ภาษา
- ใหญ่
- เปิดตัว
- การเรียนรู้
- ช่วยให้
- ห้องสมุด
- กดไลก์
- โหลด
- โหลด
- ที่ตั้ง
- อีกต่อไป
- เครื่อง
- เรียนรู้เครื่อง
- วิธี
- ML
- แบบ
- โมเดล
- ข้อมูลเพิ่มเติม
- หลาย
- โดยธรรมชาติ
- ประมวลผลภาษาธรรมชาติ
- จำเป็น
- จำเป็นต้อง
- จำเป็น
- NLP
- ไม่
- ไม่มี
- การประกาศ
- จำนวน
- วัตถุ
- of
- เสนอ
- on
- เปิด
- โอเพนซอร์ส
- เพิ่มประสิทธิภาพ
- or
- OS
- อื่นๆ
- ของเรา
- ออก
- เอาท์พุต
- เกิน
- ทั้งหมด
- ของตนเอง
- หมีแพนด้า
- ส่วนหนึ่ง
- เส้นทาง
- สิทธิ์
- ท่อ
- เวที
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- นโยบาย
- ยอดนิยม
- โพสต์
- ขับเคลื่อน
- การคาดการณ์
- ข้อกำหนดเบื้องต้น
- กระบวนการ
- การประมวลผล
- โครงการ
- พิสูจน์
- ให้
- ให้
- ให้
- การให้
- สาธารณะ
- ใส่
- หลาม
- ไฟฉาย
- คำถาม
- คะแนน
- มาถึง
- เรียลไทม์
- การบันทึก
- ลด
- ลด
- การอ้างอิง
- ภูมิภาค
- ทะเบียน
- น่าเชื่อถือ
- แทนที่
- เป็นตัวแทนของ
- การร้องขอ
- จำเป็นต้องใช้
- ความต้องการ
- ทรัพยากร
- แหล่งข้อมูล
- คำตอบ
- ผล
- ผลสอบ
- กลับ
- บทบาท
- วิ่ง
- วิ่ง
- sagemaker
- ขาย
- เดียวกัน
- ตัวอย่าง
- ลด
- เงินออม
- scalability
- ที่ปรับขนาดได้
- ขนาด
- ปรับ
- นักวิทยาศาสตร์
- ต้นฉบับ
- สคริปต์
- SDK
- ไร้รอยต่อ
- ได้อย่างลงตัว
- วินาที
- ภาค
- เห็น
- การแบ่งส่วน
- กลุ่ม
- การส่ง
- การพลัดพราก
- บริการ
- บริการ
- เซสชั่น
- ครั้ง ราคา
- ชุด
- การตั้งค่า
- การติดตั้ง
- หลาย
- รูปร่าง
- สั้น
- น่า
- แสดงให้เห็นว่า
- ง่าย
- เดียว
- ซอฟต์แวร์
- การพัฒนาซอฟต์แวร์
- ทางออก
- โซลูชัน
- แหล่ง
- ลำโพง
- ผู้เชี่ยวชาญ
- โดยเฉพาะ
- ที่ระบุไว้
- ระบุ
- ใช้เวลา
- แยก
- เริ่มต้น
- ข้อความที่เริ่ม
- การเก็บรักษา
- เก็บไว้
- ซื่อตรง
- ยุทธศาสตร์
- ความสำเร็จ
- แนะนำ
- แน่ใจ
- ระบบ
- ใช้เวลา
- งาน
- เทคโนโลยี
- tensorflow
- กว่า
- ที่
- พื้นที่
- ที่นั่น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- นี้
- พัน
- สาม
- ตลอด
- เวลา
- ไปยัง
- ในวันนี้
- เครื่องมือ
- หัวข้อ
- ไฟฉาย
- ผ่านการฝึกอบรม
- การฝึกอบรม
- การแปลง
- หม้อแปลง
- ลอง
- กลับ
- เมื่อ
- ใช้
- มือสอง
- ผู้ใช้งาน
- ใช้
- การใช้
- ตัวแปร
- รุ่น
- วิดีโอ
- W
- รอ
- ต้องการ
- we
- เว็บ
- บริการเว็บ
- เมื่อ
- ที่
- WHO
- จะ
- กับ
- การทำงาน
- เขียน
- ปี
- คุณ
- ของคุณ
- ลมทะเล
- เป็นศูนย์