Nhật ký người nói, một quá trình thiết yếu trong phân tích âm thanh, phân đoạn tệp âm thanh dựa trên nhận dạng người nói. Bài viết này đi sâu vào việc tích hợp PyAnnote của Hugging Face để ghi nhật ký diễn giả với Amazon SageMaker điểm cuối không đồng bộ.
Chúng tôi cung cấp hướng dẫn toàn diện về cách triển khai các giải pháp phân cụm và phân cụm loa bằng SageMaker trên Đám mây AWS. Bạn có thể sử dụng giải pháp này cho các ứng dụng xử lý bản ghi âm nhiều loa (trên 100).
Tổng quan về giải pháp
Phiên âm Amazon là dịch vụ phù hợp để ghi nhật ký người phát biểu trong AWS. Tuy nhiên, đối với các ngôn ngữ không được hỗ trợ, bạn có thể sử dụng các mô hình khác (trong trường hợp của chúng tôi là PyAnnote) sẽ được triển khai trong SageMaker để suy luận. Đối với các tệp âm thanh ngắn trong đó quá trình suy luận mất tối đa 60 giây, bạn có thể sử dụng suy luận thời gian thực. Trong thời gian dài hơn 60 giây, không đồng bộ nên sử dụng suy luận. Lợi ích bổ sung của suy luận không đồng bộ là tiết kiệm chi phí bằng cách tự động điều chỉnh số lượng phiên bản về 0 khi không có yêu cầu xử lý.
Ôm mặt là một trung tâm nguồn mở phổ biến dành cho các mô hình học máy (ML). AWS và Ôm Mặt có quan hệ đối tác cho phép tích hợp liền mạch thông qua SageMaker với một bộ AWS Deep Learning Containers (DLC) để đào tạo và suy luận trong PyTorch hoặc TensorFlow cũng như các công cụ ước tính và dự đoán Ôm khuôn mặt cho SageMaker Python SDK. Các tính năng và khả năng của SageMaker giúp các nhà phát triển và nhà khoa học dữ liệu bắt đầu xử lý ngôn ngữ tự nhiên (NLP) trên AWS một cách dễ dàng.
Việc tích hợp cho giải pháp này liên quan đến việc sử dụng mô hình ghi nhật ký diễn giả được đào tạo trước của Hugging Face bằng cách sử dụng thư viện PyAnnote. PyAnnote là bộ công cụ mã nguồn mở được viết bằng Python để ghi nhật ký người nói. Mô hình này, được đào tạo trên tập dữ liệu âm thanh mẫu, cho phép phân vùng loa hiệu quả trong các tệp âm thanh. Mô hình này được triển khai trên SageMaker dưới dạng thiết lập điểm cuối không đồng bộ, cung cấp khả năng xử lý các tác vụ nhật ký hiệu quả và có thể mở rộng.
Sơ đồ sau minh họa kiến trúc giải pháp.
Đối với bài đăng này, chúng tôi sử dụng tệp âm thanh sau.
Các tệp âm thanh nổi hoặc đa kênh sẽ tự động được trộn xuống đơn âm bằng cách tính trung bình các kênh. Các tệp âm thanh được lấy mẫu ở tốc độ khác sẽ tự động được lấy mẫu lại thành 16kHz khi tải.
Điều kiện tiên quyết
Hoàn thành các điều kiện tiên quyết sau:
- Tạo miền SageMaker.
- Hãy chắc chắn rằng bạn Quản lý truy cập và nhận dạng AWS (IAM) người dùng có các quyền truy cập cần thiết để tạo Vai trò của SageMaker.
- Đảm bảo tài khoản AWS có hạn ngạch dịch vụ để lưu trữ điểm cuối SageMaker cho phiên bản ml.g5.2xlarge.
Tạo chức năng mô hình để truy cập nhật ký loa PyAnnote từ Ôm mặt
Bạn có thể sử dụng Hugging Face Hub để truy cập vào các chế độ được đào tạo trước mà bạn mong muốn. Mô hình nhật ký loa PyAnnote. Bạn sử dụng cùng một tập lệnh để tải xuống tệp mô hình khi tạo điểm cuối SageMaker.
Xem mã sau đây:
Đóng gói mã mẫu
Chuẩn bị các tệp cần thiết như inference.py, chứa mã suy luận:
Chuẩn bị một requirements.txt
tệp chứa các thư viện Python cần thiết để chạy suy luận:
Cuối cùng, nén inference.py
và các tệp require.txt rồi lưu nó dưới dạng model.tar.gz
:
Định cấu hình mô hình SageMaker
Xác định tài nguyên mô hình SageMaker bằng cách chỉ định URI hình ảnh, vị trí dữ liệu mô hình trong Dịch vụ lưu trữ đơn giản của Amazon (S3) và vai trò SageMaker:
Tải mô hình lên Amazon S3
Tải tệp mô hình Khuôn mặt ôm PyAnnote đã nén lên vùng lưu trữ S3:
Tạo điểm cuối không đồng bộ SageMaker
Định cấu hình điểm cuối không đồng bộ để triển khai mô hình trên SageMaker bằng cấu hình suy luận không đồng bộ được cung cấp:
Kiểm tra điểm cuối
Đánh giá chức năng điểm cuối bằng cách gửi tệp âm thanh để ghi nhật ký và truy xuất đầu ra JSON được lưu trữ trong đường dẫn đầu ra S3 được chỉ định:
Để triển khai giải pháp này trên quy mô lớn, chúng tôi khuyên bạn nên sử dụng AWS Lambda, Dịch vụ thông báo đơn giản của Amazon (Amazon SNS), hoặc Dịch vụ xếp hàng đơn giản trên Amazon (SQS của Amazon). Các dịch vụ này được thiết kế để có khả năng mở rộng, kiến trúc hướng sự kiện và sử dụng tài nguyên hiệu quả. Chúng có thể giúp tách rời quy trình suy luận không đồng bộ khỏi quá trình xử lý kết quả, cho phép bạn mở rộng quy mô từng thành phần một cách độc lập và xử lý các loạt yêu cầu suy luận hiệu quả hơn.
Kết quả
Đầu ra mô hình được lưu trữ tại s3://sagemaker-xxxx /async_inference/output/.
Đầu ra cho thấy bản ghi âm đã được phân thành ba cột:
- Bắt đầu (thời gian bắt đầu tính bằng giây)
- Kết thúc (thời gian kết thúc tính bằng giây)
- Loa (nhãn loa)
Đoạn mã sau đây hiển thị một ví dụ về kết quả của chúng tôi:
Làm sạch
Bạn có thể đặt chính sách chia tỷ lệ thành 0 bằng cách đặt MinCapacity thành XNUMX; suy luận không đồng bộ cho phép bạn tự động chia tỷ lệ về 0 mà không cần yêu cầu. Bạn không cần phải xóa điểm cuối, nó quy mô từ con số 0 khi cần thiết trở lại, giảm chi phí khi không sử dụng. Xem đoạn mã sau:
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/deploy-a-hugging-face-pyannote-speaker-diarization-model-on-amazon-sagemaker-as-an-asynchronous-endpoint/
- : có
- :là
- :không phải
- :Ở đâu
- $ LÊN
- 1
- 10
- 100
- 11
- 118
- 12
- 13
- 14
- 16
- 17
- 23
- 25
- 26%
- 27
- 28
- 31
- 60
- 7
- 8
- 9
- a
- Giới thiệu
- truy cập
- truy cập
- đáp ứng
- Tài khoản
- ngang qua
- thêm vào
- thêm
- điều chỉnh
- tiên tiến
- một lần nữa
- AI
- Dịch vụ AI
- AI / ML
- Cho phép
- cho phép
- Ngoài ra
- đàn bà gan dạ
- Amazon SageMaker
- Amazon Web Services
- an
- phân tích
- phân tích
- và
- bất kì
- Các Ứng Dụng
- các ứng dụng
- phương pháp tiếp cận
- kiến trúc
- kiến trúc
- LÀ
- xung quanh
- AS
- At
- Nỗ lực
- âm thanh
- tự động
- tự động
- trung bình
- AWS
- dựa
- BE
- được
- hưởng lợi
- Lợi ích
- giữa
- kinh doanh
- các doanh nghiệp
- by
- CAN
- khả năng
- trường hợp
- trường hợp
- Những thay đổi
- kênh
- tốt nghiệp lớp XNUMX
- khách hàng
- đám mây
- tập hợp
- mã
- Cột
- Bình luận
- Chung
- thành phần
- toàn diện
- khái niệm
- đồng thời
- Cấu hình
- Container
- chứa
- điều khiển
- Phí Tổn
- tiết kiệm chi phí
- Chi phí
- tính
- tạo
- Tạo
- khách hàng
- dữ liệu
- xử lý
- sâu
- học kĩ càng
- định nghĩa
- cung cấp
- đào sâu
- trình diễn
- triển khai
- triển khai
- triển khai
- Thiết kế
- thiết kế
- mong muốn
- phát triển
- Nhà phát triển
- phát triển
- Phát triển
- sơ đồ
- khác nhau
- kỹ thuật số
- chuyển đổi kỹ thuật số
- thư mục
- tài liệu
- dont
- đang tải xuống
- năng động
- mỗi
- dễ dàng
- Hiệu quả
- hiệu quả
- hiệu quả
- hiệu quả
- cho phép
- cuối
- Điểm cuối
- lôi
- thiết yếu
- ví dụ
- Trừ
- kinh nghiệm
- khám phá
- Đối mặt
- Tính năng
- Tập tin
- Các tập tin
- tiếp theo
- Trong
- định dạng
- từ
- chức năng
- chức năng
- thế hệ
- được
- nhận được
- GitHub
- hướng dẫn
- xử lý
- Có
- he
- giúp đỡ
- đã giúp
- giúp
- của mình
- lưu trữ
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTML
- http
- HTTPS
- Hub
- ÔmKhuôn Mặt
- Hàng trăm
- Bản sắc
- if
- minh họa
- hình ảnh
- thực hiện
- nhập khẩu
- in
- độc lập
- Ấn Độ
- ví dụ
- Tích hợp
- hội nhập
- trong
- liên quan đến
- IT
- cuộc hành trình
- jpg
- json
- Key
- nhãn
- Ngôn ngữ
- Ngôn ngữ
- lớn
- phóng
- học tập
- cho phép
- thư viện
- Lượt thích
- tải
- tải
- địa điểm thư viện nào
- còn
- máy
- học máy
- có nghĩa
- ML
- kiểu mẫu
- mô hình
- chi tiết
- nhiều
- Tự nhiên
- Xử lý ngôn ngữ tự nhiên
- cần thiết
- Cần
- cần thiết
- nlp
- Không
- Không áp dụng
- thông báo
- con số
- vật
- of
- Cung cấp
- on
- mở
- mã nguồn mở
- Tối ưu hóa
- or
- OS
- Nền tảng khác
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- ra
- đầu ra
- kết thúc
- tổng thể
- riêng
- gấu trúc
- một phần
- con đường
- quyền
- đường ống dẫn
- nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- điều luật
- Phổ biến
- Bài đăng
- -
- Dự đoán
- điều kiện tiên quyết
- quá trình
- xử lý
- dự án
- bằng chứng
- cho
- cung cấp
- cung cấp
- cung cấp
- công khai
- đặt
- Python
- ngọn đuốc
- Câu hỏi
- Tỷ lệ
- đạt
- thời gian thực
- ghi âm
- làm giảm
- giảm
- tài liệu tham khảo
- khu
- ghi danh
- đáng tin cậy
- thay thế
- đại diện
- yêu cầu
- cần phải
- Yêu cầu
- tài nguyên
- Thông tin
- phản ứng
- kết quả
- Kết quả
- trở lại
- Vai trò
- chạy
- chạy
- nhà làm hiền triết
- bán hàng
- tương tự
- mẫu
- Lưu
- Tiết kiệm
- khả năng mở rộng
- khả năng mở rộng
- Quy mô
- mở rộng quy mô
- các nhà khoa học
- kịch bản
- kịch bản
- sdk
- liền mạch
- liền mạch
- giây
- ngành
- xem
- phân khúc
- phân đoạn
- gửi
- ngăn cách
- dịch vụ
- DỊCH VỤ
- Phiên
- phiên
- định
- thiết lập
- thiết lập
- một số
- Hình dạng
- ngắn
- nên
- Chương trình
- Đơn giản
- duy nhất
- Phần mềm
- phát triển phần mềm
- giải pháp
- Giải pháp
- nguồn
- Loa
- chuyên gia
- riêng
- quy định
- xác định
- chi tiêu
- chia
- Bắt đầu
- bắt đầu
- là gắn
- lưu trữ
- đơn giản
- Chiến lược
- thành công
- đề nghị
- chắc chắn
- hệ thống
- mất
- nhiệm vụ
- công nghệ cao
- tensorflow
- hơn
- việc này
- Sản phẩm
- Đó
- Kia là
- họ
- điều này
- hàng ngàn
- số ba
- Thông qua
- thời gian
- đến
- bây giờ
- bộ công cụ
- chủ đề
- ngọn đuốc
- đào tạo
- Hội thảo
- Chuyển đổi
- máy biến áp
- thử
- XOAY
- trên
- sử dụng
- đã sử dụng
- người sử dang
- sử dụng
- sử dụng
- biến thể
- phiên bản
- Video
- W
- chờ đợi
- muốn
- we
- web
- các dịch vụ web
- khi nào
- cái nào
- CHÚNG TÔI LÀ
- sẽ
- với
- đang làm việc
- viết
- năm
- Bạn
- trên màn hình
- zephyrnet
- không