Đây là bài đăng của khách mời Carter Huffman, CTO và đồng sáng lập tại Modulate.
Ngâm nga là một công ty khởi nghiệp có trụ sở tại Boston với sứ mệnh xây dựng trải nghiệm chơi trò chơi trực tuyến phong phú hơn, an toàn hơn, toàn diện hơn cho mọi người. Chúng tôi là một nhóm bao gồm các chuyên gia âm thanh, game thủ, đồng minh và những người theo chủ nghĩa tương lai đẳng cấp thế giới, những người mong muốn xây dựng một thế giới trực tuyến tốt đẹp hơn và giúp trò chuyện thoại an toàn hơn cho tất cả người chơi. Chúng tôi đang làm điều đó với ToxMod, nền tảng kiểm duyệt chủ động bằng giọng nói của chúng tôi. Nhà xuất bản và nhà phát triển trò chơi sử dụng ToxMod để chủ động kiểm duyệt trò chuyện thoại trong trò chơi của họ theo chính sách nội dung, quy tắc ứng xử và nguyên tắc cộng đồng của riêng họ.
Chúng tôi đã chọn AWS vì khả năng mở rộng và tính linh hoạt mà ứng dụng của chúng tôi cần cũng như dịch vụ khách hàng tuyệt vời mà ứng dụng này mang lại. sử dụng Đám mây điện toán đàn hồi Amazon (Amazon EC2) Phiên bản G5g việc sử dụng GPU NVIDIA T4G Tensor Core làm cơ sở hạ tầng cho ToxMod đã giúp chúng tôi giảm chi phí xuống 5 lần (so với các phiên bản G4dn) trong khi vẫn đạt được mục tiêu về thông lượng và độ trễ. Là một công ty khởi nghiệp nhanh nhạy, chúng tôi có thể tái đầu tư những khoản tiết kiệm chi phí này vào đổi mới hơn nữa để giúp phục vụ sứ mệnh của chúng tôi. Trong bài đăng này, chúng tôi đề cập đến trường hợp sử dụng, các thách thức và các đường dẫn thay thế cũng như tổng quan ngắn gọn về giải pháp của chúng tôi bằng cách sử dụng AWS.
Metaverse đang thay đổi và nhu cầu về ToxMod
Trò chơi trực tuyến hiện đại và nền tảng metaverse đã trở nên xã hội hơn nhiều so với những trò chơi tiền nhiệm của chúng. Trước đây, các trò chơi tập trung vào việc cung cấp trải nghiệm được tuyển chọn cụ thể cho người chơi. Ngày nay, chúng đã phát triển thành một không gian chung hơn, nơi người chơi và bạn bè của họ có thể tụ tập và chọn nhiều trải nghiệm khác nhau để tham gia. Với sự phát triển này, độc tính và lạm dụng bằng lời nói thường có thể phá hỏng những trải nghiệm trực tuyến tuyệt vời.
Trong thực tế, theo một nghiên cứu gần đây từ Chống phỉ báng Liên đoàn, tính độc hại trong trò chơi đang trở nên tồi tệ hơn bao giờ hết: việc tiếp xúc với hệ tư tưởng của người da trắng thượng đẳng trong trò chơi đã tăng hơn gấp đôi vào năm 2022. Hơn 17/XNUMX game thủ trưởng thành cho biết đã từng bị quấy rối nghiêm trọng trong trò chơi trực tuyến. Hơn XNUMX triệu game thủ trẻ tuổi đã bị tổn hại và quấy rối trong năm qua. Vấn đề chỉ trở nên tồi tệ hơn, và với quy định sắp tới Điều đó sẽ yêu cầu các hãng phim đóng vai trò tích cực hơn trong việc quản lý và báo cáo về độc tính, nhu cầu kiểm duyệt giọng nói chủ động trở nên cấp thiết hơn bao giờ hết.
ToxMod giúp các nhà phát hành trò chơi và nền tảng chủ động kiểm duyệt trò chuyện thoại của họ theo chính sách và hướng dẫn của riêng họ, giữ cho cộng đồng của họ an toàn và tích cực. ToxMod chạy một loạt mô hình máy học (ML) phân tích các khía cạnh cảm xúc, văn bản và hội thoại của các cuộc hội thoại bằng giọng nói để xác định xem có bất kỳ vi phạm nào đối với chính sách nội dung của nhà xuất bản hoặc nền tảng hay không. Các vi phạm được gắn cờ cho người điều hành, những người có thể thực hiện hành động chống lại những kẻ xấu. Các mô hình ML của chúng tôi bao gồm phát hiện cảm xúc, sao chép và phân tích hội thoại do NLP cung cấp để phân loại các vi phạm và cung cấp điểm xếp hạng để xác định mức độ chắc chắn rằng vi phạm đã xảy ra. Những phát hiện này xảy ra trong thời gian thực và cho phép các nhà phát hành trò chơi chủ động kiểm duyệt cộng đồng của họ khi tình trạng độc hại đang xảy ra, ngăn chặn nguy cơ gây hại cho người chơi và các cuộc trò chuyện nguy hiểm leo thang.
Cân nhắc về kinh tế và kỹ thuật
Chúng ta có hai loại ràng buộc: kinh tế và kỹ thuật. Về mặt kinh tế, vấn đề của chúng ta là nhu cầu thay đổi và quy mô không chắc chắn của cơ sở hạ tầng điện toán cần thiết. Trong ngành công nghiệp trò chơi, các nhà phát triển và nhà xuất bản ra mắt trò chơi với lợi nhuận tối thiểu và chỉ mở rộng quy mô khi trò chơi trở nên thành công hơn. Thành công đó có nghĩa là những khách hàng lớn nhất của chúng tôi đang xử lý hàng triệu giờ trò chuyện thoại mỗi tháng. Chi phí của ToxMod quy mô theo số giờ âm thanh được xử lý, rất linh động dựa trên hành vi của người chơi và các yếu tố bên ngoài ảnh hưởng đến mức độ phổ biến của trò chơi. Vận hành các máy chủ của riêng chúng tôi để cung cấp năng lượng cho ToxMod cực kỳ tốn kém về cả chi phí và băng thông nhóm. Các máy chủ tại chỗ thiếu khả năng mở rộng này và thường không được sử dụng đúng mức, nghĩa là lựa chọn phù hợp cho ToxMod là đám mây. Với AWS, chúng tôi có thể linh hoạt thay đổi quy mô để phù hợp với nhu cầu của khách hàng trong khi vẫn giữ chi phí ở mức tối thiểu.
Về khía cạnh kỹ thuật, giống như việc xây dựng bất kỳ ứng dụng xử lý giọng nói nào, chúng ta cần đạt được sự cân bằng giữa độ trễ và thông lượng. Một số người dùng của chúng tôi muốn có khả năng giải quyết các tình huống có thể phát sinh trong cộng đồng của họ trong vòng một hoặc hai phút khi chúng xảy ra. Để đáp ứng ngân sách độ trễ của mình, chúng tôi sử dụng mức thấp nhất có thể. Chúng tôi tình cờ có nhiều kinh nghiệm với các thiết bị ARM vì rất nhiều cơ sở mã ToxMod chạy trên các thiết bị phía máy khách thường chạy trên bộ xử lý ARM. Các phiên bản EC2 G5g được hỗ trợ bởi GPU NVIDIA T4G Tensor Core và có tính năng AWS Graviton2 bộ xử lý phù hợp một cách tự nhiên đối với một số mã suy luận mạng thần kinh tùy chỉnh đã được phát triển để sử dụng phía máy khách.
Các phiên bản EC2 G5g mang lại hiệu quả về chi phí và độ tin cậy của AWS
Với những cân nhắc này, chúng tôi đã quyết định sử dụng các phiên bản G5g làm cơ sở hạ tầng cho ToxMod vì chúng tiết kiệm chi phí và cung cấp môi trường quen thuộc để thử nghiệm và triển khai các mô hình của chúng tôi. Lựa chọn này cuối cùng đã giúp chúng tôi giảm chi phí xuống 5 lần (so với các phiên bản G4dn). Để có thể lặp lại nhanh chóng, chúng tôi cần một môi trường điện toán quen thuộc với các nhà khoa học dữ liệu và kỹ sư ML của chúng tôi. Chúng tôi đã có thể có được hình ảnh máy của mình với tất cả các trình điều khiển, thư viện và biến môi trường có liên quan chạy trên các phiên bản G5g trong vòng một ngày. Chúng tôi đã bắt đầu trên các phiên bản G4dn và các thử nghiệm ban đầu của chúng tôi trên G5g đã cho phép chúng tôi giảm 40% chi phí. Nhiều mẫu đắt tiền nhất của chúng tôi chạy được gắn với GPU, vì vậy chúng tôi có thể tối ưu hóa hơn nữa chi phí của mình bằng cách điều chỉnh kích thước phù hợp với kích thước phiên bản cho phép chúng tôi tối đa hóa mức sử dụng CPU trong khi vẫn có quyền truy cập vào một GPU.
Ngoài các phiên bản G5g hoạt động đặc biệt hiệu quả đối với cấu hình của chúng tôi, chúng tôi biết rằng mình có thể tin tưởng vào hỗ trợ kỹ thuật và quản lý tài khoản của AWS để giúp chúng tôi giải quyết vấn đề nhanh chóng và duy trì thời gian hoạt động cực cao trong khi trải qua tải biến thiên cao. Khi chúng tôi bắt đầu, chúng tôi đã chi tiêu ít hơn hai con số mỗi tháng, nhưng một người thực sự đã liên hệ để tìm hiểu về trường hợp sử dụng của chúng tôi và một nhóm người đã làm việc với chúng tôi để làm cho ứng dụng của chúng tôi không chỉ hoạt động mà còn hoạt động với chi phí cao nhất- cách làm hiệu quả.
Tổng quan về giải pháp của chúng tôi
Giải pháp của ToxMod bắt đầu bằng việc nhập âm thanh, được thực hiện thông qua việc tích hợp SDK của chúng tôi vào cơ sở hạ tầng trò chuyện thoại của trò chơi hoặc nền tảng. Việc sử dụng SDK (trên API hoặc giao diện khác) là rất quan trọng vì khi bạn xử lý âm thanh, bạn phải cực kỳ tiết kiệm tài nguyên. Đối với bất kỳ luồng âm thanh đơn lẻ nào, chúng tôi cần xử lý và gửi lại cho phần còn lại của hệ thống một cách nhanh chóng, nếu không khách hàng sẽ gặp trục trặc trong âm thanh, đây là điều chúng tôi muốn tránh bằng mọi giá. Rất nhiều thứ có thể gây ra trục trặc—bao gồm phân bổ bộ nhớ, thu gom rác và lệnh gọi hệ thống—vì vậy chúng tôi đã phát triển ToxMod SDK để đảm bảo quá trình xử lý âm thanh mượt mà nhất có thể.
Từ SDK, các cuộc trò chuyện bằng giọng nói được mã hóa trong bộ đệm ngắn và gửi qua internet. Về mặt nhập, chúng tôi lưu vào bộ nhớ đệm một vài giây âm thanh và chúng tôi cố gắng tìm các điểm dừng tự nhiên trong các cuộc hội thoại bằng giọng nói trước khi gửi gói tới Đám mây AWS, nơi chúng tôi lưu dữ liệu đến qua AWS Lambda chức năng. Từ đó, việc phân tích cuộc hội thoại âm thanh được thực hiện thông qua quá trình xử lý trên các phiên bản G5g chạy nhiều mẫu âm thanh ML của chúng tôi. Chúng tôi giảm thiểu chi phí hoạt động bằng cách nhóm tất cả các gói mà chúng tôi nhận được và gửi chúng đến GPU trong các phiên bản G5g. Các phiên bản G5g được cung cấp thông qua hàng đợi các clip âm thanh để xử lý, mà chúng tôi đã kết nối với các nhóm tự động thay đổi quy mô giúp tăng hoặc giảm quy mô một cách hiệu quả khi lưu lượng truy cập thay đổi trong ngày.
Nhìn về phía trước
ToxMod được xây dựng cho các studio thuộc mọi quy mô, từ các nhóm nhà phát triển độc lập nhỏ đến AAA, nhà phát triển và nhà xuất bản nhiều nhóm. Ngày nay, chúng tôi đang ở vị trí tốt hơn bao giờ hết để cung cấp mức độ hỗ trợ, phát triển sản phẩm và các tính năng mạnh mẽ mà các nhóm doanh nghiệp tại các studio lớn nhất mong đợi từ các đối tác phần mềm của họ. Với khả năng hỗ trợ đa ngôn ngữ cho 18 ngôn ngữ, hỗ trợ cấp doanh nghiệp 24/7, giấy phép một bên thuê sẵn có cho các studio có nhiều trò chơi và sự hỗ trợ của cơ sở hạ tầng ML có thể mở rộng mà AWS cung cấp, chúng tôi sẵn sàng trợ giúp các studio AAA giúp trò chuyện thoại trở nên an toàn cho người chơi của họ.
Nếu bạn muốn tìm hiểu thêm về cách các phiên bản EC2 G5g có thể giúp bạn triển khai khối lượng công việc ML của mình một cách tiết kiệm chi phí, hãy tham khảo Phiên bản Amazon EC2 G5g.
Về các tác giả
Carter Huffman là CTO và đồng sáng lập của Modulate, một công ty khởi nghiệp về công nghệ giọng nói nhằm chống lại độc tính trực tuyến và tăng cường giao tiếp bằng giọng nói trong trò chơi. Anh ấy có nền tảng về vật lý, học máy và phân tích dữ liệu, đồng thời trước đây từng làm việc tại Phòng thí nghiệm Sức đẩy Phản lực của NASA. Anh ấy đam mê hiểu và điều khiển lời nói của con người bằng cách sử dụng mạng lưới thần kinh sâu. Ông tốt nghiệp MIT với bằng Cử nhân Khoa học Vật lý.
Shruti Koparkar là Giám đốc Tiếp thị Sản phẩm Cấp cao tại AWS. Cô ấy giúp khách hàng khám phá, đánh giá và áp dụng cơ sở hạ tầng điện toán tăng tốc EC2 cho nhu cầu học máy của họ.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/modulate-makes-voice-chat-safer-while-reducing-infrastructure-costs-by-a-factor-of-5-with-amazon-ec2-g5g-instances/
- :là
- $ LÊN
- 100
- 17 triệu
- 2022
- 7
- a
- AAA
- có khả năng
- Có khả năng
- Giới thiệu
- lạm dụng
- tăng tốc
- truy cập
- thực hiện
- Theo
- Tài khoản
- quản lý tài khoản
- đạt được
- Hoạt động
- hoạt động
- diễn viên
- địa chỉ
- nhận nuôi
- Người lớn
- ảnh hưởng đến
- chống lại
- Mục tiêu
- Tất cả
- phân bổ
- thay thế
- đàn bà gan dạ
- Amazon EC2
- phân tích
- phân tích
- và
- api
- Các Ứng Dụng
- LÀ
- ARM
- AS
- các khía cạnh
- At
- âm thanh
- tự động
- có sẵn
- AWS
- trở lại
- lý lịch
- Bad
- Cân đối
- Băng thông
- cơ sở
- dựa
- BE
- bởi vì
- trở nên
- trở thành
- trước
- Hơn
- giữa
- Nghỉ giải lao
- Ngân sách
- đệm
- xây dựng
- Xây dựng
- xây dựng
- by
- CAN
- trường hợp
- Nguyên nhân
- thách thức
- thay đổi
- sự lựa chọn
- Chọn
- chọn
- clip
- đám mây
- Đồng sáng lập
- mã
- cơ sở mã
- bộ sưu tập
- Giao tiếp
- Cộng đồng
- cộng đồng
- so
- Tính
- máy tính
- Tiến hành
- tự tin
- Cấu hình
- sự cân nhắc
- khó khăn
- nội dung
- Conversation
- đàm thoại
- cuộc hội thoại
- Trung tâm
- Phí Tổn
- tiết kiệm chi phí
- chi phí-hiệu quả
- Chi phí
- có thể
- Couple
- che
- quan trọng
- CTO
- lưu trữ
- khách hàng
- khách hàng
- Dịch Vụ CSKH
- khách hàng
- Nguy hiểm
- dữ liệu
- phân tích dữ liệu
- ngày
- quyết định
- sâu
- Nhu cầu
- triển khai
- Phát hiện
- Xác định
- Dev
- phát triển
- phát triển
- Phát triển
- Thiết bị (Devices)
- chữ số
- làm
- tăng gấp đôi
- hai chữ số
- tăng gấp đôi
- xuống
- trình điều khiển
- năng động
- năng động
- Kinh tế
- hiệu quả
- cho phép
- kích hoạt
- Kỹ sư
- đảm bảo
- Doanh nghiệp
- cấp doanh nghiệp
- Môi trường
- môi trường
- đánh giá
- BAO GIỜ
- mọi người
- sự tiến hóa
- phát triển
- mong đợi
- đắt tiền
- kinh nghiệm
- Kinh nghiệm
- trải qua
- các chuyên gia
- khám phá
- tiếp xúc
- Tiếp xúc
- ngoài
- cực kỳ
- các yếu tố
- quen
- Tính năng
- Với
- Fed
- chiến đấu
- Tìm kiếm
- phù hợp với
- được gắn cờ
- tập trung
- Trong
- bạn bè
- từ
- chức năng
- xa hơn
- trò chơi
- Game thủ
- Trò chơi
- ngành công nghiệp trò chơi
- chơi game
- được
- nhận được
- Go
- Các mục tiêu
- GPU
- GPU
- tuyệt vời
- Các nhóm
- Khách
- Bài đăng của Khách
- hướng dẫn
- tay
- xảy ra
- Xảy ra
- Có
- có
- giúp đỡ
- đã giúp
- giúp
- tại đây
- Cao
- cao
- lịch sử
- GIỜ LÀM VIỆC
- Độ đáng tin của
- http
- HTTPS
- Nhân loại
- hệ tư tưởng
- hình ảnh
- in
- bao gồm
- Bao gồm
- Incoming
- ngành công nghiệp
- Cơ sở hạ tầng
- ban đầu
- sự đổi mới
- ví dụ
- hội nhập
- Giao thức
- Internet
- các vấn đề
- IT
- jpg
- giữ
- phòng thí nghiệm
- Thiếu sót
- Ngôn ngữ
- lớn nhất
- Độ trễ
- phóng
- LEARN
- học tập
- Cấp
- thư viện
- giấy phép
- Lượt thích
- tải
- Rất nhiều
- Thấp
- máy
- học máy
- duy trì
- làm cho
- LÀM CHO
- quản lý
- giám đốc
- quản lý
- thao túng
- cách thức
- nhiều
- lợi nhuận
- Marketing
- Trận đấu
- Tối đa hóa
- Có thể..
- có nghĩa là
- Gặp gỡ
- Bộ nhớ
- Metaverse
- nền tảng metaverse
- triệu
- hàng triệu
- tối thiểu
- tối thiểu
- phút
- Sứ mệnh
- MIT
- ML
- mô hình
- điều độ
- tháng
- chi tiết
- hầu hết
- nhiều
- nhiều trò chơi
- Tự nhiên
- Cần
- nhu cầu
- mạng
- mạng
- mạng lưới thần kinh
- mạng thần kinh
- con số
- Nvidia
- xảy ra
- of
- Cung cấp
- on
- Trực tuyến
- chơi game trực tuyến
- hoạt động
- Tối ưu hóa
- Nền tảng khác
- nếu không thì
- tổng quan
- riêng
- gói
- gói
- đặc biệt
- Đối tác
- đam mê
- qua
- người
- người
- Vật lý
- nền tảng
- Nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- người chơi
- điểm
- Chính sách
- phổ biến
- định vị
- tích cực
- có thể
- Bài đăng
- quyền lực
- -
- ngăn chặn
- trước đây
- Chủ động
- Vấn đề
- quá trình
- Xử lý
- xử lý
- Bộ xử lý
- bộ vi xử lý
- Sản phẩm
- phát triển sản phẩm
- sự đẩy tới
- cho
- cung cấp
- cung cấp
- nhà xuất bản
- Mau
- đạt
- thực
- thời gian thực
- nhận
- giảm
- tái đầu tư
- có liên quan
- Báo cáo
- Báo cáo
- yêu cầu
- cần phải
- REST của
- mạnh mẽ
- Vai trò
- làm hỏng
- chạy
- chạy
- an toàn
- an toàn hơn
- Lưu
- Tiết kiệm
- khả năng mở rộng
- khả năng mở rộng
- Quy mô
- mở rộng quy mô
- Khoa học
- các nhà khoa học
- Điểm số
- sdk
- giây
- gửi
- cao cấp
- Loạt Sách
- phục vụ
- Các máy chủ
- dịch vụ
- nghiêm trọng
- ngắn
- bên
- duy nhất
- tình huống
- Kích thước máy
- kích thước
- nhỏ
- So
- Mạng xã hội
- Phần mềm
- giải pháp
- một số
- một cái gì đó
- Không gian
- riêng
- phát biểu
- Chi
- bắt đầu
- khởi động
- Vẫn còn
- dòng
- đình công
- studio
- thành công
- thành công
- hỗ trợ
- hệ thống
- Hãy
- nhóm
- đội
- Kỹ thuật
- Công nghệ
- về
- thử nghiệm
- kiểm tra
- việc này
- Sản phẩm
- cung cấp their dịch
- Them
- Kia là
- điều
- Thông qua
- khắp
- thông lượng
- thời gian
- đến
- bây giờ
- giao thông
- loại
- Cuối cùng
- Không chắc chắn
- sự hiểu biết
- thời gian hoạt động
- khẩn cấp
- us
- Sử dụng
- sử dụng
- ca sử dụng
- Người sử dụng
- nhiều
- thông qua
- SỰ VI PHẠM
- Vi phạm
- Giọng nói
- TỐT
- cái nào
- trong khi
- trắng
- CHÚNG TÔI LÀ
- sẽ
- với
- ở trong
- Công việc
- làm việc
- đang làm việc
- thế giới
- đẳng cấp thế giới
- sẽ
- năm
- Bạn
- trẻ
- trên màn hình
- zephyrnet