Memoderasi Obrolan Audio dan Teks Menggunakan Layanan AWS AI dan LLM

Diterbitkan Ulang Oleh Plato

Followers: 0

Game online dan komunitas sosial menawarkan fungsionalitas obrolan suara dan teks agar penggunanya dapat berkomunikasi. Meskipun obrolan suara dan teks sering kali mendukung olok-olok ramah, hal ini juga dapat menyebabkan masalah seperti perkataan yang mendorong kebencian, penindasan maya, pelecehan, dan penipuan. Saat ini, banyak perusahaan hanya mengandalkan moderator manusia untuk meninjau konten beracun. Namun, memverifikasi pelanggaran dalam chat memakan waktu, rawan kesalahan, dan sulit untuk diukur.

Dalam postingan ini, kami memperkenalkan solusi yang mengaktifkan moderasi obrolan audio dan teks menggunakan berbagai layanan AWS, termasuk Amazon Transkripsikan, Amazon Comprehend, Batuan Dasar Amazon, dan Layanan Pencarian Terbuka Amazon.

Platform sosial mencari solusi moderasi siap pakai yang mudah untuk dimulai, namun juga memerlukan penyesuaian untuk mengelola beragam kebijakan. Latensi dan biaya juga merupakan faktor penting yang harus diperhitungkan. Dengan mengatur klasifikasi toksisitas dengan model bahasa besar (LLM) menggunakan AI generatif, kami menawarkan solusi yang menyeimbangkan kesederhanaan, latensi, biaya, dan fleksibilitas untuk memenuhi berbagai kebutuhan.

Contoh kode untuk posting ini tersedia di Repositori GitHub.

Alur kerja moderasi obrolan audio

Alur kerja moderasi obrolan audio dapat dimulai oleh pengguna yang melaporkan pengguna lain di platform game karena pelanggaran kebijakan seperti kata-kata kotor, perkataan yang mendorong kebencian, atau pelecehan. Ini mewakili pendekatan pasif terhadap moderasi audio. Sistem merekam semua percakapan audio tanpa analisis langsung. Saat laporan diterima, alur kerja mengambil file audio terkait dan memulai proses analisis. Moderator manusia kemudian meninjau percakapan yang dilaporkan, menyelidiki kontennya untuk menentukan apakah percakapan tersebut melanggar kebijakan platform.

Alternatifnya, alur kerja dapat dipicu secara proaktif. Misalnya, di ruang obrolan audio sosial, sistem dapat merekam semua percakapan dan menerapkan analisis.

Pendekatan pasif dan proaktif dapat memicu alur analisis audio berikut.

Alur kerja moderasi audio melibatkan langkah-langkah berikut:

Alur kerja dimulai dengan menerima file audio dan menyimpannya di a Layanan Penyimpanan Sederhana Amazon (Amazon S3) bucket untuk diakses oleh Amazon Transcribe.
Transkrip Amazon StartTranscriptionJob API dipanggil dengan Deteksi Toksisitas diaktifkan. Amazon Transcribe mengubah audio menjadi teks, memberikan informasi tambahan tentang analisis toksisitas. Untuk informasi lebih lanjut tentang analisis toksisitas, lihat Tandai bahasa berbahaya dalam percakapan lisan dengan Amazon Transcribe Toxicity Detection.
Jika analisis toksisitas menghasilkan skor toksisitas yang melebihi ambang batas tertentu (misalnya 50%), kita dapat menggunakannya Basis Pengetahuan untuk Batuan Dasar Amazon untuk mengevaluasi pesan terhadap kebijakan yang disesuaikan menggunakan LLM.
Moderator manusia menerima laporan moderasi audio terperinci yang menyoroti segmen percakapan yang dianggap beracun dan melanggar kebijakan, sehingga mereka dapat mengambil keputusan yang tepat.

Tangkapan layar berikut menunjukkan contoh aplikasi yang menampilkan analisis toksisitas untuk segmen audio. Ini mencakup transkripsi asli, hasil analisis toksisitas Amazon Transcribe, dan analisis yang dilakukan menggunakan basis pengetahuan Amazon Bedrock melalui model Amazon Bedrock Anthropic Claude V2.

Analisis LLM memberikan hasil pelanggaran (Y atau N) dan menjelaskan alasan di balik keputusan model mengenai pelanggaran kebijakan. Selain itu, basis pengetahuan mencakup referensi dokumen kebijakan yang digunakan dalam evaluasi, sehingga memberikan konteks tambahan kepada moderator.

Deteksi Toksisitas Transkripsi Amazon

Amazon Transcribe adalah layanan pengenalan ucapan otomatis (ASR) yang memudahkan pengembang untuk menambahkan kemampuan ucapan-ke-teks ke aplikasi mereka. Alur kerja moderasi audio menggunakan Amazon Transcribe Toxicity Detection, yang merupakan kemampuan yang didukung pembelajaran mesin (ML) yang menggunakan isyarat berbasis audio dan teks untuk mengidentifikasi dan mengklasifikasikan konten beracun berbasis suara ke dalam tujuh kategori, termasuk pelecehan seksual, perkataan yang mendorong kebencian, dan ancaman. , pelecehan, kata-kata kotor, penghinaan, dan bahasa grafis. Selain menganalisis teks, Deteksi Toksisitas menggunakan isyarat ucapan seperti nada dan nada untuk mengidentifikasi maksud beracun dalam ucapan.

Alur kerja moderasi audio mengaktifkan evaluasi kebijakan LLM hanya ketika analisis toksisitas melebihi ambang batas yang ditetapkan. Pendekatan ini mengurangi latensi dan mengoptimalkan biaya dengan menerapkan LLM secara selektif, menyaring sebagian besar lalu lintas.

Gunakan rekayasa cepat LLM untuk mengakomodasi kebijakan yang disesuaikan

Model Deteksi Toksisitas terlatih dari Amazon Transcribe dan Amazon Comprehend memberikan taksonomi toksisitas yang luas, yang biasa digunakan oleh platform sosial untuk memoderasi konten buatan pengguna dalam format audio dan teks. Meskipun model terlatih ini secara efisien mendeteksi masalah dengan latensi rendah, Anda mungkin memerlukan solusi untuk mendeteksi pelanggaran terhadap kebijakan spesifik perusahaan atau domain bisnis Anda, yang tidak dapat dicapai oleh model terlatih saja.

Selain itu, mendeteksi pelanggaran dalam percakapan kontekstual, seperti mengidentifikasi perawatan seksual anak percakapan, memerlukan solusi yang dapat disesuaikan yang melibatkan pertimbangan pesan obrolan dan konteks di luarnya, seperti usia pengguna, jenis kelamin, dan riwayat percakapan. Di sinilah LLM dapat menawarkan fleksibilitas yang diperlukan untuk memperluas persyaratan ini.

Amazon Bedrock adalah layanan terkelola sepenuhnya yang menawarkan pilihan model fondasi (FM) berperforma tinggi dari perusahaan AI terkemuka. Solusi ini menggunakan Anthropic Claude v2 dari Amazon Bedrock untuk memoderasi transkripsi audio dan pesan obrolan teks menggunakan templat cepat yang fleksibel, sebagaimana diuraikan dalam kode berikut:

Human: You are a Trust & Safety expert. Your job is to review user chat message and decide if it violate the policy.
You will find the chat message in <message> tag, and find the policy in the <policy> tag. You can find additional rules in the <rule> tag to assist your decision. 

<policy>{policy}</policy>
<message>{message}</message>
<rule>{rule}</rule>

Does the chat message violate the policy? Please consider and provide your analysis in the <analysis> tag, breaking down each rule in the rule section, and keep and analysis within 100 words. Respond in the <answer> tag with either 'Y' or 'N'. 'Y' indicates that the message violates the policy, while 'N' means the content is safe and does not violate the policy. 

Assistant:

Templat berisi placeholder untuk deskripsi kebijakan, pesan obrolan, dan aturan tambahan yang memerlukan moderasi. Model Anthropic Claude V2 memberikan tanggapan dalam format yang diinstruksikan (Y atau N), bersama dengan analisis yang menjelaskan mengapa pesan tersebut dianggap melanggar kebijakan. Pendekatan ini memungkinkan Anda menentukan kategori moderasi yang fleksibel dan mengartikulasikan kebijakan Anda dalam bahasa manusia.

Metode tradisional dalam melatih model klasifikasi internal melibatkan proses yang rumit seperti anotasi data, pelatihan, pengujian, dan penerapan model, yang memerlukan keahlian ilmuwan data dan teknisi ML. LLM, sebaliknya, menawarkan fleksibilitas tingkat tinggi. Pengguna bisnis dapat memodifikasi perintah dalam bahasa manusia, sehingga meningkatkan efisiensi dan mengurangi siklus iterasi dalam pelatihan model ML.

Basis pengetahuan Amazon Batuan Dasar

Meskipun rekayasa cepat efisien untuk menyesuaikan kebijakan, memasukkan kebijakan dan aturan yang panjang langsung ke perintah LLM untuk setiap pesan dapat menimbulkan latensi dan meningkatkan biaya. Untuk mengatasi hal ini, kami menggunakan basis pengetahuan Amazon Bedrock sebagai sistem Retrieval Augmented Generation (RAG) yang dikelola. Hal ini memungkinkan Anda mengelola dokumen kebijakan secara fleksibel, sehingga alur kerja hanya mengambil segmen kebijakan yang relevan untuk setiap pesan masukan. Hal ini meminimalkan jumlah token yang dikirim ke LLM untuk dianalisis.

Anda dapat menggunakan Konsol Manajemen AWS untuk mengunggah dokumen kebijakan ke bucket S3 dan kemudian mengindeks dokumen tersebut ke database vektor untuk pengambilan yang efisien. Berikut ini adalah alur kerja konseptual yang dikelola oleh basis pengetahuan Amazon Bedrock yang mengambil dokumen dari Amazon S3, membagi teks menjadi beberapa bagian, dan memanggil Model penyematan teks Amazon Bedrock Titan untuk mengubah potongan teks menjadi vektor, yang kemudian disimpan dalam database vektor.

Dalam solusi ini, kami menggunakan Layanan Pencarian Terbuka Amazon sebagai penyimpanan vektor. Pencarian Terbuka adalah rangkaian perangkat lunak sumber terbuka yang dapat diskalakan, fleksibel, dan dapat diperluas untuk aplikasi pencarian, analitik, pemantauan keamanan, dan observabilitas, yang dilisensikan di bawah lisensi Apache 2.0. OpenSearch Service adalah layanan terkelola sepenuhnya yang memudahkan penerapan, penskalaan, dan pengoperasian OpenSearch di AWS Cloud.

Setelah dokumen diindeks di OpenSearch Service, alur kerja moderasi audio dan teks mengirimkan pesan obrolan, memicu alur kueri berikut untuk evaluasi kebijakan yang disesuaikan.

Prosesnya mirip dengan alur kerja inisiasi. Pertama, pesan teks diubah menjadi penyematan teks menggunakan Amazon Bedrock Titan Text Embedding API. Penyematan ini kemudian digunakan untuk melakukan a pencarian vektor terhadap database OpenSearch Service, yang telah diisi dengan penyematan dokumen. Basis data mengembalikan potongan kebijakan dengan skor pencocokan tertinggi, relevan dengan pesan teks masukan. Kami kemudian membuat prompt yang berisi pesan obrolan masukan dan segmen kebijakan, yang dikirim ke Anthropic Claude V2 untuk evaluasi. Model LLM mengembalikan hasil analisis berdasarkan instruksi cepat.

Untuk instruksi mendetail tentang cara membuat instans baru dengan dokumen kebijakan Anda di basis pengetahuan Amazon Bedrock, lihat Basis Pengetahuan kini menghadirkan pengalaman RAG yang terkelola sepenuhnya di Amazon Bedrock.

Alur kerja moderasi obrolan teks

Alur kerja moderasi obrolan teks mengikuti pola yang mirip dengan moderasi audio, namun menggunakan analisis toksisitas Amazon Comprehend, yang disesuaikan untuk moderasi teks. Aplikasi sampel mendukung antarmuka untuk mengunggah file teks massal dalam format CSV atau TXT dan menyediakan antarmuka pesan tunggal untuk pengujian cepat. Diagram berikut menggambarkan alur kerja.

Alur kerja moderasi teks melibatkan langkah-langkah berikut:

Pengguna mengunggah file teks ke bucket S3.
Analisis toksisitas Amazon Comprehend diterapkan pada pesan teks.
Jika analisis toksisitas menghasilkan skor toksisitas yang melebihi ambang batas tertentu (misalnya, 50%), kami menggunakan basis pengetahuan Amazon Bedrock untuk mengevaluasi pesan terhadap kebijakan yang disesuaikan menggunakan Anthropic Claude V2 LLM.
Laporan evaluasi kebijakan dikirim ke moderator manusia.

Amazon Memahami analisis toksisitas

Dalam alur kerja moderasi teks, kami menggunakan analisis toksisitas Amazon Comprehend untuk menilai tingkat toksisitas pesan teks. Amazon Comprehend adalah layanan pemrosesan bahasa alami (NLP) yang menggunakan ML untuk mengungkap wawasan dan koneksi berharga dalam teks. API deteksi toksisitas Amazon Comprehend memberikan skor toksisitas keseluruhan pada konten teks, berkisar antara 0–1, yang menunjukkan kemungkinan konten tersebut beracun. Ini juga mengkategorikan teks ke dalam kategori berikut dan memberikan skor kepercayaan untuk masing-masing kategori: hate_speech, grafis, harrassement_or_abuse, seksual, violence_or_threat, penghinaan, dan kata-kata kotor.

Dalam alur kerja moderasi teks ini, analisis toksisitas Amazon Comprehend memainkan peran penting dalam mengidentifikasi apakah pesan teks masuk berisi konten beracun. Mirip dengan alur kerja moderasi audio, ini mencakup kondisi untuk mengaktifkan evaluasi kebijakan LLM hilir hanya ketika analisis toksisitas menghasilkan skor yang melebihi ambang batas yang telah ditentukan. Pengoptimalan ini membantu mengurangi keseluruhan latensi dan biaya yang terkait dengan analisis LLM.

Kesimpulan

Dalam postingan ini, kami memperkenalkan solusi untuk moderasi obrolan audio dan teks menggunakan layanan AWS, termasuk Amazon Transcribe, Amazon Comprehend, Amazon Bedrock, dan OpenSearch Service. Solusi ini menggunakan model terlatih untuk analisis toksisitas dan diatur dengan AI LLM generatif untuk mencapai keseimbangan optimal dalam akurasi, latensi, dan biaya. Mereka juga memberdayakan Anda untuk secara fleksibel menentukan kebijakan Anda sendiri.

Anda dapat mencoba aplikasi sampel dengan mengikuti petunjuk di GitHub repo.

Tentang Penulis

Lana Zhang adalah Arsitek Solusi Senior di tim Layanan AI AWS WWSO, yang berspesialisasi dalam AI dan ML untuk Moderasi Konten, Visi Komputer, Pemrosesan Bahasa Alami, dan AI Generatif. Dengan keahliannya, dia berdedikasi untuk mempromosikan solusi AI/ML AWS dan membantu pelanggan dalam mengubah solusi bisnis mereka di berbagai industri, termasuk media sosial, game, e-commerce, media, periklanan & pemasaran.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/moderate-audio-and-text-chats-using-aws-ai-services-and-llms/

Stempel Waktu: 13 Maret, 2024

Stempel Waktu: Oktober 19, 2023

Diterbitkan Ulang Oleh Plato

Konferensi Sains Data Universitas San Francisco 2023 Datathon bekerja sama dengan AWS dan Amazon SageMaker Studio Lab | Layanan Web Amazon

Tingkatkan kinerja harga pelatihan model Anda menggunakan klaster heterogen Amazon SageMaker

Bangun solusi verifikasi vaksinasi menggunakan fitur Kueri di Amazon Textract | Layanan Web Amazon

Skala pelatihan dan inferensi ribuan model ML dengan Amazon SageMaker | Layanan Web Amazon

Perjalanan asisten virtual AI generatif PGA TOUR, mulai dari konsep hingga pengembangan hingga prototipe | Layanan Web Amazon

Bagaimana Mantium mencapai inferensi GPT-J latensi rendah dengan DeepSpeed di Amazon SageMaker

Amazon Rekognition memperkenalkan Acara Video Streaming untuk memberikan peringatan real-time pada streaming video langsung

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun