Tandai bahasa berbahaya dalam percakapan lisan dengan Amazon Transcribe Toxicity Detection | Layanan Web Amazon

Tandai bahasa berbahaya dalam percakapan lisan dengan Amazon Transcribe Toxicity Detection | Layanan Web Amazon

Meningkatnya aktivitas sosial online seperti jejaring sosial atau game online sering kali diwarnai dengan perilaku bermusuhan atau agresif yang dapat mengarah pada manifestasi ujaran kebencian, cyberbullying, atau pelecehan yang tidak diinginkan. Misalnya, banyak komunitas game online menawarkan fungsi obrolan suara untuk memfasilitasi komunikasi di antara penggunanya. Meskipun obrolan suara sering kali mendukung olok-olok ramah dan pembicaraan sampah, hal itu juga dapat menimbulkan masalah seperti ujaran kebencian, intimidasi dunia maya, pelecehan, dan penipuan. Menandai bahasa berbahaya membantu organisasi menjaga percakapan tetap sopan dan menjaga lingkungan online yang aman dan inklusif bagi pengguna untuk membuat, berbagi, dan berpartisipasi secara bebas. Saat ini, banyak perusahaan hanya mengandalkan moderator manusia untuk meninjau konten beracun. Namun, menskalakan moderator manusia untuk memenuhi kebutuhan ini dengan kualitas dan kecepatan yang memadai sangatlah mahal. Akibatnya, banyak organisasi berisiko menghadapi tingkat peralihan pengguna yang tinggi, kerusakan reputasi, dan denda peraturan. Selain itu, moderator seringkali terkena dampak psikologis dengan meninjau konten beracun.

Amazon Transkripsikan adalah layanan pengenalan ucapan otomatis (ASR) yang memudahkan pengembang untuk menambahkan kemampuan ucapan-ke-teks ke aplikasi mereka. Hari ini, kami dengan senang hati mengumumkan Deteksi Toksisitas Transkripsi Amazon, kemampuan bertenaga pembelajaran mesin (ML) yang menggunakan petunjuk berbasis audio dan teks untuk mengidentifikasi dan mengklasifikasikan konten beracun berbasis suara di tujuh kategori, termasuk pelecehan seksual, ujaran kebencian, ancaman, pelecehan, kata-kata kotor, hinaan, dan bahasa vulgar . Selain teks, Deteksi Toksisitas menggunakan isyarat ucapan seperti nada dan nada untuk mengasah niat beracun dalam ucapan.

Ini adalah peningkatan dari sistem moderasi konten standar yang dirancang untuk fokus hanya pada istilah tertentu, tanpa memperhitungkan niat. Sebagian besar perusahaan memiliki SLA 7โ€“15 hari untuk meninjau konten yang dilaporkan oleh pengguna karena moderator harus mendengarkan file audio yang panjang untuk mengevaluasi apakah dan kapan percakapan menjadi beracun. Dengan Deteksi Toksisitas Amazon Transcribe, moderator hanya meninjau bagian tertentu dari file audio yang ditandai untuk konten beracun (vs. seluruh file audio). Konten yang harus ditinjau oleh moderator manusia berkurang sebesar 95%, memungkinkan pelanggan mengurangi SLA mereka menjadi hanya beberapa jam, serta memungkinkan mereka untuk secara proaktif memoderasi lebih banyak konten di luar apa yang ditandai oleh pengguna. Ini akan memungkinkan perusahaan untuk secara otomatis mendeteksi dan memoderasi konten dalam skala besar, menyediakan lingkungan online yang aman dan inklusif, serta mengambil tindakan sebelum dapat menyebabkan churn pengguna atau kerusakan reputasi. Model yang digunakan untuk deteksi konten beracun dikelola oleh Amazon Transcribe dan diperbarui secara berkala untuk menjaga akurasi dan relevansi.

Dalam posting ini, Anda akan belajar bagaimana:

  • Identifikasi konten berbahaya dalam ucapan dengan Amazon Transcribe Toxicity Detection
  • Gunakan konsol Amazon Transcribe untuk deteksi toksisitas
  • Buat tugas transkripsi dengan deteksi toksisitas menggunakan Antarmuka Baris Perintah AWS (AWS CLI) dan Python SDK
  • Gunakan respons API deteksi toksisitas Amazon Transcribe

Deteksi toksisitas dalam obrolan audio dengan Amazon Transcribe Toxicity Detection

Amazon Transcribe kini menyediakan solusi sederhana berbasis ML untuk menandai bahasa berbahaya dalam percakapan lisan. Fitur ini sangat berguna untuk media sosial, game, dan kebutuhan umum, sehingga pelanggan tidak perlu menyediakan datanya sendiri untuk melatih model ML. Deteksi Toksisitas mengklasifikasikan konten audio beracun ke dalam tujuh kategori berikut dan memberikan skor kepercayaan (0โ€“1) untuk setiap kategori:

  • Kata-kata kotor โ€“ Pidato yang berisi kata, frasa, atau akronim yang tidak sopan, vulgar, atau menyinggung.
  • Kebencian โ€“ Pidato yang mengkritik, menghina, mencela, atau merendahkan seseorang atau kelompok atas dasar identitas (seperti ras, etnis, jenis kelamin, agama, orientasi seksual, kemampuan, dan asal negara).
  • Seksual โ€“ Ucapan yang menunjukkan minat, aktivitas, atau gairah seksual yang menggunakan referensi langsung atau tidak langsung ke bagian tubuh, ciri fisik, atau jenis kelamin.
  • Penghinaan โ€“ Ucapan yang mencakup bahasa yang merendahkan, mempermalukan, mengejek, menghina, atau meremehkan. Jenis bahasa ini juga dicap sebagai intimidasi.
  • Kekerasan atau ancaman โ€“ Ucapan yang mencakup ancaman yang berusaha menimbulkan rasa sakit, cedera, atau permusuhan terhadap seseorang atau kelompok.
  • Grafis โ€“ Pidato yang menggunakan gambaran visual yang deskriptif dan tidak menyenangkan. Jenis bahasa ini sering kali sengaja dibuat bertele-tele untuk memperkuat ketidaknyamanan penerima.
  • Pelecehan atau pelecehan โ€“ Pidato yang dimaksudkan untuk memengaruhi kesejahteraan psikologis penerima, termasuk istilah yang merendahkan dan mengobjektifkan.

Anda dapat mengakses Deteksi Toksisitas melalui konsol Amazon Transcribe atau dengan memanggil API secara langsung menggunakan AWS CLI atau AWS SDK. Di konsol Amazon Transcribe, Anda dapat mengunggah file audio yang ingin Anda uji toksisitasnya dan mendapatkan hasil hanya dengan beberapa klik. Amazon Transcribe akan mengidentifikasi dan mengkategorikan konten beracun, seperti pelecehan, ujaran kebencian, konten seksual, kekerasan, penghinaan, dan kata-kata kotor. Amazon Transcribe juga memberikan skor keyakinan untuk setiap kategori, memberikan wawasan berharga tentang tingkat toksisitas konten. Deteksi Toksisitas saat ini tersedia di Amazon Transcribe API standar untuk pemrosesan batch dan mendukung bahasa Inggris AS.

Panduan konsol Amazon Transcribe

Untuk memulai, masuk ke Konsol Manajemen AWS dan buka Amazon Transcribe. Untuk membuat tugas transkripsi baru, Anda perlu mengunggah file rekaman Anda ke dalam Layanan Penyimpanan Sederhana Amazon (Amazon S3) sebelum dapat diproses. Di halaman pengaturan audio, seperti yang ditunjukkan pada tangkapan layar berikut, aktifkan Deteksi toksisitas dan lanjutkan untuk membuat pekerjaan baru. Amazon Transcribe akan memproses tugas transkripsi di latar belakang. Saat pekerjaan berlangsung, Anda dapat mengharapkan status berubah menjadi LENGKAP ketika proses selesai.

Tandai bahasa berbahaya dalam percakapan lisan dengan Amazon Transcribe Toxicity Detection | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Untuk meninjau hasil pekerjaan transkripsi, pilih pekerjaan dari daftar pekerjaan untuk membukanya. Gulir ke bawah ke Pratinjau transkripsi bagian untuk memeriksa hasil pada Toksisitas tab. UI menampilkan segmen transkripsi berkode warna untuk menunjukkan tingkat toksisitas, yang ditentukan oleh skor kepercayaan. Untuk menyesuaikan tampilan, Anda dapat menggunakan toggle bar di filter panel. Bilah ini memungkinkan Anda menyesuaikan ambang batas dan memfilter kategori toksisitas yang sesuai.

Tangkapan layar berikut telah menutupi sebagian teks transkripsi karena adanya informasi sensitif atau beracun.

Tandai bahasa berbahaya dalam percakapan lisan dengan Amazon Transcribe Toxicity Detection | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Transkripsi API dengan permintaan deteksi toksisitas

Di bagian ini, kami memandu Anda membuat tugas transkripsi dengan deteksi toksisitas menggunakan antarmuka pemrograman. Jika file audio belum ada di bucket S3, unggah untuk memastikan akses oleh Amazon Transcribe. Mirip dengan membuat tugas transkripsi di konsol, saat menjalankan tugas, Anda perlu memberikan parameter berikut:

  • TranskripsiJobName โ€“ Tentukan nama pekerjaan yang unik.
  • MediaFileUri โ€“ Masukkan lokasi URI file audio di Amazon S3. Amazon Transcribe mendukung format audio berikut: MP3, MP4, WAV, FLAC, AMR, OGG, atau WebM
  • Kode Bahasa - Mulai en-US. Pada tulisan ini, Deteksi Toksisitas hanya mendukung bahasa Inggris AS.
  • Kategori Toksisitas - Melewati ALL nilai untuk menyertakan semua kategori deteksi toksisitas yang didukung.

Berikut ini adalah contoh memulai tugas transkripsi dengan deteksi toksisitas yang diaktifkan menggunakan Python3:

import time
import boto3 transcribe = boto3.client('transcribe', 'us-east-1')
job_name = "toxicity-detection-demo"
job_uri = "s3://my-bucket/my-folder/my-file.wav" # start a transcription job
transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'doc-example-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ToxicityDetection = [{'ToxicityCategories': ['ALL']}]
) # wait for the transcription job to complete
while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Anda dapat menjalankan tugas transkripsi yang sama dengan deteksi toksisitas menggunakan perintah AWS CLI berikut:

aws transcribe start-transcription-job --region us-east-1 --transcription-job-name toxicity-detection-demo --media MediaFileUri=s3://my-bucket/my-folder/my-file.wav --output-bucket-name doc-example-bucket --output-key my-output-files/ --language-code en-US --toxicity-detection ToxicityCategories=ALL

API Transkripsi dengan respons deteksi toksisitas

Keluaran JSON deteksi toksisitas Amazon Transcribe akan menyertakan hasil transkripsi di bidang hasil. Mengaktifkan deteksi toksisitas menambahkan bidang tambahan yang disebut toxicityDetection di bawah bidang hasil. toxicityDetection termasuk daftar item yang ditranskripsi dengan parameter berikut:

  • teks โ€“ Teks transkripsi mentah
  • kebisaan โ€“ Skor kepercayaan deteksi (nilai antara 0โ€“1)
  • kategori โ€“ Skor kepercayaan diri untuk setiap kategori ucapan beracun
  • waktu mulai โ€“ Posisi awal deteksi di file audio (detik)
  • akhir waktu โ€“ Posisi akhir deteksi di file audio (detik)

Berikut ini adalah contoh respons deteksi toksisitas singkat yang dapat Anda unduh dari konsol:

{ "results":{ "transcripts": [...], "items":[...], "toxicityDetection": [ { "text": "A TOXIC TRANSCRIPTION SEGMENT GOES HERE.", "toxicity": 0.8419, "categories": { "PROFANITY": 0.7041, "HATE_SPEECH": 0.0163, "SEXUAL": 0.0097, "INSULT": 0.8532, "VIOLENCE_OR_THREAT": 0.0031, "GRAPHIC": 0.0017, "HARASSMENT_OR_ABUSE": 0.0497 }, "start_time": 16.298, "end_time": 20.35 }, ... ] }, "status": "COMPLETED"
}

Kesimpulan

Dalam postingan ini, kami memberikan ikhtisar tentang fitur Deteksi Toksisitas Amazon Transcribe yang baru. Kami juga menjelaskan bagaimana Anda dapat mengurai output JSON deteksi toksisitas. Untuk informasi selengkapnya, lihat konsol Amazon Transcribe dan coba Transcription API dengan Deteksi Toksisitas.

Deteksi Toksisitas Amazon Transcribe kini tersedia di Wilayah AWS berikut: AS Timur (Ohio), AS Timur (Virginia U.), AS Barat (Oregon), Asia Pasifik (Sydney), Eropa (Irlandia), dan Eropa (London). Untuk mempelajari lebih lanjut, kunjungi Amazon Transkripsikan.

Pelajari lebih lanjut tentang moderasi konten di AWS dan kami kasus penggunaan ML moderasi konten. Ambil langkah pertama menuju merampingkan operasi moderasi konten Anda dengan AWS.


Tentang Penulis

Lana ZhangLana Zhang adalah Arsitek Solusi Senior di tim Layanan AI AWS WWSO, yang berspesialisasi dalam AI dan ML untuk moderasi konten, visi komputer, dan pemrosesan bahasa alami. Dengan keahliannya, dia berdedikasi untuk mempromosikan solusi AI/ML AWS dan membantu pelanggan dalam mengubah solusi bisnis mereka di berbagai industri, termasuk media sosial, game, e-commerce, serta periklanan & pemasaran.

Tandai bahasa berbahaya dalam percakapan lisan dengan Amazon Transcribe Toxicity Detection | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.Sumit Kumar adalah Manajer Produk Sr, Teknis di tim AWS AI Language Services. Dia memiliki 10 tahun pengalaman manajemen produk di berbagai domain dan sangat menyukai AI/ML. Di luar pekerjaan, Sumit suka bepergian dan senang bermain kriket dan Tenis Rumput.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS