AWS AI Hizmetlerini ve Yüksek Lisans Programlarını Kullanarak Orta Düzeyde Sesli ve Yazılı Sohbetler

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Çevrimiçi oyun ve sosyal topluluklar, kullanıcılarının iletişim kurması için sesli ve yazılı sohbet işlevi sunar. Sesli ve yazılı sohbet çoğu zaman arkadaşça şakalaşmayı desteklese de nefret söylemi, siber zorbalık, taciz ve dolandırıcılık gibi sorunlara da yol açabilir. Günümüzde pek çok şirket, zararlı içerikleri incelemek için yalnızca insan moderatörlere güveniyor. Ancak sohbetteki ihlallerin doğrulanması zaman alıcıdır, hataya açıktır ve ölçeklendirilmesi zordur.

Bu yazıda, aşağıdakiler de dahil olmak üzere çeşitli AWS hizmetlerini kullanarak sesli ve yazılı sohbet denetimini mümkün kılan çözümleri tanıtıyoruz: Amazon Yazısı, Amazon Kavramak, Amazon Ana Kayası, ve Amazon Açık Arama Hizmeti.

Sosyal platformlar, başlatılması kolay, kullanıma hazır bir denetleme çözümü arıyor ancak aynı zamanda çeşitli politikaları yönetmek için özelleştirme gerektiriyor. Gecikme ve maliyet de dikkate alınması gereken kritik faktörlerdir. Üretken yapay zeka kullanarak toksisite sınıflandırmasını büyük dil modelleriyle (LLM'ler) düzenleyerek, çeşitli gereksinimleri karşılamak için basitliği, gecikmeyi, maliyeti ve esnekliği dengeleyen bir çözüm sunuyoruz.

Bu gönderinin örnek kodunu şurada bulabilirsiniz: GitHub deposu.

Sesli sohbet denetleme iş akışı

Sesli sohbet denetleme iş akışı, bir kullanıcının bir oyun platformundaki diğer kullanıcıları küfür, nefret söylemi veya taciz gibi politika ihlalleri nedeniyle şikayet etmesiyle başlatılabilir. Bu, ses denetimine pasif bir yaklaşımı temsil eder. Sistem, tüm sesli konuşmaları anında analiz edilmeden kaydeder. Bir rapor alındığında iş akışı ilgili ses dosyalarını alır ve analiz sürecini başlatır. Daha sonra bir insan moderatör, rapor edilen konuşmayı inceler ve platform politikasını ihlal edip etmediğini belirlemek için içeriğini araştırır.

Alternatif olarak iş akışı proaktif olarak tetiklenebilir. Örneğin, bir sosyal sesli sohbet odasında sistem tüm konuşmaları kaydedebilir ve analiz uygulayabilir.

Hem pasif hem de proaktif yaklaşımlar, ses analizi için aşağıdaki hattı tetikleyebilir.

Ses denetleme iş akışı aşağıdaki adımları içerir:

İş akışı, ses dosyasının alınması ve bir bilgisayara kaydedilmesiyle başlar. Amazon Basit Depolama Hizmeti Amazon Transcribe'ın erişmesi için (Amazon S3) klasörü.
Amazon Transcribe StartTranscriptionJob API ile çağrılır Toksisite Tespiti etkinleştirilmiş. Amazon Transcribe, sesi metne dönüştürerek toksisite analizi hakkında ek bilgi sağlar. Toksisite analizi hakkında daha fazla bilgi için bkz. Amazon Transcribe Toxicity Detection ile konuşulan konuşmalarda zararlı dili işaretleyin.
Toksisite analizi belirli bir eşiği (örneğin %50) aşan bir toksisite puanı verirse şunu kullanabiliriz: Amazon Bedrock için Bilgi Tabanları Mesajı LLM'leri kullanarak özelleştirilmiş politikalara göre değerlendirmek için.
Gerçek moderatör, zehirli olarak kabul edilen ve politikayı ihlal eden konuşma bölümlerini vurgulayan ayrıntılı bir ses denetleme raporu alır ve böylece bilinçli bir karar vermelerine olanak tanır.

Aşağıdaki ekran görüntüsü bir ses segmenti için toksisite analizini görüntüleyen örnek bir uygulamayı göstermektedir. Orijinal transkripsiyonu, Amazon Transcribe toksisite analizinin sonuçlarını ve Amazon Bedrock Anthropic Claude V2 modeli aracılığıyla Amazon Bedrock bilgi tabanı kullanılarak yürütülen analizi içerir.

LLM analizi bir ihlal sonucu (E veya H) sağlar ve modelin politika ihlaline ilişkin kararının ardındaki mantığı açıklar. Ayrıca bilgi tabanı, değerlendirme tarafından kullanılan referans politika belgelerini içerir ve moderatörlere ek bağlam sağlar.

Amazon Transcribe Toksisite Tespiti

Amazon Transcribe, geliştiricilerin uygulamalarına konuşmayı metne dönüştürme özelliğini eklemelerini kolaylaştıran bir otomatik konuşma tanıma (ASR) hizmetidir. Ses denetleme iş akışı, cinsel taciz, nefret söylemi ve tehditler de dahil olmak üzere ses tabanlı zararlı içerikleri yedi kategoride tanımlamak ve sınıflandırmak için ses ve metin tabanlı ipuçları kullanan, makine öğrenimi (ML) destekli bir yetenek olan Amazon Transcribe Toxicity Detection'ı kullanır. , taciz, küfür, hakaret ve sansürsüz dil. Toksisite Tespiti, metni analiz etmenin yanı sıra konuşmadaki toksik niyeti tanımlamak için tonlar ve perde gibi konuşma ipuçlarını kullanır.

Ses denetleme iş akışı, LLM'nin politika değerlendirmesini yalnızca toksisite analizi belirlenmiş bir eşiği aştığında etkinleştirir. Bu yaklaşım gecikmeyi azaltır ve LLM'leri seçerek uygulayarak trafiğin önemli bir bölümünü filtreleyerek maliyetleri optimize eder.

Özelleştirilmiş politikalara uyum sağlamak için LLM istem mühendisliğini kullanın

Amazon Transcribe ve Amazon Comprehend'in önceden eğitilmiş Toksisite Tespiti modelleri, ses ve metin formatlarında kullanıcı tarafından oluşturulan içeriği denetlemek için sosyal platformlar tarafından yaygın olarak kullanılan geniş bir toksisite sınıflandırması sağlar. Bu önceden eğitilmiş modeller sorunları düşük gecikme süresiyle etkili bir şekilde tespit etse de, önceden eğitilmiş modellerin tek başına başaramayacağı belirli şirket veya iş alanı politikalarına yönelik ihlalleri tespit etmek için bir çözüme ihtiyacınız olabilir.

Ek olarak, bağlamsal konuşmalardaki ihlallerin tespit edilmesi (ör. çocuğun cinsel bakımı sohbet mesajlarının ve kullanıcının yaşı, cinsiyeti ve konuşma geçmişi gibi bunun dışındaki bağlamların dikkate alınmasını içeren özelleştirilebilir bir çözüm gerektirir. Yüksek Lisans'ların bu gereksinimleri genişletmek için gereken esnekliği sunabileceği yer burasıdır.

Amazon Bedrock, önde gelen yapay zeka şirketlerinin sunduğu yüksek performanslı temel model (FM) seçenekleri sunan, tümüyle yönetilen bir hizmettir. Bu çözümler, aşağıdaki kodda belirtildiği gibi esnek bir bilgi istemi şablonu kullanarak sesli transkripsiyonları ve yazılı sohbet mesajlarını yönetmek için Amazon Bedrock'tan Anthropic Claude v2'yi kullanır:

Human: You are a Trust & Safety expert. Your job is to review user chat message and decide if it violate the policy.
You will find the chat message in <message> tag, and find the policy in the <policy> tag. You can find additional rules in the <rule> tag to assist your decision. 

<policy>{policy}</policy>
<message>{message}</message>
<rule>{rule}</rule>

Does the chat message violate the policy? Please consider and provide your analysis in the <analysis> tag, breaking down each rule in the rule section, and keep and analysis within 100 words. Respond in the <answer> tag with either 'Y' or 'N'. 'Y' indicates that the message violates the policy, while 'N' means the content is safe and does not violate the policy. 

Assistant:

Şablon, politika açıklaması, sohbet mesajı ve denetlenmesi gereken ek kurallar için yer tutucular içerir. Antropik Claude V2 modeli, iletinin neden politikayı ihlal ettiğini düşündüğünü açıklayan bir analizle birlikte, talimat verilen biçimde (E veya H) yanıtlar sunar. Bu yaklaşım, esnek denetleme kategorileri tanımlamanıza ve politikalarınızı insan dilinde ifade etmenize olanak tanır.

Şirket içi bir sınıflandırma modelinin eğitiminin geleneksel yöntemi, veri açıklamaları, eğitim, test etme ve model dağıtımı gibi veri bilimcilerin ve makine öğrenimi mühendislerinin uzmanlığını gerektiren hantal süreçleri içerir. Yüksek Lisans'lar ise aksine yüksek derecede esneklik sunar. İş kullanıcıları, insan dilindeki istemleri değiştirebilir, bu da makine öğrenimi modeli eğitiminde verimliliğin artmasına ve yineleme döngülerinin azalmasına yol açar.

Amazon Bedrock bilgi tabanları

Her ne kadar hızlı mühendislik politikaları özelleştirmek için etkili olsa da, uzun politikaların ve kuralların doğrudan LLM istemlerine her mesaj için enjekte edilmesi gecikmeye neden olabilir ve maliyeti artırabilir. Bu sorunu çözmek için yönetilen bir Alma Artırılmış Üretim (RAG) sistemi olarak Amazon Bedrock bilgi tabanlarını kullanıyoruz. Bu, politika belgesini esnek bir şekilde yönetmenize olanak tanıyarak iş akışının her giriş mesajı için yalnızca ilgili politika segmentlerini almasına olanak tanır. Bu, analiz için LLM'lere gönderilen token sayısını en aza indirir.

Sen kullanabilirsiniz AWS Yönetim Konsolu politika belgelerini bir S3 klasörüne yüklemek ve ardından verimli bir şekilde geri almak için belgeleri bir vektör veritabanına indekslemek. Aşağıda Amazon Bedrock bilgi tabanı tarafından yönetilen, Amazon S3'ten belgeleri alan, metni parçalara ayıran ve Amazon Bedrock Titan metin yerleştirme modeli metin parçalarını vektörlere dönüştürmek ve bunlar daha sonra vektör veritabanında depolanmak.

Bu çözümde kullandığımız Amazon Açık Arama Hizmeti vektör deposu olarak. Aramayı Aç Apache 2.0 lisansı altında lisanslanan, arama, analiz, güvenlik izleme ve gözlemlenebilirlik uygulamalarına yönelik ölçeklenebilir, esnek ve genişletilebilir bir açık kaynaklı yazılım paketidir. OpenSearch Hizmeti, AWS Cloud'da OpenSearch'ü dağıtmayı, ölçeklendirmeyi ve çalıştırmayı kolaylaştıran, tam olarak yönetilen bir hizmettir.

Belge OpenSearch Hizmetinde dizine eklendikten sonra, ses ve metin denetleme iş akışı sohbet mesajları göndererek özelleştirilmiş politika değerlendirmesi için aşağıdaki sorgu akışını tetikler.

Süreç, başlatma iş akışına benzer. İlk olarak kısa mesaj, Amazon Bedrock Titan Metin Gömme API'si kullanılarak metin yerleştirmelere dönüştürülür. Bu yerleştirmeler daha sonra bir işlemi gerçekleştirmek için kullanılır. vektör arama zaten belge yerleştirmeleriyle doldurulmuş olan OpenSearch Hizmeti veritabanına karşı. Veritabanı, giriş metin mesajıyla ilgili en yüksek eşleşme puanına sahip politika parçalarını döndürür. Daha sonra, değerlendirme için Anthropic Claude V2'ye gönderilen, hem giriş sohbet mesajını hem de politika segmentini içeren bilgi istemleri oluştururuz. LLM modeli, hızlı talimatlara dayalı olarak bir analiz sonucu döndürür.

Amazon Bedrock bilgi tabanında politika belgenizle yeni bir bulut sunucusunun nasıl oluşturulacağına ilişkin ayrıntılı talimatlar için bkz. Bilgi Tabanları artık Amazon Bedrock'ta tümüyle yönetilen RAG deneyimi sunuyor.

Metin sohbeti denetleme iş akışı

Metin sohbeti denetleme iş akışı, ses denetlemeye benzer bir modeli izler ancak metin denetimi için özel olarak tasarlanmış Amazon Comprehend zehirlilik analizini kullanır. Örnek uygulama, CSV veya TXT formatında toplu metin dosyalarının yüklenmesine yönelik bir arayüzü destekler ve hızlı test için tek mesajlı bir arayüz sağlar. Aşağıdaki şema iş akışını göstermektedir.

Metin denetleme iş akışı aşağıdaki adımları içerir:

Kullanıcı bir metin dosyasını bir S3 klasörüne yükler.
Kısa mesaja Amazon Comprehent toksisite analizi uygulanır.
Toksisite analizi belirli bir eşiği (örneğin %50) aşan bir toksisite puanı verirse mesajı Anthropic Claude V2 LLM'yi kullanarak özelleştirilmiş politikalara göre değerlendirmek için bir Amazon Bedrock bilgi tabanı kullanırız.
İnsan moderatöre bir politika değerlendirme raporu gönderilir.

Amazon Compreend toksisite analizi

Metin denetleme iş akışında, kısa mesajların zehirlilik düzeyini değerlendirmek için Amazon Comprehend zehirlilik analizini kullanırız. Amazon Comprehend, metindeki değerli öngörüleri ve bağlantıları ortaya çıkarmak için makine öğrenimini kullanan bir doğal dil işleme (NLP) hizmetidir. Amazon Comprehend zehirlilik tespit API'si, metin içeriğine 0-1 arasında değişen, zehirli olma olasılığını belirten genel bir zehirlilik puanı atar. Ayrıca metni aşağıdaki kategorilere ayırır ve her biri için bir güven puanı sağlar: hate_speechgrafik, harrassement_or_abusecinsel, violence_or_threat, hakaret ve küfür.

Bu metin denetleme iş akışında Amazon Comprehend zehirlilik analizi, gelen kısa mesajın zararlı içerik içerip içermediğini belirlemede önemli bir rol oynar. Ses denetleme iş akışına benzer şekilde, yalnızca toksisite analizi önceden tanımlanmış bir eşiği aşan bir puan verdiğinde aşağı akış LLM politika değerlendirmesini etkinleştirmeye yönelik bir koşul içerir. Bu optimizasyon, LLM analiziyle ilişkili genel gecikmeyi ve maliyeti azaltmaya yardımcı olur.

Özet

Bu yazıda Amazon Transcribe, Amazon Comprehend, Amazon Bedrock ve OpenSearch Service dahil AWS hizmetlerini kullanarak sesli ve yazılı sohbet yönetimine yönelik çözümleri tanıttık. Bu çözümler, toksisite analizi için önceden eğitilmiş modeller kullanır ve doğruluk, gecikme ve maliyet açısından optimum dengeyi sağlamak için üretken AI LLM'lerle düzenlenir. Ayrıca kendi politikalarınızı esnek bir şekilde tanımlamanıza da olanak tanır.

Örnek uygulamayı aşağıdaki yönergeleri takip ederek deneyimleyebilirsiniz. GitHub repo.

Yazar hakkında

Lana Çang AWS WWSO Yapay Zeka Hizmetleri ekibinde Kıdemli Çözüm Mimarıdır ve İçerik Denetimi, Bilgisayarla Görme, Doğal Dil İşleme ve Üretken Yapay Zeka için Yapay Zeka ve Makine Öğrenimi konusunda uzmanlaşmıştır. Uzmanlığıyla kendini AWS AI/ML çözümlerini tanıtmaya ve müşterilerin sosyal medya, oyun, e-ticaret, medya, reklam ve pazarlama dahil olmak üzere çeşitli sektörlerdeki iş çözümlerini dönüştürmelerine yardımcı olmaya adamıştır.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://aws.amazon.com/blogs/machine-learning/moderate-audio-and-text-chats-using-aws-ai-services-and-llms/

Zaman Damgası: 13 Mart, 2024

Zaman Damgası: Kasım 10, 2022

Plato tarafından yeniden yayınlandı

Amazon SageMaker ile ImmoScout24'te konut emlak fiyatlarını tahmin edin

Amazon SageMaker'da dağıtılan üretken yapay zekayı kullanarak yaratıcı reklamlar oluşturun | Amazon Web Hizmetleri

Amazon EMR ve RStudio'yu Amazon SageMaker'a bağlayın

Üç yeni NVIDIA GPU tabanlı Amazon EC2 bulut sunucusuyla tanışın | Amazon Web Hizmetleri

Amazon SageMaker yerleşik tablo algoritmaları LightGBM, CatBoost, TabTransformer ve AutoGluon-Tabular'ı kullanarak kayıp tahmini

Amazon SageMaker Otomatik Model Ayarlama artık ızgara aramasını destekliyor

Prodege, düşük kodlu bilgisayar vizyonu yapay zekasını kullanarak yıllık insan inceleme maliyetlerinde nasıl 1.5 milyon dolar tasarruf etti?

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap