Επισήμανση επιβλαβούς γλώσσας στις προφορικές συνομιλίες με το Amazon Transcribe Toxicity Detection | Υπηρεσίες Ιστού της Amazon

Επισήμανση επιβλαβούς γλώσσας στις προφορικές συνομιλίες με το Amazon Transcribe Toxicity Detection | Υπηρεσίες Ιστού της Amazon

Η αύξηση των διαδικτυακών κοινωνικών δραστηριοτήτων, όπως η κοινωνική δικτύωση ή το διαδικτυακό παιχνίδι είναι συχνά γεμάτη με εχθρική ή επιθετική συμπεριφορά που μπορεί να οδηγήσει σε αυτόκλητες εκδηλώσεις ρητορικής μίσους, διαδικτυακού εκφοβισμού ή παρενόχλησης. Για παράδειγμα, πολλές κοινότητες διαδικτυακών παιχνιδιών προσφέρουν λειτουργία φωνητικής συνομιλίας για να διευκολύνουν την επικοινωνία μεταξύ των χρηστών τους. Παρόλο που η φωνητική συνομιλία συχνά υποστηρίζει φιλικές λογοπαίγνιες και ομιλίες για σκουπίδια, μπορεί επίσης να οδηγήσει σε προβλήματα όπως ρητορική μίσους, διαδικτυακό εκφοβισμό, παρενόχληση και απάτες. Η επισήμανση της επιβλαβούς γλώσσας βοηθά τους οργανισμούς να διατηρήσουν τις συνομιλίες τους ως πολιτικούς και να διατηρήσουν ένα ασφαλές και περιεκτικό διαδικτυακό περιβάλλον για τους χρήστες να δημιουργούν, να μοιράζονται και να συμμετέχουν ελεύθερα. Σήμερα, πολλές εταιρείες βασίζονται αποκλειστικά σε ανθρώπινους συντονιστές για την αναθεώρηση του τοξικού περιεχομένου. Ωστόσο, η κλιμάκωση των ανθρώπινων συντονιστών για την κάλυψη αυτών των αναγκών με επαρκή ποιότητα και ταχύτητα είναι δαπανηρή. Ως αποτέλεσμα, πολλοί οργανισμοί κινδυνεύουν να αντιμετωπίσουν υψηλά ποσοστά φθοράς χρηστών, ζημιά στη φήμη και ρυθμιστικά πρόστιμα. Επιπλέον, οι συντονιστές συχνά επηρεάζονται ψυχολογικά από την ανασκόπηση του τοξικού περιεχομένου.

Μεταγραφή Amazon είναι μια υπηρεσία αυτόματης αναγνώρισης ομιλίας (ASR) που διευκολύνει τους προγραμματιστές να προσθέσουν τη δυνατότητα ομιλίας σε κείμενο στις εφαρμογές τους. Σήμερα, είμαστε ενθουσιασμένοι να ανακοινώσουμε Amazon Transcribe Toxicity Detection, μια δυνατότητα μηχανικής μάθησης (ML) που χρησιμοποιεί ενδείξεις ήχου και κειμένου για τον εντοπισμό και την ταξινόμηση τοξικού περιεχομένου με βάση τη φωνή σε επτά κατηγορίες, όπως σεξουαλική παρενόχληση, ρητορική μίσους, απειλές, κακοποίηση, βωμολοχίες, προσβολές και γραφική γλώσσα . Εκτός από το κείμενο, το Toxicity Detection χρησιμοποιεί ενδείξεις ομιλίας, όπως τόνους και τόνους για να ακονίσει την τοξική πρόθεση στην ομιλία.

Αυτή είναι μια βελτίωση από τα τυπικά συστήματα εποπτείας περιεχομένου που έχουν σχεδιαστεί για να επικεντρώνονται μόνο σε συγκεκριμένους όρους, χωρίς να λαμβάνεται υπόψη η πρόθεση. Οι περισσότερες επιχειρήσεις έχουν SLA 7–15 ημερών για να ελέγξουν το περιεχόμενο που αναφέρουν οι χρήστες, επειδή οι συντονιστές πρέπει να ακούν μεγάλα αρχεία ήχου για να αξιολογήσουν εάν και πότε η συνομιλία έγινε τοξική. Με το Amazon Transcribe Toxicity Detection, οι συντονιστές ελέγχουν μόνο το συγκεκριμένο τμήμα του αρχείου ήχου που έχει επισημανθεί για τοξικό περιεχόμενο (έναντι ολόκληρου του αρχείου ήχου). Το περιεχόμενο που πρέπει να ελέγχουν οι ανθρώπινοι συντονιστές μειώνεται κατά 95%, δίνοντας τη δυνατότητα στους πελάτες να μειώσουν το SLA τους σε λίγες μόνο ώρες, καθώς και να τους δίνουν τη δυνατότητα να εποπτεύουν προληπτικά περισσότερο περιεχόμενο πέρα ​​από αυτό που έχει επισημανθεί από τους χρήστες. Θα επιτρέψει στις επιχειρήσεις να εντοπίζουν αυτόματα και να μετριάζουν το περιεχόμενο σε κλίμακα, να παρέχουν ένα ασφαλές και χωρίς αποκλεισμούς διαδικτυακό περιβάλλον και να αναλαμβάνουν δράση προτού προκαλέσουν αναστάτωση ή ζημιά στη φήμη των χρηστών. Τα μοντέλα που χρησιμοποιούνται για την ανίχνευση τοξικού περιεχομένου διατηρούνται από το Amazon Transcribe και ενημερώνονται περιοδικά για τη διατήρηση της ακρίβειας και της συνάφειας.

Σε αυτήν την ανάρτηση, θα μάθετε πώς να:

  • Προσδιορίστε επιβλαβές περιεχόμενο στην ομιλία με το Amazon Transcribe Toxicity Detection
  • Χρησιμοποιήστε την κονσόλα Amazon Transcribe για ανίχνευση τοξικότητας
  • Δημιουργήστε μια εργασία μεταγραφής με ανίχνευση τοξικότητας χρησιμοποιώντας το Διεπαφή γραμμής εντολών AWS (AWS CLI) και Python SDK
  • Χρησιμοποιήστε την απόκριση API εντοπισμού τοξικότητας Amazon Transcribe

Ανίχνευση τοξικότητας σε ηχητική συνομιλία με το Amazon Transcribe Toxicity Detection

Το Amazon Transcribe παρέχει τώρα μια απλή λύση βασισμένη σε ML για την επισήμανση επιβλαβούς γλώσσας στις προφορικές συνομιλίες. Αυτή η δυνατότητα είναι ιδιαίτερα χρήσιμη για τα μέσα κοινωνικής δικτύωσης, τα παιχνίδια και τις γενικές ανάγκες, εξαλείφοντας την ανάγκη των πελατών να παρέχουν τα δικά τους δεδομένα για την εκπαίδευση του μοντέλου ML. Το Toxicity Detection ταξινομεί το τοξικό ακουστικό περιεχόμενο στις ακόλουθες επτά κατηγορίες και παρέχει βαθμολογία εμπιστοσύνης (0–1) για κάθε κατηγορία:

  • Βλασφημία – Ομιλία που περιέχει λέξεις, φράσεις ή ακρωνύμια που είναι αγενείς, χυδαίοι ή προσβλητικοί.
  • εχθρικός λόγος – Ομιλία που επικρίνει, προσβάλλει, καταγγέλλει ή απανθρωποποιεί ένα άτομο ή μια ομάδα με βάση μια ταυτότητα (όπως φυλή, εθνικότητα, φύλο, θρησκεία, σεξουαλικός προσανατολισμός, ικανότητα και εθνική καταγωγή).
  • Σεξουαλικός – Ομιλία που υποδηλώνει σεξουαλικό ενδιαφέρον, δραστηριότητα ή διέγερση χρησιμοποιώντας άμεσες ή έμμεσες αναφορές σε μέρη του σώματος, σωματικά χαρακτηριστικά ή σεξ.
  • Προσβολές – Ομιλία που περιλαμβάνει εξευτελιστική, ταπεινωτική, χλευαστική, προσβλητική ή υποτιμητική γλώσσα. Αυτός ο τύπος γλώσσας χαρακτηρίζεται επίσης ως εκφοβισμός.
  • Βία ή απειλή – Ομιλία που περιλαμβάνει απειλές που επιδιώκουν να προκαλέσουν πόνο, τραυματισμό ή εχθρότητα προς ένα άτομο ή μια ομάδα.
  • Γραφιστικές – Ομιλία που χρησιμοποιεί οπτικά περιγραφική και δυσάρεστα ζωντανή εικόνα. Αυτός ο τύπος γλώσσας είναι συχνά σκόπιμα περίπλοκος για να ενισχύσει τη δυσφορία του παραλήπτη.
  • Παρενόχληση ή κακοποίηση – Ομιλία που προορίζεται να επηρεάσει την ψυχολογική ευημερία του αποδέκτη, συμπεριλαμβανομένων εξευτελιστικών και αντικειμενικών όρων.

Μπορείτε να αποκτήσετε πρόσβαση στο Toxicity Detection είτε μέσω της κονσόλας Amazon Transcribe είτε καλώντας τα API απευθείας χρησιμοποιώντας το AWS CLI ή τα AWS SDK. Στην κονσόλα Amazon Transcribe, μπορείτε να ανεβάσετε τα αρχεία ήχου που θέλετε να ελέγξετε για τοξικότητα και να λάβετε αποτελέσματα με λίγα μόνο κλικ. Το Amazon Transcribe θα εντοπίσει και θα κατηγοριοποιήσει τοξικό περιεχόμενο, όπως παρενόχληση, ρητορική μίσους, σεξουαλικό περιεχόμενο, βία, προσβολές και βωμολοχίες. Το Amazon Transcribe παρέχει επίσης βαθμολογία εμπιστοσύνης για κάθε κατηγορία, παρέχοντας πολύτιμες πληροφορίες για το επίπεδο τοξικότητας του περιεχομένου. Το Toxicity Detection είναι προς το παρόν διαθέσιμο στο τυπικό API μεταγραφής του Amazon για ομαδική επεξεργασία και υποστηρίζει την αγγλική γλώσσα των ΗΠΑ.

Περιήγηση στην κονσόλα Amazon Transcribe

Για να ξεκινήσετε, συνδεθείτε στο Κονσόλα διαχείρισης AWS και μεταβείτε στο Amazon Transcribe. Για να δημιουργήσετε μια νέα εργασία μεταγραφής, πρέπει να ανεβάσετε τα εγγεγραμμένα αρχεία σας σε ένα Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κουβά πριν μπορέσουν να υποστούν επεξεργασία. Στη σελίδα ρυθμίσεων ήχου, όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης, ενεργοποιήστε το Ανίχνευση τοξικότητας και προχωρήστε στη δημιουργία της νέας εργασίας. Το Amazon Transcribe θα επεξεργαστεί την εργασία μεταγραφής στο παρασκήνιο. Καθώς η εργασία προχωρά, μπορείτε να περιμένετε να αλλάξει η κατάσταση ΟΛΟΚΛΗΡΩΘΗΚΕ ΤΟ όταν ολοκληρωθεί η διαδικασία.

Επισήμανση επιβλαβούς γλώσσας στις προφορικές συνομιλίες με το Amazon Transcribe Toxicity Detection | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Για να ελέγξετε τα αποτελέσματα μιας εργασίας μεταγραφής, επιλέξτε την εργασία από τη λίστα εργασιών για να την ανοίξετε. Κάντε κύλιση προς τα κάτω στο Προεπισκόπηση μεταγραφής ενότητα για να ελέγξετε τα αποτελέσματα στο Τοξικότητα αυτί. Η διεπαφή χρήστη εμφανίζει χρωματικά κωδικοποιημένα τμήματα μεταγραφής για να υποδείξει το επίπεδο τοξικότητας, που καθορίζεται από τη βαθμολογία εμπιστοσύνης. Για να προσαρμόσετε την οθόνη, μπορείτε να χρησιμοποιήσετε τις γραμμές εναλλαγής στο Φίλτρα τζάμι. Αυτές οι ράβδοι σάς επιτρέπουν να προσαρμόσετε τα όρια και να φιλτράρετε τις κατηγορίες τοξικότητας ανάλογα.

Το παρακάτω στιγμιότυπο οθόνης έχει καλύψει τμήματα του κειμένου μεταγραφής λόγω της παρουσίας ευαίσθητων ή τοξικών πληροφοριών.

Επισήμανση επιβλαβούς γλώσσας στις προφορικές συνομιλίες με το Amazon Transcribe Toxicity Detection | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

API μεταγραφής με αίτημα ανίχνευσης τοξικότητας

Σε αυτήν την ενότητα, σας καθοδηγούμε στη δημιουργία μιας εργασίας μεταγραφής με ανίχνευση τοξικότητας χρησιμοποιώντας διεπαφές προγραμματισμού. Εάν το αρχείο ήχου δεν βρίσκεται ήδη σε κάδο S3, ανεβάστε το για να διασφαλίσετε την πρόσβαση από το Amazon Transcribe. Παρόμοια με τη δημιουργία μιας εργασίας μεταγραφής στην κονσόλα, κατά την κλήση της εργασίας, πρέπει να παρέχετε τις ακόλουθες παραμέτρους:

  • TranscriptionJobName – Καθορίστε ένα μοναδικό όνομα εργασίας.
  • MediaFileUri – Εισαγάγετε τη θέση URI του αρχείου ήχου στο Amazon S3. Το Amazon Transcribe υποστηρίζει τις ακόλουθες μορφές ήχου: MP3, MP4, WAV, FLAC, AMR, OGG ή WebM
  • Κωδικός γλώσσας - Οριστεί σε en-US. Από τη σύνταξη αυτού του άρθρου, το Toxicity Detection υποστηρίζει μόνο την αγγλική γλώσσα των ΗΠΑ.
  • Κατηγορίες τοξικότητας - Πέρνα το ALL τιμή για να περιλαμβάνει όλες τις υποστηριζόμενες κατηγορίες ανίχνευσης τοξικότητας.

Τα παρακάτω είναι παραδείγματα έναρξης μιας εργασίας μεταγραφής με ενεργοποιημένη την ανίχνευση τοξικότητας χρησιμοποιώντας το Python3:

import time
import boto3 transcribe = boto3.client('transcribe', 'us-east-1')
job_name = "toxicity-detection-demo"
job_uri = "s3://my-bucket/my-folder/my-file.wav" # start a transcription job
transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'doc-example-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ToxicityDetection = [{'ToxicityCategories': ['ALL']}]
) # wait for the transcription job to complete
while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Μπορείτε να καλέσετε την ίδια εργασία μεταγραφής με ανίχνευση τοξικότητας χρησιμοποιώντας την ακόλουθη εντολή AWS CLI:

aws transcribe start-transcription-job --region us-east-1 --transcription-job-name toxicity-detection-demo --media MediaFileUri=s3://my-bucket/my-folder/my-file.wav --output-bucket-name doc-example-bucket --output-key my-output-files/ --language-code en-US --toxicity-detection ToxicityCategories=ALL

API μεταγραφής με απόκριση ανίχνευσης τοξικότητας

Η έξοδος JSON ανίχνευσης τοξικότητας του Amazon Transcribe θα περιλαμβάνει τα αποτελέσματα μεταγραφής στο πεδίο αποτελεσμάτων. Η ενεργοποίηση της ανίχνευσης τοξικότητας προσθέτει ένα επιπλέον πεδίο που ονομάζεται toxicityDetection κάτω από το πεδίο αποτελεσμάτων. toxicityDetection περιλαμβάνει μια λίστα μεταγραφόμενων στοιχείων με τις ακόλουθες παραμέτρους:

  • κείμενο – Το ακατέργαστο μεταγραμμένο κείμενο
  • τοξικότητα – Μια βαθμολογία εμπιστοσύνης ανίχνευσης (τιμή μεταξύ 0–1)
  • κατηγορίες – Βαθμολογία αυτοπεποίθησης για κάθε κατηγορία τοξικής ομιλίας
  • ώρα έναρξης – Η αρχική θέση ανίχνευσης στο αρχείο ήχου (δευτερόλεπτα)
  • τέλος χρόνου – Η τελική θέση ανίχνευσης στο αρχείο ήχου (δευτερόλεπτα)

Το παρακάτω είναι ένα δείγμα συντομευμένης απόκρισης ανίχνευσης τοξικότητας που μπορείτε να κατεβάσετε από την κονσόλα:

{ "results":{ "transcripts": [...], "items":[...], "toxicityDetection": [ { "text": "A TOXIC TRANSCRIPTION SEGMENT GOES HERE.", "toxicity": 0.8419, "categories": { "PROFANITY": 0.7041, "HATE_SPEECH": 0.0163, "SEXUAL": 0.0097, "INSULT": 0.8532, "VIOLENCE_OR_THREAT": 0.0031, "GRAPHIC": 0.0017, "HARASSMENT_OR_ABUSE": 0.0497 }, "start_time": 16.298, "end_time": 20.35 }, ... ] }, "status": "COMPLETED"
}

Χαρακτηριστικά

Σε αυτήν την ανάρτηση, παρέχουμε μια επισκόπηση της νέας δυνατότητας Amazon Transcribe Toxicity Detection. Περιγράψαμε επίσης πώς μπορείτε να αναλύσετε την έξοδο JSON ανίχνευσης τοξικότητας. Για περισσότερες πληροφορίες, ρίξτε μια ματιά στην κονσόλα Amazon Transcribe και δοκιμάστε το API μεταγραφής με ανίχνευση τοξικότητας.

Το Amazon Transcribe Toxicity Detection είναι πλέον διαθέσιμο στις ακόλουθες περιοχές AWS: US East (Οχάιο), US East (N. Virginia), US West (Όρεγκον), Asia Pacific (Σίδνεϊ), Ευρώπη (Ιρλανδία) και Ευρώπη (Λονδίνο). Για να μάθετε περισσότερα, επισκεφθείτε Μεταγραφή Amazon.

Μάθετε περισσότερα σχετικά με εποπτεία περιεχομένου στο AWS και το κομμάτι μετριασμός περιεχομένου Περιπτώσεις χρήσης ML. Κάντε το πρώτο βήμα προς βελτιστοποίηση των λειτουργιών εποπτείας περιεχομένου με το AWS.


Σχετικά με τον Συγγραφέα

Λάνα ΖανγκΛάνα Ζανγκ είναι Ανώτερος Αρχιτέκτονας Λύσεων στην ομάδα Υπηρεσιών AWS WWSO AI, με ειδίκευση στην τεχνητή νοημοσύνη και την ML για την εποπτεία περιεχομένου, την όραση υπολογιστή και την επεξεργασία φυσικής γλώσσας. Με την τεχνογνωσία της, είναι αφοσιωμένη στην προώθηση των λύσεων AWS AI/ML και στην παροχή βοήθειας στους πελάτες να μεταμορφώσουν τις επιχειρηματικές τους λύσεις σε διάφορους κλάδους, συμπεριλαμβανομένων των μέσων κοινωνικής δικτύωσης, των τυχερών παιχνιδιών, του ηλεκτρονικού εμπορίου και της διαφήμισης και του μάρκετινγκ.

Επισήμανση επιβλαβούς γλώσσας στις προφορικές συνομιλίες με το Amazon Transcribe Toxicity Detection | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Σουμίτ Κουμάρ είναι Sr Product Manager, Τεχνικός στην ομάδα AWS AI Language Services. Έχει 10ετή εμπειρία διαχείρισης προϊόντων σε διάφορους τομείς και είναι παθιασμένος με την AI/ML. Εκτός δουλειάς, ο Sumit λατρεύει τα ταξίδια και του αρέσει να παίζει κρίκετ και Lawn-Tennis.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS