Cele mai bune practici pentru construirea de aplicații sigure cu Amazon Transcribe | Amazon Web Services

Cele mai bune practici pentru construirea de aplicații sigure cu Amazon Transcribe | Amazon Web Services

Transcriere Amazon este un serviciu AWS care permite clienților să convertească vorbirea în text, fie în modul lot, fie în modul de streaming. Utilizează recunoașterea automată a vorbirii (ASR), identificarea automată a limbajului și tehnologiile de post-procesare. Amazon Transcribe poate fi folosit pentru transcrierea apelurilor de asistență pentru clienți, a apelurilor conferințe cu mai mulți participanți și a mesajelor vocale, precum și pentru generarea de subtitrări pentru videoclipurile înregistrate și live, pentru a numi doar câteva exemple. În această postare pe blog, veți învăța cum să vă alimentați aplicațiile cu capabilitățile Amazon Transcribe într-un mod care să vă satisfacă cerințele de securitate.

Unii clienți îi încredințează Amazon Transcribe cu date care sunt confidențiale și proprietatea afacerii lor. În alte cazuri, conținutul audio procesat de Amazon Transcribe poate conține date sensibile care trebuie protejate pentru a respecta legile și reglementările locale. Exemple de astfel de informații sunt informațiile de identificare personală (PII), informațiile personale de sănătate (PHI) și datele din industria cardurilor de plată (PCI). În următoarele secțiuni ale blogului, acoperim diferite mecanisme pe care le are Amazon Transcribe pentru a proteja datele clienților atât în ​​tranzit, cât și în repaus. Împărtășim următoarele șapte bune practici de securitate pentru a crea aplicații cu Amazon Transcribe care îndeplinesc cerințele dvs. de securitate și conformitate:

  1. Utilizați protecția datelor cu Amazon Transcribe
  2. Comunicați printr-o cale de rețea privată
  3. Redactați datele sensibile dacă este necesar
  4. Utilizați roluri IAM pentru aplicații și servicii AWS care necesită acces Amazon Transcribe
  5. Utilizați controlul accesului bazat pe etichete
  6. Utilizați instrumentele de monitorizare AWS
  7. Activați AWS Config

Următoarele bune practici sunt linii directoare generale și nu reprezintă o soluție completă de securitate. Deoarece aceste bune practici ar putea să nu fie adecvate sau suficiente pentru mediul dvs., utilizați-le ca considerații utile, mai degrabă decât ca prescripții.

Cea mai bună practică 1 – Folosiți protecția datelor cu Amazon Transcribe

Amazon Transcribe este conform cu Model de responsabilitate comună AWS, care diferențiază responsabilitatea AWS pentru securitatea cloudului de responsabilitatea clientului pentru securitatea în cloud.

AWS este responsabil pentru protejarea infrastructurii globale care rulează întregul AWS Cloud. În calitate de client, sunteți responsabil pentru menținerea controlului asupra conținutului dvs. care este găzduit pe această infrastructură. Acest conținut include configurarea securității și sarcinile de gestionare pentru serviciile AWS pe care le utilizați. Pentru mai multe informații despre confidențialitatea datelor, consultați Întrebări frecvente privind confidențialitatea datelor.

Protejarea datelor în tranzit

Criptarea datelor este utilizată pentru a vă asigura că comunicarea datelor dintre aplicația dvs. și Amazon Transcribe rămâne confidențială. Utilizarea algoritmilor criptografici puternici protejează datele în timp ce sunt transmise.

Amazon Transcribe poate funcționa în unul dintre cele două moduri:

  • Transcrieri în flux permite transcrierea fluxului media în timp real
  • Locuri de muncă de transcriere permite transcrierea fișierelor audio folosind joburi asincrone.

În modul de transcriere în flux, aplicațiile client deschid o conexiune de streaming bidirecțională prin HTTP/2 sau WebSockets. O aplicație trimite un flux audio către Amazon Transcribe, iar serviciul răspunde cu un flux de text în timp real. Atât conexiunile de streaming HTTP/2, cât și WebSockets sunt stabilite prin Transport Layer Security (TLS), care este un protocol criptografic larg acceptat. TLS oferă autentificare și criptare a datelor în tranzit folosind certificate AWS. Vă recomandăm să utilizați TLS 1.2 sau o versiune ulterioară.

În modul de transcriere în lot, un fișier audio trebuie mai întâi introdus într-un Serviciul Amazon de stocare simplă (Amazon S3) găleată. Apoi, în Amazon Transcribe este creată o lucrare de transcriere în lot care face referire la URI-ul S3 al acestui fișier. Atât Amazon Transcribe în modul batch, cât și Amazon S3 utilizează HTTP/1.1 prin TLS pentru a proteja datele în tranzit.

Toate solicitările către Amazon Transcribe prin HTTP și WebSockets trebuie să fie autentificate folosind AWS Signature versiunea 4. Se recomandă utilizarea Signature Version 4 pentru a autentifica cererile HTTP și către Amazon S3, deși autentificarea cu mai vechi Semnătura versiunea 2 este posibil și în unele regiuni AWS. Aplicațiile trebuie să aibă acreditări valide pentru a semna solicitările API către serviciile AWS.

Protejarea datelor în repaus

Amazon Transcribe în modul lot utilizează compartimente S3 pentru a stoca atât fișierul audio de intrare, cât și fișierul de transcriere de ieșire. Clienții folosesc un compartiment S3 pentru a stoca fișierul audio de intrare și este foarte recomandat să activați criptarea pe acest compartiment. Amazon Transcribe acceptă următoarele metode de criptare S3:

Ambele metode criptează datele clienților pe măsură ce sunt scrise pe discuri și le decriptează atunci când le accesați folosind unul dintre cele mai puternice coduri bloc disponibile: Standard de criptare avansată pe 256 de biți (AES-256) GCM. Când utilizați SSE-S3, cheile de criptare sunt gestionate și rotit în mod regulat de serviciul Amazon S3. Pentru securitate și conformitate suplimentare, SSE-KMS oferă clienților control asupra cheilor de criptare prin AWS Service Management Service (AWS KMS). AWS KMS oferă controale de acces suplimentare, deoarece trebuie să aveți permisiuni pentru a utiliza cheile KMS corespunzătoare pentru a cripta și decripta obiectele din compartimentele S3 configurate cu SSE-KMS. De asemenea, SSE-KMS oferă clienților o capacitate de urmărire de audit care păstrează înregistrări despre cine a folosit cheile KMS și când.

Transcrierea de ieșire poate fi stocată în același compartiment S3 sau într-un alt compartiment S3 deținut de client. În acest caz, se aplică aceleași opțiuni de criptare SSE-S3 și SSE-KMS. O altă opțiune pentru ieșirea Amazon Transcribe în modul lot este utilizarea unui compartiment S3 gestionat de servicii. Apoi datele de ieșire sunt plasate într-o găleată SXNUMX securizată gestionată de serviciul Amazon Transcribe și vi se oferă un URI temporar care poate fi folosit pentru a descărca transcrierea.

Amazon Transcribe utilizează criptat Magazin Amazon Elastic Block (Amazon EBS) volume pentru a stoca temporar datele clienților în timpul procesării media. Datele clienților sunt curățate atât pentru cazurile complete, cât și pentru cazurile de eșec.

Cea mai bună practică 2 – Comunicați printr-o cale de rețea privată

Mulți clienți se bazează pe criptare în tranzit pentru a comunica în siguranță cu Amazon Transcribe prin Internet. Cu toate acestea, pentru unele aplicații, criptarea datelor în tranzit poate să nu fie suficientă pentru a îndeplini cerințele de securitate. În unele cazuri, datele sunt necesare pentru a nu traversa rețele publice, cum ar fi internetul. De asemenea, poate exista o cerință ca aplicația să fie implementată într-un mediu privat care nu este conectat la internet. Pentru a îndeplini aceste cerințe, utilizați punctele finale de interfață VPC powered by AWS PrivateLink.

Următoarea diagramă arhitecturală demonstrează un caz de utilizare în care este implementată o aplicație Amazon EC2. Instanța EC2 care rulează aplicația nu are acces la internet și comunică cu Amazon Transcribe și Amazon S3 prin punctele finale VPC ale interfeței.

O instanță EC2 din interiorul unui VPC comunică cu Amazon Transcribe și serviciile Amazon S3 din aceeași regiune prin punctele finale VPC ale interfeței.

În unele scenarii, aplicația care comunică cu Amazon Transcribe poate fi implementată într-un centru de date local. Pot exista cerințe suplimentare de securitate sau de conformitate care impun ca datele schimbate cu Amazon Transcribe să nu tranziteze rețele publice precum internetul. În acest caz, conectivitate privată prin AWS Direct Connect poate fi folosit. Următoarea diagramă arată o arhitectură care permite unei aplicații locale să comunice cu Amazon Transcribe fără nicio conexiune la internet.

Un centru de date corporativ cu un server de aplicații este conectat la AWS cloud prin AWS Direct Connect. Serverul de aplicații local comunică cu Amazon Transcribe și serviciile Amazon S3 prin AWS Direct Connect și apoi interfață punctele finale VPC.

Cea mai bună practică 3 – Redactați datele sensibile dacă este necesar

Unele cazuri de utilizare și medii de reglementare pot necesita eliminarea datelor sensibile din transcrieri și fișiere audio. Amazon Transcribe acceptă identificarea și redactarea informațiilor de identificare personală (PII), cum ar fi nume, adrese, numere de securitate socială și așa mai departe. Această capacitate poate fi utilizată pentru a permite clienților să obțină conformitatea cu industria cardurilor de plată (PCI) prin redactarea informațiilor personale, cum ar fi numărul cardului de credit sau de debit, data de expirare și codul de verificare din trei cifre (CVV). Transcrierile cu informații redactate vor avea PII înlocuite cu substituenți între paranteze drepte care indică ce tip de PII a fost redactat. Transcrierile în flux acceptă capacitatea suplimentară de a identifica numai PII și de a le eticheta fără redactare. Tipurile de PII redactate de Amazon Transcribe variază între transcripțiile lot și transcrieri în flux. A se referi la Redactarea PII în sarcina dvs. de lot și Redactarea sau identificarea PII într-un flux în timp real pentru mai multe detalii.

Specializat Amazon Transcribe Call Analytics API-urile au o capacitate încorporată de a redacta PII atât în ​​transcrierea textului, cât și în fișierele audio. Acest API folosește modele specializate de procesare a vorbirii în text și a limbajului natural (NLP) instruite special pentru a înțelege serviciile pentru clienți și apelurile de vânzări. Pentru alte cazuri de utilizare, puteți utiliza această soluție pentru a redacta PII din fișierele audio cu Amazon Transcribe.

Cele mai bune practici de securitate suplimentare Amazon Transcribe

Cea mai bună practică 4 – Utilizare Roluri IAM pentru aplicații și servicii AWS care necesită acces Amazon Transcribe. Când utilizați un rol, nu trebuie să distribuiți acreditări pe termen lung, cum ar fi parole sau chei de acces, unei instanțe EC2 sau unui serviciu AWS. Rolurile IAM pot furniza permisiuni temporare pe care aplicațiile le pot folosi atunci când fac solicitări către resursele AWS.

Cea mai bună practică 5 – Utilizare controlul accesului bazat pe etichete. Puteți utiliza etichete pentru a controla accesul în conturile dvs. AWS. În Amazon Transcribe, etichetele pot fi adăugate la joburile de transcriere, vocabulare personalizate, filtre de vocabular personalizate și modele de limbaj personalizate.

Cea mai bună practică 6 – Utilizați instrumentele de monitorizare AWS. Monitorizarea este o parte importantă a menținerii fiabilității, securității, disponibilității și performanței Amazon Transcribe și a soluțiilor dvs. AWS. Puteți monitorizați Amazon Transcribe folosind AWS CloudTrail și Amazon CloudWatch.

Cea mai bună practică 7 – Permite Configurare AWS. AWS Config vă permite să evaluați, să auditați și să evaluați configurațiile resurselor dvs. AWS. Folosind AWS Config, puteți examina modificările în configurații și relațiile dintre resursele AWS, puteți investiga istoricul detaliat al configurației resurselor și puteți determina conformitatea dvs. generală cu configurațiile specificate în ghidurile dvs. interne. Acest lucru vă poate ajuta să simplificați auditarea conformității, analiza securității, gestionarea schimbărilor și depanarea operațională.

Validarea conformității pentru Amazon Transcribe

Aplicațiile pe care le construiți pe AWS pot fi supuse unor programe de conformitate, cum ar fi SOC, PCI, FedRAMP și HIPAA. AWS folosește auditori terți pentru a-și evalua serviciile pentru conformitatea cu diferite programe. Artefact AWS vă permite să descărcați rapoarte de audit de la terți.

Pentru a afla dacă un serviciu AWS se încadrează în domeniul de aplicare al anumitor programe de conformitate, consultați Servicii AWS în domeniul de aplicare prin programul de conformitate. Pentru informații și resurse suplimentare pe care AWS le oferă pentru a ajuta clienții să respecte conformitatea, consultați Validarea conformității pentru Amazon Transcribe și Resurse de conformitate AWS.

Concluzie

În această postare, ați aflat despre diferite mecanisme de securitate, bune practici și modele arhitecturale disponibile pentru a crea aplicații securizate cu Amazon Transcribe. Vă puteți proteja datele sensibile atât în ​​tranzit, cât și în repaus, cu o criptare puternică. Redactarea PII poate fi folosită pentru a permite eliminarea informațiilor personale din transcrierile dvs. dacă nu doriți să le procesați și să le stocați. Punctele finale VPC și Direct Connect vă permit să stabiliți conectivitate privată între aplicația dvs. și serviciul Amazon Transcribe. De asemenea, am furnizat referințe care vă vor ajuta să validați conformitatea aplicației dvs. utilizând Amazon Transcribe cu programe precum SOC, PCI, FedRAMP și HIPAA.

Ca următorii pași, verificați Noțiuni introductive cu Amazon Transcribe pentru a începe rapid să utilizați serviciul. A se referi la Documentația Amazon Transcribe pentru a aprofunda detaliile serviciului. Și urmează Amazon Transcribe pe blogul AWS Machine Learning pentru a fi la curent cu noile capabilități și cazuri de utilizare pentru Amazon Transcribe.


Despre autor

Imagine portret a lui Alex Bulatkin, arhitect de soluții la AWS

Alex Bulatkin este arhitect de soluții la AWS. Îi face plăcere să ajute furnizorii de servicii de comunicații să construiască soluții inovatoare în AWS, care redefinesc industria telecomunicațiilor. Este pasionat să lucreze cu clienții pentru a aduce puterea serviciilor AWS AI în aplicațiile lor. Alex are sediul în zona metropolitană Denver și îi place să facă drumeții, schi și snowboard.

Timestamp-ul:

Mai mult de la Învățare automată AWS