Bedste fremgangsmåder til at bygge sikre applikationer med Amazon Transcribe | Amazon Web Services

Bedste fremgangsmåder til at bygge sikre applikationer med Amazon Transcribe | Amazon Web Services

Amazon Transcrib er en AWS-tjeneste, der giver kunderne mulighed for at konvertere tale til tekst i enten batch- eller streaming-tilstand. Den bruger maskinlæringsdrevet automatisk talegenkendelse (ASR), automatisk sprogidentifikation og efterbehandlingsteknologier. Amazon Transcribe kan bruges til transskription af kundeserviceopkald, konferenceopkald med flere parter og voicemail-beskeder samt generering af undertekster til optagede og live-videoer, for blot at nævne nogle få eksempler. I dette blogindlæg lærer du, hvordan du driver dine applikationer med Amazon Transcribe-funktioner på en måde, der opfylder dine sikkerhedskrav.

Nogle kunder giver Amazon Transcribe data, der er fortrolige og proprietære for deres virksomhed. I andre tilfælde kan lydindhold, der behandles af Amazon Transcribe, indeholde følsomme data, der skal beskyttes for at overholde lokale love og regler. Eksempler på sådanne oplysninger er personligt identificerbare oplysninger (PII), personlige helbredsoplysninger (PHI) og betalingskortindustriens (PCI) data. I de følgende sektioner af bloggen dækker vi forskellige mekanismer, Amazon Transcribe har for at beskytte kundedata både under transport og i hvile. Vi deler følgende syv bedste praksisser for sikkerhed til at bygge applikationer med Amazon Transcribe, der opfylder dine sikkerheds- og overholdelseskrav:

  1. Brug databeskyttelse med Amazon Transcribe
  2. Kommuniker via en privat netværkssti
  3. Rediger følsomme data, hvis det er nødvendigt
  4. Brug IAM-roller til applikationer og AWS-tjenester, der kræver Amazon Transscribe-adgang
  5. Brug tag-baseret adgangskontrol
  6. Brug AWS-overvågningsværktøjer
  7. Aktiver AWS Config

Følgende bedste praksis er generelle retningslinjer og repræsenterer ikke en komplet sikkerhedsløsning. Fordi disse bedste fremgangsmåder måske ikke er passende eller tilstrækkelige for dit miljø, skal du bruge dem som nyttige overvejelser i stedet for recepter.

Bedste praksis 1 – Brug databeskyttelse med Amazon Transcribe

Amazon Transcribe er i overensstemmelse med AWS delt ansvarsmodel, som adskiller AWS-ansvar for sikkerhed i skyen fra kundeansvar for sikkerhed i skyen.

AWS er ​​ansvarlig for at beskytte den globale infrastruktur, der kører hele AWS Cloud. Som kunde er du ansvarlig for at opretholde kontrol over dit indhold, der hostes på denne infrastruktur. Dette indhold inkluderer sikkerhedskonfigurationen og administrationsopgaverne for de AWS-tjenester, du bruger. For mere information om databeskyttelse, se Ofte stillede spørgsmål om databeskyttelse.

Beskyttelse af data under transport

Datakryptering bruges til at sikre, at datakommunikation mellem din applikation og Amazon Transcribe forbliver fortrolig. Brugen af ​​stærke kryptografiske algoritmer beskytter data, mens de transmitteres.

Amazon Transcribe kan fungere i en af ​​de to tilstande:

  • Streaming af transskriptioner tillade mediestream-transskription i realtid
  • Batch-transskription job tillade transskription af lydfiler ved hjælp af asynkrone job.

I streaming-transskriptionstilstand åbner klientapplikationer en tovejs streamingforbindelse over HTTP/2 eller WebSockets. En applikation sender en lydstrøm til Amazon Transcribe, og tjenesten svarer med en strøm af tekst i realtid. Både HTTP/2- og WebSockets-streamingforbindelser etableres over Transport Layer Security (TLS), som er en bredt accepteret kryptografisk protokol. TLS giver godkendelse og kryptering af data i transit ved hjælp af AWS-certifikater. Vi anbefaler at bruge TLS 1.2 eller nyere.

I batch-transskriptionstilstand skal en lydfil først lægges i en Amazon Simple Storage Service (Amazon S3) spand. Derefter oprettes et batch-transskriptionsjob, der refererer til denne fils S3-URI, i Amazon Transcribe. Både Amazon Transcribe i batch-tilstand og Amazon S3 bruger HTTP/1.1 over TLS til at beskytte data i transit.

Alle anmodninger til Amazon Transcribe over HTTP og WebSockets skal autentificeres vha AWS signatur version 4. Det anbefales også at bruge Signature Version 4 til at godkende HTTP-anmodninger til Amazon S3, selvom godkendelse med ældre Signatur version 2 er også muligt i nogle AWS-regioner. Applikationer skal have gyldige legitimationsoplysninger for at signere API-anmodninger til AWS-tjenester.

Beskyttelse af data i hvile

Amazon Transcribe i batch-tilstand bruger S3-buckets til at gemme både input-lydfilen og output-transskriptionsfilen. Kunder bruger en S3-bøtte til at gemme input-lydfilen, og det anbefales stærkt at aktivere kryptering på denne bøtte. Amazon Transcribe understøtter følgende S3-krypteringsmetoder:

Begge metoder krypterer kundedata, efterhånden som de skrives til diske, og dekrypterer dem, når du får adgang til dem ved hjælp af en af ​​de stærkeste blokcyffere, der findes: 256-bit Advanced Encryption Standard (AES-256) GCM. Når du bruger SSE-S3, administreres krypteringsnøgler og regelmæssigt roteret af Amazon S3-tjenesten. For yderligere sikkerhed og compliance giver SSE-KMS kunderne kontrol over krypteringsnøgler via AWS Key Management Service (AWS KMS). AWS KMS giver yderligere adgangskontrol, fordi du skal have tilladelser til at bruge de relevante KMS-nøgler for at kryptere og dekryptere objekter i S3-buckets konfigureret med SSE-KMS. SSE-KMS giver også kunderne en revisionsspor-funktion, der holder optegnelser over, hvem der brugte dine KMS-nøgler, og hvornår.

Output-transskriptionen kan gemmes i den samme eller en anden kundeejet S3-spand. I dette tilfælde gælder de samme SSE-S3- og SSE-KMS-krypteringsmuligheder. En anden mulighed for Amazon Transscribe-output i batch-tilstand er at bruge en servicestyret S3-bøtte. Derefter lægges outputdata i en sikker S3-bøtte, der administreres af Amazon Transcribe-tjenesten, og du får en midlertidig URI, der kan bruges til at downloade dit transskription.

Amazon Transcribe bruger krypteret Amazon Elastic Block Store (Amazon EBS) mængder til midlertidigt at gemme kundedata under mediebehandling. Der ryddes op i kundedata for både komplette og fejlsager.

Bedste praksis 2 – Kommuniker via en privat netværkssti

Mange kunder er afhængige af kryptering under transit for at kommunikere sikkert med Amazon Transcribe over internettet. For nogle applikationer er datakryptering under overførsel muligvis ikke tilstrækkelig til at opfylde sikkerhedskravene. I nogle tilfælde kræves data for ikke at krydse offentlige netværk såsom internettet. Der kan også være et krav om, at applikationen skal installeres i et privat miljø, der ikke er forbundet til internettet. For at opfylde disse krav skal du bruge grænseflade VPC-endepunkter drives af AWS PrivateLink.

Følgende arkitektoniske diagram viser en use case, hvor en applikation er implementeret på Amazon EC2. EC2-instansen, der kører applikationen, har ikke adgang til internettet og kommunikerer med Amazon Transcribe og Amazon S3 via grænseflade VPC-slutpunkter.

En EC2-instans inde i en VPC kommunikerer med Amazon Transcribe og Amazon S3-tjenester i samme region via grænseflade VPC-endepunkter.

I nogle scenarier kan den applikation, der kommunikerer med Amazon Transcribe, blive implementeret i et lokalt datacenter. Der kan være yderligere sikkerheds- eller overholdelseskrav, der kræver, at data, der udveksles med Amazon Transcribe, ikke må transitere offentlige netværk såsom internettet. I dette tilfælde privat tilslutning via AWS Direct Connect Kan bruges. Følgende diagram viser en arkitektur, der gør det muligt for en lokal applikation at kommunikere med Amazon Transcribe uden nogen forbindelse til internettet.

Et firmadatacenter med en applikationsserver er forbundet til AWS-skyen via AWS Direct Connect. Den lokale applikationsserver kommunikerer med Amazon Transcribe og Amazon S3-tjenester via AWS Direct Connect og forbinder derefter VPC-endepunkter.

Bedste praksis 3 – Rediger følsomme data, hvis det er nødvendigt

Nogle use cases og regulatoriske miljøer kan kræve fjernelse af følsomme data fra transskriptioner og lydfiler. Amazon Transcribe understøtter identifikation og redigering af personligt identificerbare oplysninger (PII) såsom navne, adresser, CPR-numre og så videre. Denne funktion kan bruges til at gøre det muligt for kunder at opnå overholdelse af betalingskortindustrien (PCI) ved at redigere PII såsom kredit- eller betalingskortnummer, udløbsdato og trecifret kortverifikationskode (CVV). Transskriptioner med redigeret information vil have PII erstattet med pladsholdere i firkantede parenteser, der angiver, hvilken type PII der blev redigeret. Streaming-transskriptioner understøtter den yderligere mulighed for kun at identificere PII og mærke den uden redigering. Typerne af PII, der redigeres af Amazon Transcribe, varierer mellem batch- og streamingtransskriptioner. Henvise til Redigerer PII i dit batchjob , Redigere eller identificere PII i en realtidsstrøm for flere detaljer.

Den specialiserede Amazon Transscribe Call Analytics API'er har en indbygget evne til at redigere PII i både teksttransskriptioner og lydfiler. Denne API bruger specialiserede tale-til-tekst- og NLP-modeller, der er trænet specifikt til at forstå kundeservice og salgsopkald. Til andre brugstilfælde kan du bruge denne løsning at redigere PII fra lydfiler med Amazon Transcribe.

Yderligere bedste fremgangsmåder for Amazon Transscribe-sikkerhed

Bedste praksis 4 – Brug IAM roller for applikationer og AWS-tjenester, der kræver Amazon Transscribe-adgang. Når du bruger en rolle, behøver du ikke at distribuere langsigtede legitimationsoplysninger, såsom adgangskoder eller adgangsnøgler, til en EC2-instans eller AWS-tjeneste. IAM-roller kan levere midlertidige tilladelser, som applikationer kan bruge, når de sender anmodninger til AWS-ressourcer.

Bedste praksis 5 – Brug tag-baseret adgangskontrol. Du kan bruge tags til at kontrollere adgangen på dine AWS-konti. I Amazon Transcribe kan tags tilføjes til transskriptionsjob, brugerdefinerede ordforråd, brugerdefinerede ordforrådsfiltre og brugerdefinerede sprogmodeller.

Bedste praksis 6 – Brug AWS-overvågningsværktøjer. Overvågning er en vigtig del af opretholdelsen af ​​pålideligheden, sikkerheden, tilgængeligheden og ydeevnen af ​​Amazon Transcribe og dine AWS-løsninger. Du kan overvåge Amazon Transcribe ved hjælp af AWS CloudTrail , amazoncloudwatch.

Bedste praksis 7 – Aktiver AWS-konfig. AWS Config giver dig mulighed for at vurdere, revidere og evaluere konfigurationerne af dine AWS-ressourcer. Ved at bruge AWS Config kan du gennemgå ændringer i konfigurationer og relationer mellem AWS-ressourcer, undersøge detaljerede ressourcekonfigurationshistorier og bestemme din overordnede overensstemmelse med de konfigurationer, der er angivet i dine interne retningslinjer. Dette kan hjælpe dig med at forenkle overholdelsesrevision, sikkerhedsanalyse, ændringsstyring og operationel fejlfinding.

Overholdelsesvalidering for Amazon Transcribe

Applikationer, som du bygger på AWS, kan være underlagt compliance-programmer, såsom SOC, PCI, FedRAMP og HIPAA. AWS bruger tredjepartsrevisorer til at evaluere sine tjenester for overholdelse af forskellige programmer. AWS artefakt gør det muligt at downloade tredjeparts revisionsrapporter.

For at finde ud af, om en AWS-tjeneste er inden for rammerne af specifikke overholdelsesprogrammer, henvises til AWS-tjenester i omfang efter overholdelsesprogram. For yderligere oplysninger og ressourcer, som AWS leverer til at hjælpe kunder med overholdelse, henvises til Overholdelsesvalidering for Amazon Transcribe , AWS overholdelse ressourcer.

Konklusion

I dette indlæg har du lært om forskellige sikkerhedsmekanismer, bedste praksis og arkitektoniske mønstre, der er tilgængelige for dig til at bygge sikre applikationer med Amazon Transcribe. Du kan beskytte dine følsomme data både under transport og i hvile med stærk kryptering. PII-redaktion kan bruges til at muliggøre fjernelse af personlige oplysninger fra dine transskriptioner, hvis du ikke ønsker at behandle og gemme dem. VPC-endepunkter og Direct Connect giver dig mulighed for at etablere privat forbindelse mellem din applikation og Amazon Transcribe-tjenesten. Vi har også leveret referencer, der vil hjælpe dig med at validere overholdelse af din ansøgning ved hjælp af Amazon Transcribe med programmer som SOC, PCI, FedRAMP og HIPAA.

Tjek ud som næste trin Kom godt i gang med Amazon Transcribe for hurtigt at komme i gang med at bruge tjenesten. Henvise til Amazon Transscribe dokumentation at dykke dybere ned i servicedetaljerne. Og følg med Amazon Transscribe på AWS Machine Learning-bloggen at holde sig ajour med nye muligheder og use cases til Amazon Transcribe.


Om forfatteren

Portrætbillede af Alex Bulatkin, en Solutions Architect hos AWS

Alex Bulatkin er Solutions Architect hos AWS. Han nyder at hjælpe kommunikationstjenesteudbydere med at bygge innovative løsninger i AWS, der omdefinerer telekommunikationsindustrien. Han brænder for at arbejde med kunder om at bringe kraften fra AWS AI-tjenester ind i deres applikationer. Alex er baseret i hovedstadsområdet Denver og kan lide at vandre, stå på ski og snowboard.

Tidsstempel:

Mere fra AWS maskinindlæring