Najlepsze praktyki tworzenia bezpiecznych aplikacji za pomocą Amazon Transcribe | Usługi internetowe Amazona

Najlepsze praktyki tworzenia bezpiecznych aplikacji za pomocą Amazon Transcribe | Usługi internetowe Amazona

Amazon Transcribe to usługa AWS, która umożliwia klientom konwersję mowy na tekst w trybie wsadowym lub strumieniowym. Wykorzystuje technologię automatycznego rozpoznawania mowy (ASR) opartą na uczeniu maszynowym, automatyczną identyfikację języka i technologie przetwarzania końcowego. Amazon Transcribe może być używany do transkrypcji rozmów telefonicznych z obsługą klienta, wielostronnych rozmów konferencyjnych i wiadomości poczty głosowej, a także generowania napisów do nagranych i wideo na żywo, żeby wymienić tylko kilka przykładów. W tym poście na blogu dowiesz się, jak zasilać swoje aplikacje funkcjami Amazon Transcribe w sposób spełniający Twoje wymagania bezpieczeństwa.

Niektórzy klienci powierzają Amazon Transcribe dane, które są poufne i stanowią własność ich firmy. W innych przypadkach treści audio przetwarzane przez Amazon Transcribe mogą zawierać wrażliwe dane, które należy chronić w celu zapewnienia zgodności z lokalnymi przepisami i regulacjami. Przykładami takich informacji są dane osobowe (PII), dane dotyczące zdrowia osobistego (PHI) i dane dotyczące branży kart płatniczych (PCI). W kolejnych sekcjach bloga omawiamy różne mechanizmy, które Amazon Transcribe musi chronić dane klientów zarówno podczas transportu, jak i przechowywania. Dzielimy się poniższymi siedmioma najlepszymi praktykami bezpieczeństwa w celu tworzenia aplikacji za pomocą Amazon Transcribe, które spełniają Twoje wymagania dotyczące bezpieczeństwa i zgodności:

  1. Korzystaj z ochrony danych dzięki Amazon Transcribe
  2. Komunikuj się poprzez prywatną ścieżkę sieciową
  3. W razie potrzeby zredaguj wrażliwe dane
  4. Używaj ról IAM dla aplikacji i usług AWS, które wymagają dostępu Amazon Transcribe
  5. Użyj kontroli dostępu opartej na tagach
  6. Skorzystaj z narzędzi monitorujących AWS
  7. Włącz konfigurację AWS

Poniższe najlepsze rozwiązania stanowią ogólne wytyczne i nie stanowią kompletnego rozwiązania zabezpieczającego. Ponieważ te najlepsze praktyki mogą nie być odpowiednie lub wystarczające dla Twojego środowiska, traktuj je raczej jako pomocne uwagi, a nie zalecenia.

Najlepsza praktyka 1 – Korzystaj z ochrony danych za pomocą Amazon Transcribe

Transkrypcja Amazon jest zgodna z Model współdzielonej odpowiedzialności AWS, co odróżnia odpowiedzialność AWS za bezpieczeństwo chmury od odpowiedzialności klienta za bezpieczeństwo w chmurze.

AWS jest odpowiedzialny za ochronę globalnej infrastruktury, na której działa cała chmura AWS. Jako klient jesteś odpowiedzialny za utrzymanie kontroli nad treściami hostowanymi w tej infrastrukturze. Ta zawartość obejmuje zadania związane z konfiguracją zabezpieczeń i zarządzaniem usługami AWS, z których korzystasz. Aby uzyskać więcej informacji na temat prywatności danych, zobacz Często zadawane pytania dotyczące prywatności danych.

Ochrona danych w transporcie

Szyfrowanie danych służy do zapewnienia poufności komunikacji danych pomiędzy Twoją aplikacją a Amazon Transcribe. Zastosowanie silnych algorytmów kryptograficznych chroni dane podczas ich przesyłania.

Amazon Transcribe może działać w jednym z dwóch trybów:

  • Transkrypcje strumieniowe umożliwiają transkrypcję strumienia multimediów w czasie rzeczywistym
  • Zadania transkrypcji wsadowej umożliwiają transkrypcję plików audio przy użyciu zadań asynchronicznych.

W trybie transkrypcji strumieniowej aplikacje klienckie otwierają dwukierunkowe połączenie przesyłania strumieniowego za pośrednictwem protokołu HTTP/2 lub protokołu WebSockets. Aplikacja wysyła strumień audio do Amazon Transcribe, a usługa odpowiada strumieniem tekstu w czasie rzeczywistym. Zarówno połączenia strumieniowe HTTP/2, jak i WebSockets są nawiązywane za pośrednictwem protokołu Transport Layer Security (TLS), który jest powszechnie akceptowanym protokołem kryptograficznym. TLS zapewnia uwierzytelnianie i szyfrowanie przesyłanych danych przy użyciu certyfikatów AWS. Zalecamy używanie protokołu TLS 1.2 lub nowszego.

W trybie transkrypcji wsadowej plik audio należy najpierw umieścić w formacie Usługa Amazon Simple Storage (Amazon S3) wiaderko. Następnie w Amazon Transcribe tworzone jest zadanie transkrypcji wsadowej odwołujące się do identyfikatora URI S3 tego pliku. Zarówno Amazon Transcribe w trybie wsadowym, jak i Amazon S3 korzystają z protokołu HTTP/1.1 przez TLS, aby chronić przesyłane dane.

Wszystkie żądania do Amazon Transcribe za pośrednictwem protokołu HTTP i WebSockets muszą być uwierzytelniane przy użyciu Podpis AWS wersja 4. Zaleca się używanie wersji 4 podpisu również do uwierzytelniania żądań HTTP do Amazon S3, chociaż uwierzytelnianie w starszych wersjach Wersja podpisu 2 jest również możliwe w niektórych regionach AWS. Aplikacje muszą mieć ważne dane uwierzytelniające, aby podpisywać żądania API do usług AWS.

Ochrona danych w spoczynku

Usługa Amazon Transcribe w trybie wsadowym wykorzystuje segmenty S3 do przechowywania zarówno wejściowego pliku audio, jak i wyjściowego pliku transkrypcji. Klienci używają zasobnika S3 do przechowywania wejściowego pliku audio i zdecydowanie zaleca się włączenie szyfrowania w tym zasobniku. Amazon Transcribe obsługuje następujące metody szyfrowania S3:

Obie metody szyfrują dane klientów podczas ich zapisywania na dyskach i odszyfrowują je, gdy uzyskujesz do nich dostęp, przy użyciu jednego z najsilniejszych dostępnych szyfrów blokowych: 256-bitowy zaawansowany standard szyfrowania (AES-256) GCM. W przypadku korzystania z SSE-S3 zarządzane są klucze szyfrowania i regularnie zmieniane przez usługę Amazon S3. Aby zapewnić dodatkowe bezpieczeństwo i zgodność, SSE-KMS zapewnia klientom kontrolę nad kluczami szyfrującymi za pośrednictwem Usługa zarządzania kluczami AWS (AWS KMS). AWS KMS zapewnia dodatkową kontrolę dostępu, ponieważ musisz mieć uprawnienia do używania odpowiednich kluczy KMS, aby szyfrować i deszyfrować obiekty w segmentach S3 skonfigurowanych za pomocą SSE-KMS. Ponadto SSE-KMS zapewnia klientom funkcję ścieżki audytu, która rejestruje, kto i kiedy użył kluczy KMS.

Transkrypcja wyjściowa może być przechowywana w tym samym lub innym zasobniku S3 należącym do klienta. W tym przypadku obowiązują te same opcje szyfrowania SSE-S3 i SSE-KMS. Inną opcją dla danych wyjściowych Amazon Transcribe w trybie wsadowym jest użycie segmentu S3 zarządzanego przez usługę. Następnie dane wyjściowe są umieszczane w bezpiecznym zasobniku S3 zarządzanym przez usługę Amazon Transcribe i otrzymujesz tymczasowy identyfikator URI, którego można użyć do pobrania transkrypcji.

Usługa Amazon Transcribe wykorzystuje szyfrowanie Sklep z blokami elastycznymi Amazon (Amazon EBS) woluminy do tymczasowego przechowywania danych klientów podczas przetwarzania multimediów. Dane klienta są czyszczone zarówno w przypadku ukończeń, jak i awarii.

Najlepsza praktyka 2 – Komunikuj się poprzez ścieżkę sieci prywatnej

Wielu klientów polega na szyfrowaniu podczas przesyłania, aby bezpiecznie komunikować się z Amazon Transcribe przez Internet. Jednak w przypadku niektórych zastosowań szyfrowanie przesyłanych danych może nie wystarczyć do spełnienia wymagań bezpieczeństwa. W niektórych przypadkach wymagane jest, aby dane nie przechodziły przez sieci publiczne, takie jak Internet. Ponadto może być wymagane wdrożenie aplikacji w środowisku prywatnym, niepołączonym z Internetem. Aby spełnić te wymagania, użyj punkty końcowe interfejsu VPC zasilany przez Prywatny link AWS.

Poniższy diagram architektoniczny przedstawia przypadek użycia, w którym aplikacja jest wdrażana Amazon EC2. Instancja EC2, na której działa aplikacja, nie ma dostępu do Internetu i komunikuje się z Amazon Transcribe i Amazon S3 za pośrednictwem punktów końcowych interfejsu VPC.

Instancja EC2 wewnątrz VPC komunikuje się z usługami Amazon Transcribe i Amazon S3 w tym samym regionie za pośrednictwem punktów końcowych interfejsu VPC.

W niektórych scenariuszach aplikacja komunikująca się z usługą Amazon Transcribe może zostać wdrożona w lokalnym centrum danych. Mogą obowiązywać dodatkowe wymagania dotyczące bezpieczeństwa lub zgodności, które nakładają, że dane wymieniane za pomocą Amazon Transcribe nie mogą przechodzić przez sieci publiczne, takie jak Internet. W tym przypadku połączenie prywatne za pośrednictwem AWS Direct Connect może być użyte. Na poniższym diagramie przedstawiono architekturę, która umożliwia aplikacji lokalnej komunikację z usługą Amazon Transcribe bez połączenia z Internetem.

Korporacyjne centrum danych z serwerem aplikacji jest połączone z chmurą AWS za pośrednictwem AWS Direct Connect. Lokalny serwer aplikacji komunikuje się z usługami Amazon Transcribe i Amazon S3 za pośrednictwem AWS Direct Connect, a następnie łączy się z punktami końcowymi VPC.

Najlepsza praktyka 3 – W razie potrzeby zredaguj dane wrażliwe

Niektóre przypadki użycia i środowiska regulacyjne mogą wymagać usunięcia wrażliwych danych z transkrypcji i plików audio. Amazon Transcribe obsługuje identyfikację i redagowanie danych osobowych (PII), takich jak nazwiska, adresy, numery ubezpieczenia społecznego i tak dalej. Funkcję tę można wykorzystać, aby umożliwić klientom osiągnięcie zgodności z branżą kart płatniczych (PCI) poprzez redagowanie informacji umożliwiających identyfikację, takich jak numer karty kredytowej lub debetowej, data ważności i trzycyfrowy kod weryfikacyjny karty (CVV). W transkrypcjach zawierających zredagowane informacje umożliwiające identyfikację zostaną zastąpione symbolami zastępczymi w nawiasach kwadratowych wskazującymi rodzaj zredagowanych informacji umożliwiających identyfikację. Transkrypcje strumieniowe obsługują dodatkową możliwość identyfikowania informacji umożliwiających identyfikację i oznaczania ich bez redagowania. Rodzaje danych osobowych redagowanych przez Amazon Transcribe różnią się w zależności od transkrypcji wsadowej i strumieniowej. Odnosić się do Redagowanie informacji umożliwiających identyfikację w zadaniu wsadowym i Redagowanie lub identyfikowanie danych osobowych w strumieniu w czasie rzeczywistym by uzyskać więcej szczegółów.

Specjalistyczny Analityka połączeń transkrypcji Amazon Interfejsy API mają wbudowaną funkcję redagowania informacji umożliwiających identyfikację zarówno w transkrypcjach tekstowych, jak i plikach audio. Ten interfejs API wykorzystuje wyspecjalizowane modele przetwarzania mowy na tekst i języka naturalnego (NLP), przeszkolone specjalnie w celu zrozumienia połączeń związanych z obsługą klienta i sprzedażą. W innych przypadkach użycia możesz użyć to rozwiązanie aby zredagować PII z plików audio za pomocą Amazon Transcribe.

Dodatkowe najlepsze praktyki bezpieczeństwa Amazon Transcribe

Najlepsza praktyka 4 – Zastosowanie Role IAM dla aplikacji i usług AWS wymagających dostępu do Amazon Transcribe. Korzystając z roli, nie musisz rozpowszechniać długoterminowych poświadczeń, takich jak hasła lub klucze dostępu, do instancji EC2 lub usługi AWS. Role IAM mogą zapewniać tymczasowe uprawnienia, z których mogą korzystać aplikacje, gdy wysyłają żądania do zasobów AWS.

Najlepsza praktyka 5 – Zastosowanie kontrola dostępu oparta na tagach. Możesz używać tagów do kontrolowania dostępu do swoich kont AWS. W Amazon Transcribe tagi można dodawać do zadań transkrypcji, niestandardowych słowników, niestandardowych filtrów słownictwa i niestandardowych modeli języków.

Najlepsza praktyka 6 – Skorzystaj z narzędzi monitorujących AWS. Monitorowanie jest ważną częścią utrzymania niezawodności, bezpieczeństwa, dostępności i wydajności Amazon Transcribe i rozwiązań AWS. Możesz monitoruj transkrypcję Amazon za pomocą AWS CloudTrail i Amazon Cloud Watch.

Najlepsza praktyka 7 – umożliwiać Konfiguracja AWS. AWS Config umożliwia ocenę, audyt i ewaluację konfiguracji zasobów AWS. Korzystając z AWS Config, możesz przeglądać zmiany w konfiguracjach i relacjach między zasobami AWS, badać szczegółowe historie konfiguracji zasobów i określać ogólną zgodność z konfiguracjami określonymi w wewnętrznych wytycznych. Może to pomóc w uproszczeniu audytu zgodności, analizy bezpieczeństwa, zarządzania zmianami i rozwiązywania problemów operacyjnych.

Weryfikacja zgodności dla Amazon Transcribe

Aplikacje tworzone na platformie AWS mogą podlegać programom zgodności, takim jak SOC, PCI, FedRAMP i HIPAA. AWS korzysta z zewnętrznych audytorów w celu oceny swoich usług pod kątem zgodności z różnymi programami. Artefakt AWS pozwala na pobierz raporty z audytów stron trzecich.

Aby dowiedzieć się, czy usługa AWS jest objęta konkretnymi programami zgodności, zobacz Usługi AWS w zakresie według programu zgodności. Aby uzyskać dodatkowe informacje i zasoby udostępniane przez AWS, aby pomóc klientom w przestrzeganiu przepisów, zobacz Weryfikacja zgodności dla Amazon Transcribe i Zasoby dotyczące zgodności z AWS.

Wnioski

W tym poście poznałeś różne mechanizmy bezpieczeństwa, najlepsze praktyki i wzorce architektoniczne dostępne do tworzenia bezpiecznych aplikacji za pomocą Amazon Transcribe. Możesz chronić swoje wrażliwe dane zarówno podczas przesyłania, jak i przechowywania, dzięki silnemu szyfrowaniu. Redakcja danych osobowych może zostać wykorzystana w celu umożliwienia usunięcia danych osobowych z transkrypcji, jeśli nie chcesz ich przetwarzać i przechowywać. Punkty końcowe VPC i Direct Connect umożliwiają ustanowienie prywatnej łączności pomiędzy Twoją aplikacją a usługą Amazon Transcribe. Udostępniliśmy również referencje, które pomogą Ci zweryfikować zgodność Twojej aplikacji za pomocą Amazon Transcribe z programami takimi jak SOC, PCI, FedRAMP i HIPAA.

W kolejnych krokach sprawdź Pierwsze kroki z Amazon Transcribe aby szybko rozpocząć korzystanie z usługi. Odnosić się do Dokumentacja Amazon Transcribe aby zagłębić się w szczegóły usługi. I podążaj Transkrypcja Amazona na blogu AWS Machine Learning aby być na bieżąco z nowymi możliwościami i przypadkami użycia Amazon Transcribe.


O autorze

Zdjęcie portretowe Alexa Bulatkina, architekta rozwiązań w AWS

Aleks Bułakin jest architektem rozwiązań w AWS. Lubi pomagać dostawcom usług komunikacyjnych w tworzeniu innowacyjnych rozwiązań w AWS, które na nowo definiują branżę telekomunikacyjną. Pasjonuje go praca z klientami nad wykorzystaniem mocy usług AWS AI w ich aplikacjach. Alex mieszka w obszarze metropolitalnym Denver i lubi wędrować, jeździć na nartach i snowboardzie.

Znak czasu:

Więcej z Uczenie maszynowe AWS