To jest post gościnny napisany przez Andy'ego Whittle'a, głównego inżyniera platformy — Application & Reliability Frameworks w The Very Group.
At Ta sama grupa, która obsługuje sprzedawcę cyfrowego Very, bezpieczeństwo jest najwyższym priorytetem w przetwarzaniu danych dla milionów klientów. Częścią sposobu, w jaki The Very Group zabezpiecza i śledzi operacje biznesowe, jest rejestrowanie aktywności między systemami biznesowymi (na przykład na różnych etapach zamówienia klienta). Jest to krytyczny wymóg operacyjny i umożliwia The Very Group śledzenie incydentów oraz proaktywne identyfikowanie problemów i trendów. Może to jednak oznaczać przetwarzanie danych klienta w postaci danych osobowych (PII) w związku z czynnościami takimi jak zakupy, zwroty, korzystanie z elastycznych opcji płatności i zarządzanie kontem.
W tym poście The Very Group pokazuje, jak używają Amazon Comprehend dodać kolejną warstwę zautomatyzowanej obrony oprócz zasad w celu zaprojektowania modelowania zagrożeń we wszystkich systemach, aby zapobiec wysyłaniu danych osobowych w dzienniku do Elasticsearch w celu indeksowania. Amazon Comprehend to w pełni zarządzana i stale szkolona usługa przetwarzania języka naturalnego (NLP), która może wydobywać wgląd w treść dokumentu lub tekstu.
Przegląd rozwiązania
Nadrzędnym celem zespołu inżynierów The Very Group było zapobieganie przedostawaniu się jakichkolwiek danych osobowych do dokumentów w Elasticsearch. Aby to osiągnąć i zautomatyzować usuwanie danych osobowych z milionów zidentyfikowanych rekordów dziennie, zespół inżynierów The Very Group stworzył moduł Application Observability w Terraform. Ten moduł implementuje rozwiązanie umożliwiające obserwowalność, w tym dzienniki aplikacji, monitorowanie wydajności aplikacji (APM) i metryki. W module zespół wykorzystał Amazon Comprehend do wyróżnienia danych osobowych w danych dziennika z opcją usunięcia ich przed wysłaniem do Elasticsearch.
Amazon Comprehend został zidentyfikowany jako część wewnętrznej inicjatywy inżynierii platformy mającej na celu zbadanie, w jaki sposób można wykorzystać usługi AWS AI do poprawy wydajności i zmniejszenia ryzyka w powtarzalnych działaniach biznesowych. Kultura Very Group polegająca na nauce i eksperymentowaniu oznaczała, że Amazon Comprehend został sprawdzony pod kątem możliwości zastosowania przy użyciu aplikacji Java, aby dowiedzieć się, jak działa z testowymi danymi PII. Zespół wykorzystał przykłady kodu w dokumentacji, aby przyspieszyć weryfikację koncepcji i szybko udowodnić potencjał w ciągu jednego dnia.
Zespół inżynierów opracował schemat pokazujący, w jaki sposób usługa redagowania danych osobowych może zostać zintegrowana z rejestrowaniem The Very Group. Polegało to na opracowaniu mikroserwisu do zadzwoń do Amazon Comprehend, aby wykryć dane PII. Rozwiązanie zadziałało, przekazując dane dziennika The Very Group przez działającą instancję Logstash AWS-Fargate, która czyści dane za pomocą innej usługi pii-logstash-redaction hostowanej przez Fargate, opartej na aplikacji Java Spring Boot, która wykonuje połączenia z Amazon Comprehend w celu usunięcia danych osobowych. Poniższy diagram ilustruje tę architekturę.
Rozwiązanie Very Group pobiera logi z Amazon Cloud Watch i Usługa Amazon Elastic Container Service (Amazon ECS) i przekazuje oczyszczone wersje do Elasticsearch w celu zindeksowania. Amazonka Kinesis jest używany w rozwiązaniu do przechwytywania i przechowywania dzienników przez krótkie okresy, przy czym Logstash ściąga dzienniki co kilka sekund.
Dzienniki są pozyskiwane z wielu procesów biznesowych, w tym zamówień, zwrotów i usług finansowych. Obejmują one dzienniki z ponad 200 aplikacji Amazon ECS w środowiskach testowych i produkcyjnych w Fargate, które przesyłają dzienniki do Logstash. Innym źródłem jest AWS Lambda logi, które są wciągane do Kinesis, a następnie wciągane do Logstash. Wreszcie, oddzielna samodzielna instancja Filebeat pobiera analizę logów i umieszcza je w CloudWatch, a następnie w Logstash. W rezultacie wiele źródeł dzienników jest pobieranych lub wypychanych do Logstash i przetwarzanych przez moduł Application Observability i Amazon Comprehend przed zapisaniem ich w Elasticsearch.
Oddzielny moduł Terraform zapewnia całą infrastrukturę wymaganą do uruchomienia usługi Logstash zdolnej do eksportowania logów z grup logów CloudWatch do Elasticsearch za pośrednictwem Prywatny link AWS Punkt końcowy VPC. Usługę Logstash można również zintegrować z Amazon ECS za pośrednictwem Konfiguracja dziennika Firelens, z Amazon ECS nawiązującym łączność przez an Amazon trasy 53 nagrywać. Skalowalność jest wbudowana dzięki skalowaniu Kinesis na żądanie (chociaż zespół zaczął od stałych fragmentów, ale teraz przechodzi na użycie na żądanie), a Logstash skaluje się z dodatkowymi Elastyczna chmura obliczeniowa Amazon (Amazon EC2) za równoważeniem obciążenia sieciowego ze względu na protokoły używane przez Filebeat i umożliwia firmie Logstash skuteczniejsze pobieranie dzienników z Kinesis.
Wreszcie, usługa Logstash składa się z definicji zadania zawierającej kontener Logstash i kontener redakcyjny PII, zapewniając usunięcie PII przed eksportem do Elasticsearch.
Efekt
Zespół inżynierów był w stanie zbudować i przetestować rozwiązanie w ciągu tygodnia, bez konieczności rozumienia uczenia maszynowego (ML) lub działania sztucznej inteligencji, używając Przewodnik wideo Amazon Comprehen, Dokumentacja referencyjna interfejsu API, przykładowy kod. Po tak szybkim wykazaniu wartości biznesowej właściciele produktów biznesowych zaczęli opracowywać nowe przypadki użycia, aby skorzystać z usługi. Aby umożliwić rozwiązanie, należało podjąć pewne decyzje. Chociaż zespół inżynierów platformy wiedział, że może zredagować dane, chciał przechwycić logi z bieżącego rozwiązania (oparte na dodatku Fluent Bit do przekierowywania dzienników do punktu końcowego). Zdecydowali się przyjąć Logstash, aby umożliwić przechwytywanie pól dziennika przez potoki w celu integracji z ich usługą PII (obejmującą moduł Terraform i usługę Java).
Adopcja Logstash początkowo przebiegała bezproblemowo. Zespoły inżynierów Very Group korzystają teraz z usługi bezpośrednio przez punkt końcowy API, aby umieszczać logi bezpośrednio w Elasticsearch. Umożliwiło im to przełączenie punktu końcowego z wózka bocznego na nowy punkt końcowy i wdrożenie go za pośrednictwem modułu Terraform. Jedyny problem, jaki miał zespół, dotyczył wstępnych testów, które ujawniły problem z szybkością podczas testowania przy szczytowych obciążeniach handlowych. Zostało to przezwyciężone poprzez dostosowanie kodu Java.
Poniższy kod pokazuje, jak The Very Group używa Amazon Comprehend do usuwania danych osobowych z komunikatów dziennika. Wykrywa wszelkie dane osobowe i tworzy listę typów podmiotów do zarejestrowania. Aby przyspieszyć rozwój, kod został zaczerpnięty z dokumentacji AWS i dostosowany do wykorzystania w usłudze aplikacji Java wdrożonej na Fargate.
Poniższy zrzut ekranu przedstawia dane wyjściowe wysłane do Elasticsearch w ramach procesu redagowania danych osobowych. Serwis generuje 1 milion rekordów dziennie, generując rekord za każdym razem, gdy dokonywana jest redakcja.
Komunikat dziennika jest redagowany, a pole redacted_entities zawiera listę typów jednostek znalezionych w komunikacie. W tym przypadku przykład znalazł adres URL, ale mógł zidentyfikować dowolny typ danych osobowych w dużej mierze na podstawie wbudowanych typów danych osobowych. Dodatkowy dostosowany typ PII dla numeru konta klienta został dodany za pośrednictwem Amazon Comprehend, ale jak dotąd nie był potrzebny. Zastąpienia na poziomie zespołu inżynierów są udokumentowane w GitHub, jak z nich korzystać.
Wnioski
Ten projekt umożliwił The Very Group wdrożenie szybkiego i prostego rozwiązania do redagowania wrażliwych danych osobowych w dziennikach. Zespół inżynierów dodał dodatkową elastyczność, umożliwiając zastępowanie typów jednostek, korzystając z Amazon Comprehend, aby zapewnić elastyczność redagowania danych osobowych w oparciu o potrzeby biznesowe. W przyszłości zespół inżynierów rozważa szkolenie poszczególnych podmiotów Amazon Comprehend w zakresie redagowania ciągów znaków, takich jak nasze identyfikatory klientów.
Rezultatem rozwiązania jest to, że The Very Group ma swobodę przesyłania logów bez konieczności martwienia się. Egzekwuje politykę nieprzechowywania danych osobowych w dziennikach, zmniejszając w ten sposób ryzyko i poprawiając zgodność. Co więcej, redagowane metadane są przesyłane z powrotem do firmy za pośrednictwem pulpitu nawigacyjnego Elasticsearch, umożliwiając alerty i dalsze działania.
Poświęć czas na ocenę usług AWS AI/ML, których Twoja organizacja jeszcze nie używała, i rozwijaj kulturę eksperymentowania. Proste rozpoczęcie może szybko przynieść korzyści biznesowe, co udowodniła firma The Very Group.
O autorze
Andy'ego Whittle'a jest głównym inżynierem platformy — Application & Reliability Frameworks w The Very Group, która prowadzi brytyjskiego sprzedawcę cyfrowego Very. Andy pomaga w monitorowaniu wydajności we wszystkich grupach organizacji i jest szczególnie zainteresowany monitorowaniem, obserwowalnością i wydajnością aplikacji. Odkąd dołączył do Very w 1998 roku, Andy pełnił różne role, obejmujące zarządzanie treścią i tworzeniem katalogów, zarządzanie zapasami, wsparcie produkcji, DevOps i Fusion Middleware. Od 4 lat jest częścią zespołu inżynierów platformy.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- Zdolny
- O nas
- przyśpieszyć
- Konto
- Zarządzanie kontem
- w poprzek
- Działania
- zajęcia
- działalność
- w dodatku
- Dodatkowy
- przyjąć
- Przyjęcie
- Korzyść
- AI
- Usługi AI
- AI / ML
- Wszystkie kategorie
- Pozwalać
- Chociaż
- Amazonka
- Amazon Comprehend
- Amazon EC2
- analiza
- i
- Inne
- api
- Zastosowanie
- mobilne i webowe
- architektura
- zautomatyzować
- zautomatyzowane
- AWS
- z powrotem
- na podstawie
- zanim
- za
- jest
- korzyści
- pomiędzy
- Bit
- budować
- wybudowany
- wbudowany
- biznes
- Połączenia
- zdolny
- zdobyć
- walizka
- Etui
- katalog
- kod
- spełnienie
- zrozumieć
- obliczać
- pojęcie
- Łączność
- Pojemnik
- zawiera
- zawartość
- mógłby
- pokrycie
- stworzony
- tworzy
- krytyczny
- kultura
- Aktualny
- klient
- dane klienta
- Klientów
- tablica rozdzielcza
- dane
- dzień
- postanowiła
- Decyzje
- Obrona
- dostarczyć
- Kreowanie
- wykazać
- demonstrowanie
- rozwijać
- wdrażane
- Wnętrze
- rozwijać
- rozwinięty
- rozwijanie
- oprogramowania
- cyfrowy
- bezpośrednio
- dokument
- dokumentacja
- dokumenty
- na dół
- każdy
- faktycznie
- efektywność
- umożliwiać
- Umożliwia
- umożliwiając
- Punkt końcowy
- inżynier
- Inżynieria
- zapewnienie
- podmioty
- jednostka
- środowiska
- ustanowienie
- przykład
- przykłady
- eksperyment
- wyciąg
- kilka
- pole
- Łąka
- W końcu
- budżetowy
- usługi finansowe
- ustalony
- Elastyczność
- elastyczne
- następujący
- Nasz formularz
- Sprzyjać
- znaleziono
- Ramy
- Wolność
- od
- w pełni
- dalej
- Ponadto
- fuzja
- przyszłość
- generuje
- generujący
- GitHub
- cel
- Zarządzanie
- Grupy
- Gość
- Guest Post
- Prowadzenie
- mający
- pomaga
- Atrakcja
- W jaki sposób
- How To
- Jednak
- HTML
- HTTPS
- zidentyfikowane
- zidentyfikować
- wdrożenia
- narzędzia
- podnieść
- poprawy
- in
- zawierać
- Włącznie z
- indywidualny
- Informacja
- Infrastruktura
- początkowy
- początkowo
- inicjatywa
- wgląd
- przykład
- integrować
- zintegrowany
- odsetki
- wewnętrzny
- badać
- zaangażowany
- problem
- IT
- Java
- łączący
- Etykiety
- język
- w dużej mierze
- warstwa
- prowadzić
- UCZYĆ SIĘ
- nauka
- Lista
- masa
- poszukuje
- maszyna
- uczenie maszynowe
- zrobiony
- WYKONUJE
- zarządzane
- i konserwacjami
- wiele
- wiadomość
- wiadomości
- Metadane
- Metryka
- milion
- miliony
- ML
- modelowanie
- Moduł
- monitorowanie
- jeszcze
- Naturalny
- Przetwarzanie języka naturalnego
- potrzeba
- wymagania
- Nowości
- nlp
- numer
- działa
- operacyjny
- operacje
- Option
- Opcje
- zamówienie
- organizacja
- Przezwyciężać
- zastępowanie
- właściciele
- część
- szczególny
- przebiegi
- Przechodzący
- Przeszłość
- płatność
- Szczyt
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- okresy
- Osobiście
- Platforma
- plato
- Analiza danych Platona
- PlatoDane
- polityka
- polityka
- Post
- potencjał
- zapobiec
- Główny
- Wcześniejszy
- priorytet
- prywatny
- problemy
- wygląda tak
- Obrobiony
- procesów
- przetwarzanie
- Produkt
- Produkcja
- projekt
- dowód
- dowód koncepcji
- protokoły
- okazały
- zapewniać
- zapewnia
- ciągnięcie
- Ściąga
- zakupy
- Naciskać
- popychany
- położyć
- Stawia
- Szybki
- szybko
- rekord
- dokumentacja
- przekierowanie
- zmniejszyć
- redukcja
- relacja
- niezawodność
- usuwanie
- usunąć
- usuwanie
- Zgłoszone
- zażądać
- wymagany
- wymaganie
- odpowiedź
- dalsze
- detalista
- powrót
- powraca
- Ujawnił
- recenzja
- Ryzyko
- role
- Trasa
- bieganie
- Skalowalność
- waga
- skalowaniem
- płynnie
- sekund
- Zabezpiecza
- bezpieczeństwo
- wysyłanie
- wrażliwy
- usługa
- Usługi
- Short
- Targi
- Prosty
- ponieważ
- So
- dotychczas
- rozwiązanie
- kilka
- Źródło
- Źródła
- prędkość
- wiosna
- buty sprężynowe
- etapy
- stoisko
- standalone
- rozpoczęty
- Startowy
- stany magazynowe
- sklep
- przechowywany
- proste
- taki
- wsparcie
- Przełącznik
- systemy
- Brać
- trwa
- Zadanie
- zespół
- Terraform
- test
- Testowanie
- Testy
- Połączenia
- ich
- a tym samym
- groźba
- Przez
- czas
- do
- Top
- Wyśledzić
- Handel
- przeszkolony
- Trening
- Trendy
- typy
- Uk
- zrozumieć
- URL
- Stosowanie
- posługiwać się
- wartość
- różnorodność
- przez
- Wideo
- poszukiwany
- tydzień
- który
- szeroki
- w ciągu
- bez
- pracował
- pracujący
- lat
- Twój
- zefirnet