Це гостьовий допис від Енді Уіттла, головного інженера платформ – Application & Reliability Frameworks у The Very Group.
At Сама група, яка управляє роздрібним магазином цифрових товарів Very, безпека є головним пріоритетом у обробці даних для мільйонів клієнтів. The Very Group захищає та відстежує бізнес-операції за допомогою журналювання активності між бізнес-системами (наприклад, на етапах замовлення клієнта). Це критично важлива робоча вимога, яка дозволяє The Very Group відстежувати інциденти та завчасно визначати проблеми та тенденції. Однак це може означати обробку даних клієнтів у формі персональної інформації (PII) щодо таких дій, як покупки, повернення, використання гнучких варіантів оплати та керування обліковим записом.
У цій публікації The Very Group показує, як вони використовують «Амазонка» щоб додати ще один рівень автоматизованого захисту на додаток до політик, щоб розробити моделювання загроз у всіх системах, щоб запобігти надсиланню ідентифікаційної інформації в даних журналу до Elasticsearch для індексації. Amazon Comprehend — це повністю керована служба обробки природної мови (NLP), яка постійно навчається, і яка може отримати інформацію про вміст документа або тексту.
Огляд рішення
Головною метою команди інженерів The Very Group було запобігти потраплянню будь-яких ідентифікаційних даних у документи в Elasticsearch. Щоб досягти цього та автоматизувати видалення ідентифікаційної інформації з мільйонів ідентифікованих записів на день, команда інженерів The Very Group створила модуль Application Observability у Terraform. Цей модуль реалізує рішення для спостереження, включаючи журнали додатків, моніторинг продуктивності додатків (APM) і показники. У рамках модуля команда використовувала Amazon Comprehend, щоб виділяти ідентифікаційну інформацію в даних журналу з можливістю її видалення перед надсиланням до Elasticsearch.
Amazon Comprehend було визначено як частину внутрішньої ініціативи з розробки платформи, щоб дослідити, як можна використовувати служби штучного інтелекту AWS для підвищення ефективності та зниження ризиків у повторюваних бізнес-діяльності. Культура Very Group, спрямована на навчання та експериментування, означала, що Amazon Comprehend перевірили на застосовність за допомогою програми Java, щоб дізнатися, як вона працює з тестовими даними ідентифікаційної інформації. Команда використовувала приклади коду в документації, щоб пришвидшити підтвердження концепції та швидко довела потенціал протягом дня.
Команда інженерів розробила схему, яка демонструє, як служба редагування ідентифікаційної інформації може інтегруватися з журналом The Very Group. Він передбачав розробку мікросервісу для зателефонуйте Amazon Comprehend, щоб виявити ідентифікаційну інформацію. Рішення спрацювало шляхом передачі даних журналу The Very Group через запущений екземпляр Logstash AWS Fargate, який очищає дані за допомогою іншої служби pii-logstash-redaction, розміщеної у Fargate, на основі Java-додатку Spring Boot, який здійснює виклики Amazon Comprehend для видалення ідентифікаційної інформації. Наступна діаграма ілюструє цю архітектуру.
Рішення Very Group бере журнали з Amazon CloudWatch та Служба еластичних контейнерів Amazon (Amazon ECS) і передає очищені версії до Elasticsearch для індексування. Амазонський кінезіс використовується в рішенні для захоплення та зберігання журналів протягом коротких періодів, при цьому Logstash знімає журнали кожні кілька секунд.
Журнали збираються для багатьох бізнес-процесів, включаючи замовлення, повернення та фінансові послуги. Вони містять журнали з понад 200 додатків Amazon ECS у тестових і виробничих середовищах у Fargate, які надсилають журнали в Logstash. Ще одне джерело AWS Lambda журнали, які завантажуються в Kinesis, а потім затягуються в Logstash. Нарешті, окремий автономний екземпляр Filebeat збирає аналіз журналів і поміщає їх у CloudWatch, а потім у Logstash. Результатом є те, що багато джерел журналів завантажуються або надсилаються в Logstash і обробляються модулем Application Observability та Amazon Comprehend перед тим, як зберігатися в Elasticsearch.
Окремий модуль Terraform забезпечує всю інфраструктуру, необхідну для роботи служби Logstash, здатної експортувати журнали з груп журналів CloudWatch до Elasticsearch через AWS PrivateLink Кінцева точка VPC. Сервіс Logstash також можна інтегрувати з Amazon ECS через a налаштування журналу Firelens, а Amazon ECS встановлює з’єднання через an Амазонський маршрут 53 запис. Масштабованість вбудована завдяки масштабуванню Kinesis за вимогою (хоча команда починала з фіксованих сегментів, але тепер переходить на використання за вимогою), а Logstash масштабується за допомогою додаткових Обчислювальна хмара Amazon Elastic (Amazon EC2) екземплярів за NLB завдяки протоколам, які використовує Filebeat, і дозволяє Logstash ефективніше отримувати журнали з Kinesis.
Нарешті, служба Logstash складається з визначення завдання, що містить контейнер Logstash і контейнер редагування ідентифікаційної інформації, що забезпечує видалення ідентифікаційної інформації перед експортом до Elasticsearch.
результати
Команда інженерів змогла створити та протестувати рішення протягом тижня, не потребуючи розуміння машинного навчання (ML) або роботи ШІ, використовуючи Відеоінструкції Amazon Comprehend, Довідкова документація API та приклад коду. Так швидко продемонструвавши бізнес-цінність, власники бізнес-продуктів почали розробляти нові сценарії використання, щоб скористатися послугою. Потрібно було прийняти деякі рішення, щоб увімкнути рішення. Хоча команда розробників платформи знала, що може редагувати дані, вони хотіли перехопити журнали з поточного рішення (на основі Fluent Bit sidecar для перенаправлення журналів до кінцевої точки). Вони вирішили прийняти Logstash, щоб увімкнути перехоплення полів журналу через конвеєри для інтеграції зі своїм сервісом ідентифікаційної інформації (включаючи модуль Terraform і сервіс Java).
Прийняття Logstash спочатку пройшло без проблем. Інженерні команди Very Group тепер використовують службу безпосередньо через кінцеву точку API, щоб вводити журнали прямо в Elasticsearch. Це дозволило їм перемкнути свою кінцеву точку з коляски на нову кінцеву точку та розгорнути її через модуль Terraform. Єдина проблема, яка виникла у команди, пов’язана з початковими тестами, які виявили проблему зі швидкістю під час тестування з піковим торговим навантаженням. Це було подолано шляхом коригування коду Java.
У наступному коді показано, як The Very Group використовує Amazon Comprehend для видалення ідентифікаційної інформації з повідомлень журналу. Він виявляє будь-яку ідентифікаційну інформацію та створює список типів об’єктів для запису. Щоб прискорити розробку, код було взято з документації AWS і адаптовано для використання в службі додатків Java, розгорнутій на Fargate.
На наступному знімку екрана показано вихідні дані, надіслані в Elasticsearch як частину процесу редагування ідентифікаційної інформації. Сервіс генерує 1 мільйон записів на день, генеруючи запис кожного разу, коли виконується редагування.
Повідомлення журналу редагується, а поле redacted_entities містить список типів об’єктів, знайдених у повідомленні. У цьому випадку приклад знайшов URL-адресу, але він міг ідентифікувати будь-який тип ідентифікаційної інформації, здебільшого на основі вбудованих типів ідентифікаційної інформації. Через Amazon Comprehend було додано додатковий спеціальний тип ідентифікаційної інформації для номера облікового запису клієнта, але поки що він не був потрібний. Перевизначення на рівні інженерного загону задокументовано на GitHub про те, як їх використовувати.
Висновок
Цей проект дозволив The Very Group реалізувати швидке та просте рішення для редагування конфіденційної ідентифікаційної інформації в журналах. Команда інженерів додала додаткові можливості для заміни типів об’єктів, використовуючи Amazon Comprehend, щоб забезпечити гнучкість редагування ідентифікаційної інформації відповідно до бізнес-потреб. У майбутньому команда інженерів планує навчити окремих суб’єктів Amazon Comprehend редагувати рядки, наприклад наші ідентифікатори клієнтів.
Результатом цього рішення є те, що The Very Group має свободу переглядати журнали, не хвилюючись. Він реалізує політику, згідно з якою ідентифікаційна інформація не зберігається в журналах, тим самим зменшуючи ризик і покращуючи відповідність. Крім того, метадані, які редагуються, надсилаються компанії через інформаційну панель Elasticsearch, що дозволяє сповіщати та виконувати подальші дії.
Знайдіть час, щоб оцінити сервіси AWS AI/ML, якими ваша організація ще не користувалася, і розвивайте культуру експериментів. Почати з простого можна швидко принести користь бізнесу, як це довела The Very Group.
Про автора
Енді Віттл є головним інженером платформ – Application & Reliability Frameworks у The Very Group, яка керує британським роздрібним магазином цифрових товарів Very. Енді допомагає здійснювати моніторинг продуктивності в усіх групах організації та особливо зацікавлений у моніторингу додатків, спостережливості та продуктивності. З моменту приєднання до компанії Very у 1998 році Енді виконував різноманітні функції, включаючи керування контентом і виробництво каталогів, управління запасами, підтримку виробництва, DevOps і Fusion Middleware. Протягом останніх 4 років він був частиною команди інженерів платформи.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- Здатний
- МЕНЮ
- прискорювати
- рахунки
- управління рахунками
- через
- дію
- діяльності
- діяльність
- доданий
- Додатковий
- прийняти
- Прийняття
- Перевага
- AI
- Послуги ШІ
- AI / ML
- ВСІ
- Дозволити
- хоча
- Amazon
- «Амазонка»
- Amazon EC2
- аналіз
- та
- Інший
- API
- додаток
- додатка
- архітектура
- автоматизувати
- Автоматизований
- AWS
- назад
- заснований
- перед тим
- за
- буття
- користь
- між
- Біт
- будувати
- побудований
- вбудований
- бізнес
- Виклики
- здатний
- захоплення
- випадок
- випадків
- каталог
- код
- дотримання
- осягнути
- обчислення
- концепція
- зв'язок
- Контейнер
- містить
- зміст
- може
- покриття
- створений
- створює
- критичний
- культура
- Поточний
- клієнт
- дані про клієнтів
- Клієнти
- приладова панель
- дані
- день
- вирішене
- рішення
- оборони
- доставляти
- Попит
- продемонстрований
- демонстрація
- розгортання
- розгорнути
- дизайн
- розвивати
- розвиненою
- розвивається
- розробка
- цифровий
- безпосередньо
- документ
- документація
- документація
- вниз
- кожен
- фактично
- ефективність
- включіть
- дозволяє
- дозволяє
- Кінцева точка
- інженер
- Машинобудування
- забезпечення
- юридичні особи
- суб'єкта
- середовищах
- налагодження
- приклад
- Приклади
- експеримент
- витяг
- кілька
- поле
- Поля
- в кінці кінців
- фінансовий
- фінансові послуги
- фіксованою
- Гнучкість
- гнучкий
- після
- форма
- Сприяти
- знайдений
- каркаси
- Freedom
- від
- повністю
- далі
- Крім того
- злиття
- майбутнє
- генерує
- породжує
- GitHub
- мета
- Group
- Групи
- гість
- Guest Post
- Обробка
- має
- допомагає
- Виділіть
- Як
- How To
- Однак
- HTML
- HTTPS
- ідентифікований
- ідентифікувати
- здійснювати
- implements
- удосконалювати
- поліпшення
- in
- включати
- У тому числі
- індивідуальний
- інформація
- Інфраструктура
- початковий
- спочатку
- Ініціатива
- розуміння
- екземпляр
- інтегрувати
- інтегрований
- інтерес
- внутрішній
- дослідити
- залучений
- питання
- IT
- Java
- приєднання
- етикетки
- мова
- в значній мірі
- шар
- вести
- УЧИТЬСЯ
- вивчення
- список
- вантажі
- шукати
- машина
- навчання за допомогою машини
- made
- РОБОТИ
- вдалося
- управління
- багато
- повідомлення
- повідомлення
- метадані
- Метрика
- мільйона
- мільйони
- ML
- моделювання
- Модулі
- моніторинг
- більше
- Природний
- Обробка природних мов
- нужденних
- потреби
- Нові
- nlp
- номер
- працює
- операційний
- операції
- варіант
- Опції
- порядок
- організація
- Подолати
- переважаючий
- Власники
- частина
- приватність
- проходить
- Проходження
- Минуле
- оплата
- Peak
- продуктивність
- періодів
- Особисто
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- Політика
- політика
- пошта
- потенціал
- запобігати
- Головний
- попередній
- пріоритет
- приватний
- проблеми
- процес
- Оброблено
- процеси
- обробка
- Product
- Production
- проект
- доказ
- доказ концепції
- протоколи
- доведений
- забезпечувати
- забезпечує
- тягне
- Тягне
- Купівля
- Штовхати
- штовхнув
- put
- Ставить
- Швидко
- швидко
- запис
- облік
- переадресовувати
- зменшити
- зниження
- зв'язок
- надійність
- видалення
- видаляти
- видалення
- Повідомляється
- запросити
- вимагається
- вимога
- відповідь
- результат
- роздрібний продавець
- повертати
- Умови повернення
- Показали
- відгуки
- Risk
- ролі
- Маршрут
- біг
- масштабованість
- ваги
- Масштабування
- плавно
- seconds
- Захищає
- безпеку
- відправка
- чутливий
- обслуговування
- Послуги
- Короткий
- Шоу
- простий
- з
- So
- так далеко
- рішення
- деякі
- Source
- Джерела
- швидкість
- весна
- весняний черевик
- етапи
- стояти
- автономні
- почалася
- Починаючи
- акції
- зберігати
- зберігати
- прямий
- такі
- підтримка
- перемикач
- Systems
- Приймати
- приймає
- Завдання
- команда
- Terraform
- тест
- Тестування
- Тести
- Команда
- їх
- тим самим
- загроза
- через
- час
- до
- топ
- Трасування
- торгові площі
- навчений
- Навчання
- Тенденції
- Типи
- Uk
- розуміти
- URL
- Використання
- використання
- значення
- різноманітність
- через
- Відео
- хотів
- week
- який
- широкий
- в
- без
- працював
- робочий
- років
- вашу
- зефірнет