Это гостевой пост Энди Уиттла, главного инженера по платформам — платформы приложений и надежности в The Very Group.
At Сама Группа, которая управляет цифровым ритейлером Very, безопасность является главным приоритетом при обработке данных для миллионов клиентов. Часть того, как The Very Group защищает и отслеживает бизнес-операции, заключается в регистрации активности между бизнес-системами (например, на этапах выполнения заказа клиента). Это критическое операционное требование, позволяющее The Very Group отслеживать инциденты и заранее выявлять проблемы и тенденции. Однако это может означать обработку данных клиентов в форме информации, позволяющей установить личность (PII), в отношении таких действий, как покупки, возвраты, использование гибких вариантов оплаты и управление учетной записью.
В этом посте The Very Group показывает, как они используют Amazon Comprehend чтобы добавить дополнительный уровень автоматизированной защиты поверх политик для моделирования угроз во всех системах, чтобы предотвратить отправку PII в данных журнала в Elasticsearch для индексации. Amazon Comprehend — это полностью управляемый и постоянно обучаемый сервис обработки естественного языка (NLP), который может извлекать информацию о содержании документа или текста.
Обзор решения
Главной целью команды инженеров The Very Group было предотвратить попадание любых данных PII в документы в Elasticsearch. Чтобы добиться этого и автоматизировать удаление PII из миллионов идентифицированных записей в день, команда инженеров The Very Group создала модуль наблюдения за приложениями в Terraform. Этот модуль реализует решение для наблюдения, включая журналы приложений, мониторинг производительности приложений (APM) и метрики. В модуле команда использовала Amazon Comprehend для выделения PII в данных журнала с возможностью удаления ее перед отправкой в Elasticsearch.
Amazon Comprehend был определен как часть внутренней инициативы по разработке платформы для изучения того, как можно использовать сервисы искусственного интеллекта AWS для повышения эффективности и снижения рисков в повторяющихся бизнес-операциях. Культура Very Group учиться и экспериментировать означала, что Amazon Comprehend был проверен на предмет применимости с использованием приложения Java, чтобы узнать, как он работает с тестовыми данными PII. Команда использовала примеры кода в документации, чтобы ускорить проверку концепции и быстро доказала потенциал в течение дня.
Команда инженеров разработала схему, демонстрирующую, как служба редактирования PII может интегрироваться с ведением журналов The Very Group. Это включало разработку микросервиса для вызов Amazon Comprehend для обнаружения данных PII. Решение работало путем передачи данных журнала The Very Group через экземпляр Logstash, работающий на АМС Фаргейт, который очищает данные с помощью другого сервиса pii-logstash-redaction, размещенного на Fargate, на основе Java-приложения Spring Boot, которое вызывает Amazon Comprehend для удаления PII. Следующая диаграмма иллюстрирует эту архитектуру.
Решение The Very Group берет журналы из Amazon CloudWatch и Amazon Elastic Контейнерный Сервис (Amazon ECS) и передает очищенные версии в Elasticsearch для индексации. Амазонка Кинезис используется в решении для захвата и хранения журналов в течение коротких периодов времени, при этом Logstash извлекает журналы каждые несколько секунд.
Журналы используются во многих бизнес-процессах, включая заказы, возвраты и финансовые услуги. Они включают журналы из более чем 200 приложений Amazon ECS в тестовых и рабочих средах в Fargate, которые передают журналы в Logstash. Другой источник AWS Lambda журналы, которые загружаются в Kinesis, а затем загружаются в Logstash. Наконец, отдельный автономный экземпляр Filebeat выполняет анализ журналов и помещает их в CloudWatch, а затем в Logstash. В результате многие источники журналов извлекаются или помещаются в Logstash и обрабатываются модулем Application Observability и Amazon Comprehend перед сохранением в Elasticsearch.
Отдельный модуль Terraform предоставляет всю инфраструктуру, необходимую для запуска службы Logstash, способной экспортировать журналы из групп журналов CloudWatch в Elasticsearch через Приватная ссылка AWS Конечная точка VPC. Сервис Logstash также можно интегрировать с Amazon ECS через конфигурация журнала FireLens, при этом Amazon ECS устанавливает подключение через Amazon Route 53 записывать. Масштабируемость встроена в масштабирование Kinesis по запросу (хотя команда начала с фиксированных сегментов, но теперь перешла на использование по запросу), а Logstash расширяется за счет дополнительных Эластичное вычислительное облако Amazon (Amazon EC2) за NLB из-за протоколов, используемых Filebeat, и позволяет Logstash более эффективно извлекать журналы из Kinesis.
Наконец, служба Logstash состоит из определения задачи, содержащего контейнер Logstash и контейнер редактирования PII, что обеспечивает удаление PII перед экспортом в Elasticsearch.
Итоги
Команда инженеров смогла создать и протестировать решение в течение недели, не разбираясь в машинном обучении (ML) или работе ИИ, используя Видеоруководство по Amazon Comprehend, Справочная документация по APIкачества пример кода. Так быстро продемонстрировав ценность для бизнеса, владельцы бизнес-продуктов начали разрабатывать новые варианты использования, чтобы воспользоваться преимуществами этой услуги. Необходимо было принять некоторые решения, чтобы разрешить решение. Хотя команда инженеров платформы знала, что они могут редактировать данные, они хотели перехватить журналы из текущего решения (на основе вспомогательного модуля Fluent Bit для перенаправления журналов на конечную точку). Они решили внедрить Logstash, чтобы обеспечить перехват полей журнала через конвейеры для интеграции со своей службой PII (включающей модуль Terraform и службу Java).
Принятие Logstash изначально было сделано без проблем. Инженерные группы Very Group теперь используют сервис напрямую через конечную точку API, чтобы помещать журналы прямо в Elasticsearch. Это позволило им переключить свою конечную точку с sidecar на новую конечную точку и развернуть ее через модуль Terraform. Единственная проблема, с которой столкнулась команда, связана с первоначальными тестами, которые выявили проблему со скоростью при тестировании с пиковыми торговыми нагрузками. Это было преодолено путем корректировки кода Java.
В следующем коде показано, как The Very Group использует Amazon Comprehend для удаления PII из сообщений журнала. Он обнаруживает любую личную информацию и создает список типов объектов для записи. Для ускорения разработки код был взят из документации AWS и адаптирован для использования в сервисе приложений Java, развернутом на Fargate.
На следующем снимке экрана показаны выходные данные, отправленные в Elasticsearch в рамках процесса редактирования PII. Служба генерирует 1 миллион записей в день, создавая запись каждый раз, когда делается редактирование.
Сообщение журнала отредактировано, а поле redacted_entities содержит список типов сущностей, найденных в сообщении. В этом случае пример нашел URL-адрес, но он мог идентифицировать любой тип данных PII, в основном на основе встроенных типов PII. Через Amazon Comprehend был добавлен дополнительный индивидуальный тип PII для номера учетной записи клиента, но пока он не нужен. Переопределения на уровне инженерных отрядов задокументированы на GitHub с описанием того, как их использовать.
Заключение
Этот проект позволил The Very Group реализовать быстрое и простое решение для редактирования конфиденциальных персональных данных в журналах. Команда инженеров добавила дополнительную гибкость, позволив переопределять типы объектов, используя Amazon Comprehend, чтобы обеспечить гибкость редактирования PII в соответствии с потребностями бизнеса. В будущем группа инженеров изучает возможность обучения отдельных объектов Amazon Comprehend редактированию таких строк, как наши идентификаторы клиентов.
Результатом решения является то, что The Very Group может свободно отправлять журналы, не беспокоясь. Он применяет политику отказа от хранения PII в журналах, тем самым снижая риск и улучшая соответствие требованиям. Кроме того, редактируемые метаданные передаются бизнесу через информационную панель Elasticsearch, что позволяет получать оповещения и предпринимать дальнейшие действия.
Выделите время для оценки сервисов AWS AI/ML, которые ваша организация еще не использовала, и создайте культуру экспериментов. Начав с простого, можно быстро получить выгоду для бизнеса, как доказала The Very Group.
Об авторе
Энди Уиттл является главным инженером по платформам — платформам приложений и надежности в The Very Group, которая управляет британским цифровым ритейлером Very. Энди помогает проводить мониторинг производительности в разных подразделениях организации и проявляет особый интерес к мониторингу приложений, наблюдаемости и производительности. С момента прихода в Very в 1998 году Энди выполнял самые разные функции, включая управление контентом и производство каталогов, управление запасами, поддержку производства, DevOps и ПО промежуточного слоя Fusion. Последние 4 года он был частью команды разработчиков платформы.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- в состоянии
- О нас
- ускорять
- Учетная запись
- управление счетами
- через
- Действие
- активно
- деятельность
- добавленный
- дополнительный
- принять
- Принятие
- плюс
- AI
- Услуги искусственного интеллекта
- AI / ML
- Все
- Позволяющий
- Несмотря на то, что
- Amazon
- Amazon Comprehend
- Amazon EC2
- анализ
- и
- Другой
- API
- Применение
- Программы
- архитектура
- автоматизировать
- Автоматизированный
- AWS
- назад
- основанный
- до
- за
- не являетесь
- польза
- между
- Немного
- строить
- построенный
- встроенный
- бизнес
- Объявления
- способный
- захватить
- случаев
- случаев
- каталог
- код
- Соответствие закону
- постигать
- Вычисление
- сама концепция
- связь
- Container
- содержит
- содержание
- может
- покрытие
- создали
- создает
- критической
- Культура
- Текущий
- клиент
- данные клиентов
- Клиенты
- приборная панель
- данным
- день
- решенный
- решения
- Защита
- доставить
- Спрос
- убивают
- демонстрирующий
- развертывание
- развернуть
- Проект
- развивать
- развитый
- развивающийся
- Развитие
- Интернет
- непосредственно
- документ
- документации
- Документация
- вниз
- каждый
- фактически
- затрат
- включить
- позволяет
- позволяет
- Конечная точка
- инженер
- Проект и
- обеспечение
- лиц
- организация
- средах
- налаживание
- пример
- Примеры
- эксперимент
- извлечение
- несколько
- поле
- Поля
- в заключение
- финансовый
- финансовые услуги
- фиксированной
- Трансформируемость
- гибкого
- после
- форма
- Способствовать
- найденный
- каркасы
- Freedom
- от
- полностью
- далее
- Более того
- слияние
- будущее
- генерирует
- порождающий
- GitHub
- цель
- группы
- Группы
- GUEST
- Guest Post
- Управляемость
- имеющий
- помогает
- Выделите
- Как
- How To
- Однако
- HTML
- HTTPS
- идентифицированный
- определения
- осуществлять
- инвентарь
- улучшать
- улучшение
- in
- включают
- В том числе
- individual
- информация
- Инфраструктура
- начальный
- первоначально
- Инициатива
- понимание
- пример
- интегрировать
- интегрированный
- интерес
- в нашей внутренней среде,
- исследовать
- вовлеченный
- вопрос
- IT
- Java
- присоединение
- Этикетки
- язык
- в значительной степени
- слой
- вести
- УЧИТЬСЯ
- изучение
- Список
- грузы
- искать
- машина
- обучение с помощью машины
- сделанный
- ДЕЛАЕТ
- управляемого
- управление
- многих
- сообщение
- Сообщения
- Метаданные
- Метрика
- миллиона
- миллионы
- ML
- моделирование
- Модули
- Мониторинг
- БОЛЕЕ
- натуральный
- Обработка естественного языка
- нуждающихся
- потребности
- Новые
- НЛП
- номер
- работает
- операционный
- Операционный отдел
- Опция
- Опции
- заказ
- организация
- Преодолеть
- переопределение
- Владельцы
- часть
- особый
- проходит
- Прохождение
- мимо
- оплата
- Вершина горы
- производительность
- периодов
- Лично
- Платформа
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- сборах
- политика
- После
- потенциал
- предотвращать
- Основной
- Предварительный
- приоритет
- частная
- проблемам
- процесс
- Обработанный
- Процессы
- обработка
- Продукт
- Производство
- Проект
- доказательство
- доказательство концепции
- протоколы
- доказанный
- обеспечивать
- приводит
- тянущий
- Тянет
- Покупка
- Push
- толкнул
- положил
- Оферты
- САЙТ
- быстро
- запись
- учет
- переориентировать
- уменьшить
- снижение
- связь
- надежность
- удаление
- удаление
- удаление
- Сообщается
- запросить
- обязательный
- требование
- ответ
- результат
- розничный торговец
- возвращают
- Возвращает
- Показали
- отзывы
- Снижение
- роли
- дорога
- Бег
- Масштабируемость
- Весы
- масштабирование
- легко
- секунды
- Защищает
- безопасность
- отправка
- чувствительный
- обслуживание
- Услуги
- Короткое
- Шоу
- просто
- с
- So
- уже
- Решение
- некоторые
- Источник
- Источники
- скорость
- весна
- весенний ботинок
- этапы
- стоять
- автономные
- и политические лидеры
- Начало
- акции
- магазин
- хранить
- прямой
- такие
- поддержка
- Коммутатор
- системы
- взять
- принимает
- Сложность задачи
- команда
- Terraform
- тестXNUMX
- Тестирование
- тестов
- Ассоциация
- их
- тем самым
- угроза
- Через
- время
- в
- топ
- Прослеживать
- Торговля
- специалистов
- Обучение
- Тенденции
- Типы
- Uk
- понимать
- URL
- Применение
- использование
- ценностное
- разнообразие
- с помощью
- Видео
- стремятся
- неделя
- который
- широкий
- в
- без
- работавший
- работает
- лет
- ВАШЕ
- зефирнет