Базовий захист даних для прискорення корпоративного LLM за допомогою Protopia AI | Веб-сервіси Amazon

Базовий захист даних для прискорення корпоративного LLM за допомогою Protopia AI | Веб-сервіси Amazon

Ця публікація написана у співпраці з Баладжі Чандрасекараном, Дженніфер Квагенберг, Ендрю Сансомом і Ейманом Ебрахімі з Protopia AI.

Нові та потужні великі мовні моделі (LLM) швидко змінюють бізнес, підвищуючи ефективність і ефективність для різноманітних корпоративних випадків використання. Швидкість має суттєве значення, і впровадження технологій LLM може створити або порушити конкурентну перевагу бізнесу. AWS особливо добре підходить для надання підприємствам інструментів, необхідних для масштабного розгортання LLM для прийняття критичних рішень.

Упроваджуючи генеративну технологію штучного інтелекту, підприємства мають серйозні занепокоєння щодо доступу до даних і права власності на конфіденційну інформацію, яка може бути надіслана до LLM. Ці проблеми конфіденційності та захисту даних можуть уповільнити або обмежити використання LLM в організаціях. Підприємствам потрібен відповідальний і безпечніший спосіб надсилання конфіденційної інформації до моделей без потреби брати на себе часто непомірно високі накладні витрати на локальні DevOps.

У дописі описано, як ви можете подолати проблеми, пов’язані зі збереженням права власності на дані та збереженням конфіденційності даних під час використання LLM, розгорнувши Stained Glass Transform Protopia AI для захисту ваших даних. Протопія А.І співпрацює з AWS, щоб надати важливий компонент захисту даних і власності для безпечного й ефективного впровадження генеративного штучного інтелекту на підприємствах. У цій публікації описано рішення та продемонстровано, як його можна використовувати в AWS для популярних корпоративних випадків використання, як-от Доповнена генерація пошуку (RAG) і з найсучаснішими LLMs, як полум'я 2.

Огляд трансформації вітража

Організації прагнуть зберегти повну власність і контроль над конфіденційними корпоративними даними. Це основа відповідального штучного інтелекту та нові вимоги щодо захисту даних і конфіденційності, які перевищують базову безпеку та юридичні гарантії постачальників LLM.

Хоча бізнес-підрозділи підприємства хочуть використовувати LLM для різних завдань, вони також стурбовані комерційною таємницею, інтелектуальною власністю та іншою конфіденційною інформацією, яка просочується через дані, надіслані до цих моделей. У той же час відділи безпеки підприємства, відповідності, управління даними та інформаційні офіси побоюються розкриття або витоку інформації про клієнтів або інших регламентованих даних за межі підприємства. AWS і Protopia AI співпрацюють, щоб надати критично важливий компонент, який вирішить цю загальну потребу корпоративних клієнтів.

Технологія Stained Glass Transform (SGT) Protopia AI вирішує ці проблеми, перетворюючи незахищені корпоративні дані в рандомізоване повторне представлення, яке називається даними RmoRed, як показано на малюнку нижче. Це представлення є стохастичним вбудовуванням вихідних даних, зберігаючи інформацію, необхідну для функціонування цільового LLM, без надання конфіденційних підказок чи запитів, контексту чи даних тонкого налаштування. Це повторне представлення є одностороннім перетворенням, яке неможливо скасувати, забезпечуючи цілісну конфіденційність корпоративних даних і захист від витоку конфіденційної інформації простого тексту до LLM. Застосовність SGT не обмежується мовними моделями. Рандомізовані повторні представлення також можуть бути згенеровані для візуальних і структурованих даних. Назва Stained Glass Transform походить від візуального вигляду рандомізованих повторних представлень візуальних даних, які можуть нагадувати перегляд даних через вітраж, як показано в цьому Випадок використання ВМС США.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

SGT працює з найсучаснішими LLM, такими як Llama 2. На наступному малюнку показано приклад застосування SGT до моделі Llama 2 для виконання інструкцій із додаванням рівня захисту до інструкцій і контексту. У лівій частині малюнка показано приклад фінансового документа як контексту з інструкцією, яка пропонує моделі підсумувати документ. У нижньому лівому куті показано відповідь, згенеровану Llama 2 під час роботи з необробленим запитом. Під час використання SGT вбудовування, пов’язані з цим запитом, перетворюються на стороні клієнта в стохастичні вбудовування, як описано більш детально далі в цій публікації. Праворуч унизу показано, що Llama 2 все ще може генерувати правильну відповідь, якщо дані RmoRed (вбудовування після трансформації) надсилаються замість незахищених вбудовувань. Праворуч угорі показано, що в разі витоку даних RmoRed реконструкція оригінального запиту призведе до незрозумілого тексту.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Щоб створити SGT для певної моделі, наприклад Llama 2, Protopia AI надає легку бібліотеку під назвою Stained Glass SDK, яка є розширенням PyTorch. Як показано на малюнку нижче, після створення SGT його можна інтегрувати в конвеєри розгортання кількома способами. Перетворення, створене за допомогою SDK, можна розгорнути локально, у гібридній установці або повністю в хмарі. Це можливо тому, що SGT розроблений як легкий процес, який потребує дуже мало обчислювальних ресурсів і як такий має мінімальний вплив на критичний шлях висновку. Ще одним ключовим критерієм оцінки є збереження точності моделі з використанням повторно представлених даних. Ми спостерігаємо, що в різних типах даних і варіаціях моделі точність зберігається в межах бажаних допустимих меж при використанні повторно представлених даних.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ці варіанти розгортання та підтримки точності дозволяють впевнено прийняти SGT усіма зацікавленими сторонами в організації підприємства. Щоб додатково захистити вихідні дані LLM, Protopia AI може кодувати вихідні дані запитів у представлення, декодер якого доступний лише власнику корпоративних даних.

Огляд рішення

У попередньому розділі описано, як можна використовувати Stained Glass Transform у різноманітних архітектурах. На наступному малюнку описано етапи створення, розгортання та використання SGT для LLM:

  • Створення SGT – команда, яка навчає базову базову модель LLM (постачальники власних LLM, постачальники хмарних послуг або корпоративні команди ML, які створюють власні LLM), використовує програмне забезпечення Protopia AI Stained Glass SDK, не змінюючи існуючі практики навчання та розгортання LLM. Після завершення навчання базової моделі SDK запускається як передача оптимізації над мовною моделлю для обчислення SGT. Цей перехід оптимізації надається через розширення PyTorch. SDK обгортає базову модель і математично виявляє унікальне перетворення вітражу для цього LLM. Додаткові відомості про основну математику можна знайти в супровідний білий документ. Зауважте, що оскільки команда, яка навчає LLM, також використовує SDK Stained Glass, для виконання цього кроку не потрібно розкривати чи надсилати вагові дані моделі.
  • Випуск і розгортання SGT – SGT, виведений на попередньому етапі оптимізації, розгортається як частина конвеєра даних, який подає навченого LLM. Як описано в попередньому розділі, SGT знаходиться на стороні корпоративного клієнта.
  • Використання SGT – SGT працює за підказками, створеними підприємством, і генерує захищені підказки, які надсилаються розгорнутому LLM. Це дозволяє підприємству зберігати право власності на конфіденційні запити та контекст. Використовуючи Protopia AI Stained Glass, незахищені конфіденційні дані не залишають сайт підприємства або зону довіри.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ви можете використовувати SDK Stained Glass для створення SGT різними способами. Наприклад, Stained Glass SDK можна використовувати в середовищах із самокерованим машинним навчанням (ML) із Послуга Amazon Elastic Kubernetes (Amazon EKS) для навчання та висновків або всередині Обчислювальна хмара Amazon Elastic (Amazon EC2) безпосередньо. Інший варіант – він може працювати всередині Amazon SageMaker створити SGT для даної навченої моделі. Перетворення вхідних даних для розгортання під час висновку від клієнта не залежить від вибраної реалізації розгортання.

На наступному малюнку показано можливе впровадження в самокероване середовище машинного навчання, де навчання трансформації вітражу виконується на Amazon EKS.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

У цьому робочому процесі контейнер створюється за допомогою SDK Stained Glass і розгортається Реєстр контейнерів Amazon Elastic (Amazon ECR). Потім цей контейнер розгортається на Amazon EKS для навчання SGT, у якому зберігається Служба простого зберігання Amazon (Amazon S3). Якщо ви використовуєте Amazon EC2, ви можете навчити трансформацію безпосередньо на своєму екземплярі як частину налаштування ML. Stained Glass SDK може працювати на різноманітних типах екземплярів, у тому числі сімейств екземплярів Amazon P5, P4 або G5, залежно від ваших базових вимог LLM. Після розгортання LLM для використання для висновків клієнтська програма використовує створений SGT, який є легкою операцією, для перетворення підказок і контексту перед надсиланням їх до LLM. Таким чином LLM відкриває лише перетворені дані, а право власності на вихідні дані зберігається на стороні клієнта.

На наступному малюнку показано, як можна навчити трансформацію та запустити логічний висновок у SageMaker.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Створення SGT відбувається за подібним шляхом, як і налаштування Amazon EKS, шляхом прийому даних навчання з Amazon S3, навчання SGT у контейнері та збереження його в Amazon S3. Ви можете використовувати пакет SDK Stained Glass у наявній установці SageMaker Студія Amazon SageMaker, Зошити SageMaker, А в Навчальна робота SageMaker. LLM розміщується як кінцева точка SageMaker, до якої доступна клієнтська програма. Висновки для клієнтської програми також ідентичні налаштуванням Amazon EKS, за винятком того, що обслуговує модель.

Рандомізоване повторне представлення для захисту підказок LLM і точного налаштування даних

Цей розділ охоплює різноманітні випадки використання, демонструючи, як рандомізоване повторне представлення захищає підказки LLM. Приклади ілюструють основні наслідки для корпоративних зусиль генеративного штучного інтелекту: відкриття нових дверей для випадків використання штучного інтелекту, прискорення виходу на ринок із належним захистом корпоративних даних і збереження права власності на конфіденційні дані, необхідні для використання в підказках LLM.

Випадок використання RAG

Популярним прикладом корпоративного використання LLM є Retrieval Augmented Generation (RAG). На наступному малюнку показано ілюстративний приклад, коли підказки та джерела захищено за допомогою вітражу. Ліва частина малюнка показує незахищені підказки та вихідну інформацію. У корпоративній реалізації RAG джерела можуть включати конфіденційну інформацію, таку як комерційна таємниця підприємства, інтелектуальна власність або фінансова інформація. Права сторона показує найкращу можливу реконструкцію в зрозумілому для людини тексті з підказок RmoRed, створених SGT.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ми бачимо, що навіть у найкращій реконструкції інформація повністю заплутана. Однак відповідь від моделі з перетворенням і без нього однакова, з покажчиками на оригінальні вихідні документи, таким чином зберігаючи точність як питання, так і вихідних документів під час виконання цього популярного корпоративного випадку використання.

Широка застосовність для LLM та мов

Однією з основних переваг SDK Stained Glass є те, що він дуже стійкий до вдосконалення моделей і адаптується до найсучасніших моделей, таких як полум'я 2. На наступному малюнку показано SGT, створений на Llama 2 LLM, попередньо налаштований для роботи з японським текстом. Цей приклад додатково ілюструє, що SGT можна створювати та застосовувати для будь-якої мови та що навіть вхідні дані для точно налаштованих моделей можна трансформувати. Загальна застосовність SGT зумовлена ​​міцною основою SDK Stained Glass, яка не залежить від моделей і даних.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Захист даних точного налаштування, а також підказок

Stained Glass Transform не обмежується лише захистом даних під час визначення; він також може захистити дані, які використовуються для точного налаштування базової моделі. Процес створення перетворення для точного налаштування наборів даних такий самий, як описано в розділі про архітектуру рішення раніше в цій публікації. Перетворення створюється для точного налаштування базової моделі без доступу до даних точного налаштування. Після того як SGT було створено та навчено для базової моделі, набір даних тонкого налаштування перетворюється на рандомізовані повторні представлення, які потім використовуватимуться для точного налаштування базової моделі. Більш детально цей процес описано в супровідний білий документ.

У наступному прикладі корпоративному клієнту потрібно було налаштувати існуючу модель для виявлення аномалій журналу мережі. Вони використали Stained Glass, щоб перетворити чутливий набір даних тонкого налаштування на рандомізовані вбудовування, які використовувалися для тонкого налаштування їх базової моделі. Вони виявили, що модель виявлення, яка була точно налаштована на трансформованих уявленнях, виконувалася з майже ідентичною точністю порівняно з гіпотетичним сценарієм тонкого налаштування основної моделі на незахищеному наборі даних точного налаштування. У наведеній нижче таблиці показано два приклади простих текстових записів даних із набору даних точного налаштування та реконструкцію цих самих записів даних із набору даних точного налаштування в текст.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Під капотом Stained Glass Transform для LLM

У застосуванні до комп’ютерного зору SGT працює на вхідних піксельних функціях, а для LLM – на рівні вбудовування. Щоб підкреслити, як працює Stained Glass Transform, уявіть швидкі вбудовування у вигляді матриці, як показано зліва на наступному малюнку. У кожному записі є детерміноване значення. Це значення можна зіставити з вихідними даними, відкриваючи незахищений запит. Stained Glass Transform перетворює цю матрицю детермінованих значень на матрицю, елементи якої є хмарою можливостей.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Трансформована підказка відображається шляхом вибірки шуму з розподілу ймовірностей, визначеного SGT, і додавання вибірки шуму до детермінованих вбудовувань, що незворотно рандомізує вихідні значення підказки. Модель все ще розуміє рандомізовану повторно представлену підказку на математичному рівні та може точно виконувати своє завдання.

Висновок

У цьому дописі обговорювалося, як Protopia AI Stained Glass Transform відокремлює право власності на необроблені дані та захист від процесу операцій машинного навчання, дозволяючи підприємствам зберігати право власності та зберігати конфіденційність конфіденційної інформації в підказках LLM і даних тонкого налаштування. Використовуючи цей найсучасніший захист даних для використання LLM, підприємства можуть прискорити впровадження базових моделей і LLM, менше турбуючись про розкриття конфіденційної інформації. Безпечно відкриваючи цінність реальних корпоративних даних, організації можуть ефективніше та швидше досягти обіцяної ефективності та бізнес-результатів LLM. Щоб дізнатися більше про цю технологію, ви можете знайти додаткові відомості в супровідний білий документ та зв'язатися з Protopia AI щоб отримати доступ і спробувати його на даних вашого підприємства.

Про Протопія А.І

Protopia AI є лідером із захисту даних і конфіденційності технологій AI/ML, що базується в Остіні, штат Техас, і спеціалізується на забезпеченні роботи алгоритмів AI і програмних платформ без необхідності доступу до простої текстової інформації. За останні 2 роки Protopia AI успішно продемонструвала свій флагманський продукт Stained Glass Transform у різноманітних сценаріях використання та типах даних для ВМС США, провідних фінансових послуг і глобальних постачальників технологій.

Protopia AI співпрацює з підприємствами, генеративними постачальниками AI та LLM, а також постачальниками хмарних послуг (CSP), щоб забезпечити збереження права власності та конфіденційності корпоративних даних під час використання рішень AI/ML. Protopia AI співпрацює з AWS, щоб надати критично важливий компонент захисту даних і власності для впровадження генеративного штучного інтелекту на підприємствах, і був одним із 21 стартапу, відібраного для першої AWS Generative AI Accelerator у 2023 році.


Про авторів

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Баладжі Чандрасекаран є віце-президентом з виходу на ринок і підтримки клієнтів у Protopia AI, тісно співпрацює з клієнтами, щоб використовувати штучний інтелект у своєму бізнесі, надаючи пріоритет захисту даних і конфіденційності. До створення Protopia AI Баладжі був керівником відділу рішень штучного інтелекту в Infor, розробляючи продукти, орієнтовані на вартість, одночасно виступаючи надійним партнером для корпоративних клієнтів у різних галузях. Поза роботою він любить музику, піші прогулянки та подорожі з родиною.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Дженніфер Квагенберг очолює групу інженерів Protopia AI і працює над тим, щоб технологія Stained Glass відповідала потребам клієнтів щодо захисту їхніх даних. Дженніфер має попередній досвід роботи з безпеки в компанії Toyota у їхній групі кібербезпеки продуктів, керує хмарними робочими навантаженнями в N-able і відповідає за дані в Match.com.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Ендрю Сансом є інженером з рішень ШІ в Protopia AI, де він допомагає підприємствам використовувати ШІ, зберігаючи конфіденційну та конфіденційну інформацію в їхніх даних. До Protopia AI він працював технічним консультантом, який зосереджувався на створенні рішень AI для клієнтів у багатьох галузях, включаючи фінанси, виробництво, охорону здоров’я та освіту. Він також викладав інформатику та математику для студентів середніх шкіл, університетів і спеціалістів.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Ейман Ебрахімі, доктор філософії, є співзасновником і головним виконавчим директором Protopia AI. Доктор Ебрахімі пристрасно прагне дозволити штучному інтелекту збагатити людський досвід у різних суспільних і галузевих вертикалях. Protopia AI — це бачення вдосконалення об’єктива, через який AI спостерігає за необхідними та якісними даними, одночасно створюючи нові можливості для захисту конфіденційної інформації. До Protopia AI він 9 років працював старшим науковим співробітником NVIDIA. Його робота в NVIDIA Research була спрямована на вирішення проблем доступу до масивних наборів даних у ML/AI. Він також є співавтором рецензованих публікацій про те, як використовувати потужність тисяч графічних процесорів, щоб зробити навчання великих мовних моделей можливим.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Рохіт Таллурі є спеціалістом Generative AI GTM в Amazon Web Services (AWS). Він співпрацює з провідними розробниками генеративних моделей штучного інтелекту, стратегічними клієнтами, ключовими партнерами зі штучного інтелекту/ML та командами обслуговування AWS, щоб забезпечити нове покоління штучного інтелекту, машинного навчання та прискорених обчислень на AWS. Раніше він був архітектором корпоративних рішень і керівником глобальних рішень у відділі консультування зі злиття та поглинання AWS.

Часова мітка:

Більше від AWS Машинне навчання