Temeljna zaščita podatkov za pospeševanje LLM v podjetjih s Protopia AI | Spletne storitve Amazon

Temeljna zaščita podatkov za pospeševanje LLM v podjetjih s Protopia AI | Spletne storitve Amazon

Ta objava je napisana v sodelovanju z Balajijem Chandrasekaranom, Jennifer Cwagenberg ter Andrewom Sansomom in Eimanom Ebrahimijem iz Protopia AI.

Novi in ​​zmogljivi veliki jezikovni modeli (LLM) hitro spreminjajo podjetja ter izboljšujejo učinkovitost in uspešnost za različne primere uporabe v podjetjih. Hitrost je bistvenega pomena in sprejetje tehnologij LLM lahko poveča ali zmanjša konkurenčno prednost podjetja. AWS je še posebej primeren za zagotavljanje orodij podjetjem, potrebnih za uvajanje LLM-jev v velikem obsegu, da se omogoči kritično odločanje.

Pri izvajanju generativne tehnologije umetne inteligence imajo podjetja resne pomisleke glede izpostavljenosti podatkov in lastništva zaupnih informacij, ki se lahko pošljejo LLM. Ti pomisleki glede zasebnosti in varstva podatkov lahko upočasnijo ali omejijo uporabo LLM v organizacijah. Podjetja potrebujejo odgovoren in varnejši način za pošiljanje občutljivih informacij modelom, ne da bi jim bilo treba prevzeti pogosto previsoke režijske stroške lokalnih DevOps.

Objava opisuje, kako lahko premagate izzive ohranjanja lastništva podatkov in ohranjanja zasebnosti podatkov med uporabo LLM z uvedbo Protopia AI Stained Glass Transform za zaščito vaših podatkov. Protopia AI je sodeloval z AWS, da bi zagotovil kritično komponento zaščite podatkov in lastništva za varno in učinkovito sprejetje generativne umetne inteligence v podjetjih. Ta objava opisuje rešitev in prikazuje, kako jo je mogoče uporabiti v AWS za priljubljene primere uporabe v podjetjih, kot je Povečana generacija pridobivanja (RAG) in z najsodobnejšimi LLM-ji, kot je Lama 2.

Pregled preobrazbe vitraža

Organizacije si prizadevajo ohraniti popolno lastništvo in nadzor nad občutljivimi podatki podjetja. To je steber odgovorne umetne inteligence in nastajajoče zahteve glede varstva podatkov in zasebnosti, ki presega osnovno varnost in pravna jamstva ponudnikov LLM.

Čeprav poslovne enote podjetij želijo uporabljati LLM-je za različne naloge, jih skrbijo tudi poslovne skrivnosti, intelektualna lastnina in druge zaščitene informacije, ki uhajajo skozi podatke, poslane tem modelom. Hkrati se varnostni uradi podjetja, skladnost, upravljanje podatkov in informacijski uradi bojijo razkritja ali uhajanja golih besedilnih podatkov o strankah ali drugih zakonsko določenih podatkov izven podjetja. AWS in Protopia AI sodelujeta pri zagotavljanju kritične komponente, ki rešuje to skupno potrebo strank podjetja.

Protopia AI Stained Glass Transform (SGT) rešuje te izzive s pretvorbo nezaščitenih podatkov podjetja v naključno ponovno predstavitev, imenovano podatki RmoRed, kot je prikazano na naslednji sliki. Ta predstavitev je stohastična vdelava izvirnih podatkov, ki ohranja informacije, ki jih ciljni LLM potrebuje za delovanje brez izpostavljanja občutljivih pozivov ali poizvedb, konteksta ali podatkov o natančnem uravnavanju. Ta ponovna predstavitev je enosmerna transformacija, ki je ni mogoče obrniti, zagotavlja celovito zasebnost podatkov podjetja in zaščito pred uhajanjem občutljivih informacij z navadnim besedilom do LLM. Uporabnost SGT ni omejena na jezikovne modele. Za vizualne in strukturirane podatke je mogoče ustvariti tudi naključne ponovne predstavitve. Ime Stained Glass Transform je zakoreninjeno v vizualnem videzu naključnih ponovnih predstavitev vizualnih podatkov, ki so lahko podobni gledanju podatkov skozi vitraž, kot je prikazano v tem Primer uporabe ameriške mornarice.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

SGT deluje z najsodobnejšimi LLM-ji, kot je Llama 2. Naslednja slika prikazuje primer uporabe SGT na modelu Llama 2 za sledenje navodilom, medtem ko navodilu in kontekstu dodaja plast zaščite. Leva stran slike prikazuje primer finančnega dokumenta kot konteksta z navodilom, ki zahteva od modela, naj povzame dokument. V spodnjem levem kotu je prikazan odziv, ki ga ustvari Llama 2, ko deluje na neobdelanem pozivu. Pri uporabi SGT se vdelave, povezane s tem pozivom, na strani odjemalca pretvorijo v stohastične vdelave, kot je podrobneje opisano kasneje v tej objavi. Spodaj desno je prikazano, da lahko Llama 2 še vedno ustvari pravilen odgovor, če so namesto nezaščitenih vdelav poslani podatki RmoRed (vdelave po transformaciji). Zgoraj desno je prikazano, da bi ob uhajanju podatkov RmoRed rekonstrukcija izvirnega poziva povzročila nerazumljivo besedilo.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Za ustvarjanje SGT za določen model, kot je Llama 2, Protopia AI ponuja lahko knjižnico, imenovano Stained Glass SDK, ki je razširitev PyTorcha. Kot je prikazano na naslednji sliki, se lahko SGT, potem ko je ustvarjen, integrira v cevovode za uvajanje na več načinov. Pretvorbo, ki je ustvarjena iz SDK, je mogoče razmestiti lokalno, v hibridni nastavitvi ali v celoti v oblaku. To je mogoče, ker je SGT zasnovan kot lahek proces, ki zahteva zelo malo računalniških virov in ima kot tak minimalen vpliv na kritično pot sklepanja. Druga ključna ocena je ohranitev točnosti modela z uporabo ponovno predstavljenih podatkov. Opažamo, da se pri različnih tipih podatkov in različicah modelov natančnost ohrani v zaželenih mejah tolerance pri uporabi ponovno predstavljenih podatkov.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Te možnosti za uvedbo in ohranjanje natančnosti omogočajo samozavestno sprejetje SGT s strani vseh zainteresiranih strani znotraj organizacije podjetja. Za dodatno zaščito izhoda LLM lahko Protopia AI kodira izhode poizvedbe v predstavitev, katere dekoder je na voljo samo lastniku podatkov podjetja.

Pregled rešitev

V prejšnjem razdelku je bilo opisano, kako lahko uporabite Stained Glass Transform v različnih arhitekturah. Naslednja slika podrobno opisuje korake pri ustvarjanju, uvajanju in uporabi SGT za LLM:

  • Ustvarjanje SGT – Ekipa, ki usposablja osnovni model fundacije LLM (ponudniki lastniških LLM, ponudnik storitev v oblaku ali poslovne ekipe ML, ki ustvarjajo lastne LLM), izvaja programsko opremo Stained Glass SDK Protopia AI, ne da bi spremenila svoje obstoječe prakse za usposabljanje in uvajanje LLM. Ko je usposabljanje temeljnega modela končano, se SDK izvaja kot optimizacijski prehod čez jezikovni model za izračun SGT. Ta prehod za optimizacijo je dostavljen prek razširitve za PyTorch. SDK ovije temeljni model in matematično odkrije edinstveno transformacijo vitraža za ta LLM. Dodatne podrobnosti o osnovni matematiki najdete v priložena bela knjiga. Upoštevajte, da ker ekipa, ki usposablja LLM, izvaja tudi SDK za vitraže, ni izpostavljenosti ali pošiljanja uteži modela, ki je potrebna za dokončanje tega koraka.
  • Izdaja in uvedba SGT – SGT, ki je rezultat prejšnjega koraka optimizacije, je uveden kot del podatkovnega cevovoda, ki napaja usposobljenega LLM. Kot je opisano v prejšnjem razdelku, je SGT na strani odjemalca podjetja.
  • Uporaba SGT – SGT deluje na pozivih, ki jih je ustvarilo podjetje, in ustvarja zaščitene pozive, ki so poslani razporejenemu LLM. To podjetju omogoča, da obdrži lastništvo svojih občutljivih poizvedb in konteksta. Z uporabo Protopia AI Stained Glass nezaščiteni občutljivi podatki ne zapustijo mesta podjetja ali območja zaupanja.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

S SDK za vitraž lahko ustvarite SGT na več načinov. Stained Glass SDK lahko na primer uporabljate v okoljih samoupravljanega strojnega učenja (ML) z Amazonski elastični kubernetes storitev (Amazon EKS) za usposabljanje in sklepanje ali znotraj Amazonski elastični računalniški oblak (Amazon EC2) neposredno. Druga možnost je, da lahko deluje znotraj Amazon SageMaker ustvariti SGT za dani usposobljeni model. Preoblikovanje vnosa za razmestitev med sklepanjem iz odjemalca je neodvisno od izbrane izvedbe razmestitve.

Naslednja slika ponazarja možno izvedbo v samoupravljanem okolju ML, kjer se usposabljanje za preoblikovanje vitraža izvaja na Amazon EKS.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

V tem poteku dela je vsebnik ustvarjen s SDK-jem za vitraž in razporejen v Registar elastičnih zabojnikov Amazon (Amazon ECR). Ta vsebnik je nato nameščen na Amazon EKS za usposabljanje SGT, v katerega je shranjen Preprosta storitev shranjevanja Amazon (Amazon S3). Če uporabljate Amazon EC2, lahko učite transformacijo neposredno na svojem primerku kot del vaše nastavitve ML. Vitražni SDK lahko deluje na različnih vrstah instanc, vključno z družinami instanc Amazon P5, P4 ali G5, glede na vaše osnovne zahteve LLM. Ko je LLM uveden za uporabo za sklepanje, odjemalska aplikacija uporabi ustvarjeni SGT, ki je lahka operacija, za preoblikovanje pozivov in konteksta, preden jih pošlje LLM. S tem so LLM izpostavljeni le preoblikovani podatki, lastništvo izvirnega vnosa pa se ohrani na strani odjemalca.

Naslednja slika prikazuje, kako lahko trenirate transformacijo in izvajate sklepanje na SageMakerju.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ustvarjanje SGT sledi podobni poti kot nastavitev Amazon EKS z zaužitjem podatkov o usposabljanju iz Amazon S3, usposabljanjem SGT v vsebniku in shranjevanjem v Amazon S3. SDK za vitraž lahko uporabite v svoji obstoječi nastavitvi SageMaker Amazon SageMaker Studio, Prenosniki SageMakerIn Usposabljanje SageMaker. LLM gostuje kot končna točka SageMaker, do katere lahko dostopa odjemalska aplikacija. Sklepanje za odjemalsko aplikacijo je prav tako enako nastavitvi Amazon EKS, razen tistega, kar služi modelu.

Naključne ponovne predstavitve za zaščito pozivov LLM in natančne nastavitve podatkov

Ta razdelek zajema različne primere uporabe, ki prikazujejo, kako naključna ponovna predstavitev ščiti pozive LLM. Primeri ponazarjajo glavne posledice za generativna prizadevanja umetne inteligence v podjetjih: odpiranje novih vrat primerom uporabe umetne inteligence, pospeševanje hitrosti na trg ob ustrezni zaščiti podatkov podjetja in ohranjanje lastništva občutljivih podatkov, potrebnih za uporabo v pozivih LLM.

Primer uporabe RAG

Priljubljen primer uporabe LLM v podjetjih je Retrieval Augmented Generation (RAG). Naslednja slika prikazuje ilustrativen primer, ko so pozivi in ​​viri zaščiteni z vitražem. Leva stran slike prikazuje nezaščitene pozive in izvorne informacije. Pri implementaciji RAG v podjetju lahko viri vključujejo občutljive informacije, kot so poslovne skrivnosti podjetja, intelektualna lastnina ali finančni podatki. Desna stran prikazuje najboljšo možno rekonstrukcijo v človeku berljivem besedilu iz pozivov RmoRed, ki jih je ustvaril SGT.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Opazimo lahko, da so informacije tudi pri najboljši možni rekonstrukciji popolnoma zamegljene. Vendar pa je odziv modela s transformacijo in brez nje enak, s kazalci na izvirne izvorne dokumente, s čimer se ohrani natančnost tako vprašanja kot izvornih dokumentov med izvajanjem tega priljubljenega primera uporabe v podjetju.

Široka uporabnost v LLM in jezikih

Eden od vrhuncev SDK-ja za vitraž je, da je zelo odporen na napredek modelov in prilagodljiv najsodobnejšim modelom, kot je npr. Lama 2. Naslednja slika prikazuje SGT, ki je bil ustvarjen na Llama 2 LLM, ki je bil predhodno natančno nastavljen za delo z japonskim besedilom. Ta primer dodatno ponazarja, da je mogoče SGT ustvariti in uporabiti za kateri koli jezik in da je mogoče preoblikovati celo vnose za natančno nastavljene modele. Splošna uporabnost SGT temelji na robustnem temelju SDK-ja za vitraž, ki je neodvisen od modela in podatkov.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Zaščita podatkov za natančno nastavitev in pozivov

Stained Glass Transform ni omejen zgolj na zaščito podatkov v času sklepanja; prav tako lahko zaščiti podatke, ki se uporabljajo za natančno nastavitev temeljnega modela. Postopek za ustvarjanje transformacije za fino nastavitev naborov podatkov je enak tistemu, ki je bil razložen v razdelku o arhitekturi rešitve prej v tej objavi. Transformacija je ustvarjena za natančno nastavitev temeljnega modela brez dostopa do podatkov za natančno nastavitev. Ko je SGT ustvarjen in usposobljen za temeljni model, se nabor podatkov za fino uravnavanje pretvori v naključne ponovne predstavitve, ki bodo nato uporabljene za fino uravnavanje temeljnega modela. Ta postopek je podrobneje razložen v priložena bela knjiga.

V naslednjem primeru je morala stranka v podjetju natančno prilagoditi obstoječi model za zaznavanje anomalij v omrežnem dnevniku. Uporabili so Stained Glass za preoblikovanje občutljivega nabora podatkov za fino nastavitev v naključne vdelave, ki so jih uporabili za natančno nastavitev njihovega temeljnega modela. Ugotovili so, da je model zaznavanja, ki je bil natančno nastavljen na transformiranih predstavitvah, deloval s skoraj enako natančnostjo v primerjavi s hipotetičnim scenarijem natančnega prilagajanja temeljnega modela na nezaščitenem nizu podatkov natančnega prilagajanja. Naslednja tabela prikazuje dva primera podatkovnih zapisov z navadnim besedilom iz nabora podatkov za natančno uravnavanje in rekonstrukcijo teh istih podatkovnih zapisov iz nabora za fino uravnavanje v besedilo.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Pod pokrovom Stained Glass Transform za LLM

Ko se uporablja za računalniški vid, SGT deluje na funkcijah vhodnih slikovnih pik, pri LLM pa deluje na ravni vdelave. Če želite poudariti, kako deluje Stained Glass Transform, si zamislite hitre vdelave kot matriko, kot je prikazano na levi strani naslednje slike. V vsakem vnosu je deterministična vrednost. To vrednost je mogoče preslikati v izvirne podatke in razkriti nezaščiten poziv. Stained Glass Transform to matriko determinističnih vrednosti pretvori v matriko, katere elementi so oblak možnosti.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Preoblikovan poziv je upodobljen z vzorčenjem hrupa iz verjetnostnih porazdelitev, ki jih definira SGT, in dodajanjem vzorčenega šuma determinističnim vdelavam, kar nepovratno naključno razporedi izvirne vrednosti poziva. Model še vedno razume naključno ponovno predstavljen poziv na matematični ravni in lahko svojo nalogo opravi natančno.

zaključek

Ta objava je razpravljala o tem, kako Protopia AI's Stained Glass Transform ločuje lastništvo neobdelanih podatkov in zaščito od operacijskega procesa ML, kar podjetjem omogoča, da obdržijo lastništvo in ohranijo zasebnost občutljivih informacij v pozivih LLM in podatkih natančnega prilagajanja. Z uporabo te najsodobnejše zaščite podatkov za uporabo LLM lahko podjetja pospešijo sprejemanje temeljnih modelov in LLM, tako da jih manj skrbi zaradi izpostavljenosti občutljivim informacijam. Z varnim odklepanjem vrednosti resničnih podatkov podjetja lahko organizacije učinkoviteje in hitreje omogočijo obljubljene učinkovitosti in poslovne rezultate LLM. Če želite izvedeti več o tej tehnologiji, lahko preberete več v priložena bela knjiga in povežite se s Protopia AI da pridobite dostop in ga preizkusite na podatkih vašega podjetja.

O Protopia AI

Protopia AI je vodilna na področju zaščite podatkov in tehnologij AI/ML, ki ohranjajo zasebnost, s sedežem v Austinu v Teksasu in je specializirana za omogočanje delovanja algoritmov AI in programskih platform brez potrebe po dostopu do informacij v navadnem besedilu. V zadnjih 2 letih je Protopia AI uspešno predstavila svoj vodilni izdelek Stained Glass Transform v različnih primerih uporabe in vrstah podatkov ML z ameriško mornarico, vodilnimi finančnimi storitvami in globalnimi ponudniki tehnologije.

Protopia AI sodeluje s podjetji, generativnimi ponudniki AI in LLM ter ponudniki storitev v oblaku (CSP), da omogoči ohranjanje lastništva in zaupnosti podatkov podjetja med uporabo rešitev AI/ML. Protopia AI je sodelovala z AWS, da bi zagotovila kritično komponento zaščite podatkov in lastništva za sprejetje generativne umetne inteligence v podjetjih, in je bila ena izmed 21 startupov, izbranih za uvodno AWS Generative AI Accelerator leta 2023.


O avtorjih

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Balaji Chandrasekaran je podpredsednik za Go-to-Market & Customer Enablement pri Protopia AI, tesno sodeluje s strankami pri izkoriščanju umetne inteligence v njihovem poslovanju, hkrati pa daje prednost zaščiti podatkov in zasebnosti. Pred Protopio AI je bil Balaji produktni vodja za rešitve umetne inteligence pri Inforju, razvijal je izdelke, osredotočene na vrednost, hkrati pa deloval kot zaupanja vreden partner za poslovne stranke v različnih panogah. Zunaj dela uživa v glasbi, pohodništvu in potovanjih z družino.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Jennifer Cwagenberg vodi inženirsko ekipo pri Protopia AI in si prizadeva zagotoviti, da tehnologija Stained Glass ustreza potrebam njihovih strank po zaščiti njihovih podatkov. Jennifer ima predhodne izkušnje z varnostjo pri Toyoti v njihovi skupini za kibernetsko varnost izdelkov, upravljanje delovnih obremenitev v oblaku pri N-able in odgovorna za podatke pri Match.com.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Andrew Sansom je inženir rešitev za umetno inteligenco pri Protopia AI, kjer podjetjem pomaga pri uporabi umetne inteligence, hkrati pa ohranja zasebne in občutljive podatke v svojih podatkih. Pred Protopia AI je delal kot tehnični svetovalec, osredotočen na omogočanje rešitev AI za stranke v številnih panogah, vključno s financami, proizvodnjo, zdravstvenim varstvom in izobraževanjem. Poučeval je tudi računalništvo in matematiko za srednješolce, študente in študente.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Eiman Ebrahimi, dr. je soustanovitelj in glavni izvršni direktor Protopia AI. Dr. Ebrahimi je navdušen nad omogočanjem umetne inteligence, da obogati človeško izkušnjo v različnih družbenih in industrijskih vertikalah. Protopia AI je vizija za izboljšanje leče, skozi katero AI opazuje potrebne in kakovostne podatke, ki jih potrebuje, hkrati pa ustvarja nove zmogljivosti za varovanje občutljivih informacij. Pred Protopia AI je bil 9 let višji raziskovalec pri NVIDIA. Njegovo delo pri raziskavah NVIDIA je bilo namenjeno reševanju težav z dostopom do ogromnih podatkovnih nizov v ML/AI. Bil je tudi soavtor strokovno pregledanih publikacij o tem, kako izkoristiti moč na tisoče grafičnih procesorjev, da bo usposabljanje velikih jezikovnih modelov izvedljivo.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Rohit Talluri je strokovnjak za Generative AI GTM pri Amazon Web Services (AWS). Sodeluje z vrhunskimi ustvarjalci generativnih modelov AI, strateškimi strankami, ključnimi partnerji AI/ML in servisnimi ekipami AWS, da bi omogočil naslednjo generacijo umetne inteligence, strojnega učenja in pospešenega računalništva na AWS. Pred tem je bil arhitekt za podjetniške rešitve in vodja globalnih rešitev za AWS Mergers & Acquisitions Advisory.

Časovni žig:

Več od Strojno učenje AWS