Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazoni veebiteenused

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazoni veebiteenused

See postitus on kirjutatud koostöös Balaji Chandrasekarani, Jennifer Cwagenbergi ning Andrew Sansomi ja Eiman Ebrahimiga Protopia AI-st.

Uued ja võimsad suured keelemudelid (LLM-id) muudavad ettevõtteid kiiresti, suurendades tõhusust ja tulemuslikkust erinevatel ettevõtete kasutusjuhtudel. Kiirus on ülioluline ja LLM-tehnoloogiate kasutuselevõtt võib ettevõtte konkurentsieelise muuta või murda. AWS sobib eriti hästi selleks, et pakkuda ettevõtetele tööriistu, mis on vajalikud LLM-ide ulatuslikuks juurutamiseks, et võimaldada kriitiliste otsuste tegemist.

Generatiivse AI-tehnoloogia rakendamisel tunnevad ettevõtted tõsist muret andmete avaldamise ja konfidentsiaalse teabe omandiõiguse pärast, mida võidakse saata LLM-idele. Need privaatsuse ja andmekaitsega seotud probleemid võivad aeglustada või piirata LLM-ide kasutamist organisatsioonides. Ettevõtted vajavad vastutustundlikku ja turvalisemat viisi tundliku teabe mudelitele saatmiseks, ilma et nad peaksid kandma kohapealse DevOpsi sageli liiga suuri üldkulusid.

Postituses kirjeldatakse, kuidas saate LLM-ide kasutamisel ületada andmete omandiõiguse säilitamise ja andmete privaatsuse säilitamise väljakutsed, rakendades oma andmete kaitsmiseks Protopia AI vitraaže. Protopia AI on teinud koostööd AWS-iga, et pakkuda andmekaitse ja omandiõiguse kriitilist komponenti generatiivse AI turvaliseks ja tõhusaks kasutuselevõtuks ettevõttes. See postitus kirjeldab lahendust ja näitab, kuidas seda saab AWS-is kasutada selliste populaarsete ettevõtete kasutusjuhtudel nagu Täiustatud põlvkonna otsimine (RAG) ja tipptasemel LLM-idega nagu Laama 2.

Stained Glass Transformi ülevaade

Organisatsioonid püüavad säilitada oma delikaatsete ettevõtteandmete täielikku omandiõigust ja kontrolli. See on vastutustundliku tehisintellekti tugisammas ja esilekerkiv andmekaitse- ja privaatsusnõue, mis ületab LLM-i pakkujate põhilisi turva- ja juriidilisi garantiisid.

Kuigi ettevõtte äriüksused soovivad kasutada LLM-e mitmesuguste ülesannete jaoks, tunnevad nad muret ka ärisaladuste, intellektuaalomandi ja muu omandiõigusega kaitstud teabe pärast, mis lekib nendele mudelitele saadetud andmete kaudu. Samal ajal kardavad ettevõtte turvalisuse, vastavuse, andmehalduse ja teabebürood lihtteksti klienditeabe või muude reguleeritud andmete paljastamist või lekkimist väljaspool ettevõtet. AWS ja Protopia AI teevad koostööd, et pakkuda kriitilist komponenti, mis lahendab selle ettevõtte klientide tavalise vajaduse.

Protopia AI vitraažiteisendus (SGT) lahendab need probleemid, teisendades kaitsmata ettevõtte andmed juhuslikuks taasesituseks, mida nimetatakse RmoRed-andmeteks, nagu on näidatud järgmisel joonisel. See esitus on algandmete stohhastiline manustamine, mis säilitab teabe, mida siht-LLM vajab toimimiseks, paljastamata tundlikke viipasid või päringuid, konteksti või andmeid peenhäälestuseta. See ümberesitus on ühesuunaline teisendus, mida ei saa tagasi pöörata, tagades ettevõtte andmete tervikliku privaatsuse ja kaitse lihtteksti tundliku teabe lekkimise eest LLM-idele. SGT rakendatavus ei piirdu keelemudelitega. Visuaalsete ja struktureeritud andmete jaoks saab luua ka juhuslikke ümberesitusi. Nimetus Stained Glass Transform tuleneb visuaalsete andmete randomiseeritud taasesituste visuaalsest välimusest, mis võib sarnaneda andmete vaatamisega läbi vitraaži, nagu on näidatud käesolevas dokumendis. USA mereväe kasutusjuht.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

SGT töötab tipptasemel LLM-idega, nagu Llama 2. Järgmisel joonisel on näide SGT rakendamisest Llama 2 mudelile juhiste järgimiseks, lisades samal ajal juhistele ja kontekstile kaitsekihi. Joonise vasakpoolsel küljel on kontekstina näide finantsdokumendist, kus juhis palub mudelil teha dokumendist kokkuvõte. Vasakpoolses allnurgas kuvatakse vastus, mille Llama 2 genereerib töötlemata viipa kasutamisel. SGT kasutamisel teisendatakse selle viipaga seotud manustused kliendi poolel stohhastilisteks manusteks, nagu on selles postituses üksikasjalikumalt kirjeldatud. Paremal all on näidatud, et Llama 2 suudab ikkagi õige vastuse genereerida, kui kaitsmata manustuste asemel saadetakse RmoRed-andmed (transformatsioonijärgsed manustused). Paremas ülanurgas on näidatud, et kui RmoRed-andmed lekivad, tooks algse viipa rekonstrueerimise tulemuseks arusaamatu tekst.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Teatud mudeli (nt Llama 2) jaoks SGT loomiseks pakub Protopia AI kerget teeki nimega Stained Glass SDK, mis on PyTorchi laiendus. Nagu on näidatud järgmisel joonisel, saab pärast SGT loomist selle mitmel viisil juurutustorudesse integreerida. SDK-st loodud teisendust saab juurutada kohapeal, hübriidseadistusena või täielikult pilves. See on võimalik, kuna SGT on loodud olema kerge protsess, mis nõuab väga vähe arvutusressursse ja millel on seega minimaalne mõju järelduste kriitilisele teele. Teine oluline hinnang on mudeli täpsuse säilitamine ümberesitatud andmete abil. Täheldame, et erinevate andmetüüpide ja mudelivariatsioonide puhul säilib täpsus soovitud tolerantsi piirides, kui kasutatakse ümberesitatud andmeid.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Need juurutamise ja täpsuse säilitamise võimalused võimaldavad ettevõtte organisatsiooni kõigil sidusrühmadel SGT-d enesekindlalt vastu võtta. LLM-i väljundi täiendavaks kaitsmiseks saab Protopia AI päringuväljundid kodeerida esitusse, mille dekooder on saadaval ainult ettevõtte andmete omanikule.

Lahenduse ülevaade

Eelmises jaotises kirjeldati, kuidas saate vitraažide teisendust erinevates arhitektuurides kasutada. Järgmisel joonisel on üksikasjalikult kirjeldatud LLM-ide jaoks mõeldud SGT loomise, juurutamise ja kasutamise etappe.

  • SGT loomine – meeskond, kes koolitab LLM-i baasmudelit (omandiõigusega LLM-ide pakkujad, pilveteenuse pakkujad või ettevõtte ML-meeskonnad, kes loovad oma LLM-id), käitab Protopia AI-s Stained Glass SDK tarkvara, muutmata oma olemasolevaid praktikaid LLM-i koolitamiseks ja juurutamiseks. Pärast alusmudeli koolituse lõpetamist töötab SDK SGT arvutamiseks keelemudeli optimeerimiskäiguna. See optimeerimispääs edastatakse PyTorchi laienduse kaudu. SDK ümbritseb vundamendi mudelit ja avastab matemaatiliselt selle LLM-i jaoks ainulaadse vitraažide teisenduse. Lisateavet aluseks oleva matemaatika kohta leiate jaotisest kaasasolev valge paber. Pange tähele, et kuna LLM-i koolitav meeskond ise kasutab ka Stained Glass SDK-d, ei ole selle etapi lõpuleviimiseks vajalik mudelite kaalude eksponeerimine ega saatmine.
  • SGT väljalase ja juurutamine – varasema optimeerimisetapi väljundiks olev SGT juurutatakse koolitatud LLM-i toitava andmekonveieri osana. Nagu eelmises jaotises kirjeldatud, asub SGT ettevõtte kliendi poolel.
  • SGT kasutamine – SGT töötab ettevõtte loodud viipade alusel ja genereerib kaitstud viipasid, mis saadetakse juurutatud LLM-ile. See võimaldab ettevõttel säilitada oma tundlike päringute ja konteksti omandiõigus. Protopia AI Stained Glassi kasutades ei lahku kaitsmata tundlikud andmed ettevõtte saidilt ega usaldustsoonist.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Stained Glass SDK-d saate SGT loomiseks kasutada mitmel viisil. Näiteks saate Stained Glass SDK-d kasutada isehallatud masinõppe (ML) keskkondades Amazoni elastse Kubernetese teenus (Amazon EKS) treenimiseks ja järelduste tegemiseks või sees Amazon Elastic Compute Cloud (Amazon EC2) otse. Teine võimalus on see, et see töötab sees Amazon SageMaker SGT loomiseks antud koolitatud mudeli jaoks. Sisendi muutmine juurutamiseks kliendi järelduse ajal ei sõltu valitud juurutusrakendusest.

Järgmine joonis illustreerib võimalikku rakendamist isehallatavas ML-keskkonnas, kus vitraažiteisendust treenitakse Amazon EKS-is.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Selles töövoos luuakse Stained Glass SDK abil konteiner ja see juurutatakse Amazoni elastsete konteinerite register (Amazon ECR). Seejärel kasutatakse seda konteinerit Amazon EKS-is, et koolitada SGT-d, kuhu salvestatakse Amazoni lihtne salvestusteenus (Amazon S3). Kui kasutate Amazon EC2, saate ML-i seadistuse osana treenida teisendust otse oma eksemplaris. Stained Glass SDK võib teie LLM-i põhinõuete alusel töötada mitmesugustel eksemplaritüüpidel, sealhulgas Amazon P5, P4 või G5 eksemplariperekondadel. Pärast seda, kui LLM on järelduste tegemiseks juurutatud, kasutab klientrakendus loodud SGT-d, mis on lihtne toiming, et muuta viipasid ja konteksti enne nende saatmist LLM-ile. Seda tehes avaldatakse LLM-ile ainult teisendatud andmed ja algse sisendi omandiõigus jääb kliendi poolele.

Järgmine joonis näitab, kuidas saate SageMakeris teisendust treenida ja järeldusi teha.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

SGT loomine järgib sarnast teed nagu Amazon EKS-i seadistus, neelates sisse Amazon S3 treeningandmed, treenides SGT-d konteineril ja salvestades need Amazon S3-sse. Saate kasutada Stained Glass SDK-d oma olemasolevas SageMakeri seadistuses koos Amazon SageMaker Studio, SageMakeri märkmikudJa SageMakeri koolitustöö. LLM-i hostitakse SageMakeri lõpp-punktina, millele pääseb ligi klientrakendus. Kliendirakenduse järeldamine on samuti identne Amazon EKS-i seadistusega, välja arvatud see, mis mudelit teenindab.

Juhuslikud ümberesitused, et kaitsta LLM-i viipasid ja täpsustada andmeid

See jaotis hõlmab mitmesuguseid kasutusjuhtumeid, näidates, kuidas juhuslikult valitud ümberesitus kaitseb LLM-i viipasid. Näited illustreerivad olulisi tagajärgi ettevõtte generatiivsetele tehisintellekti jõupingutustele: uute uste avamine tehisintellekti kasutusjuhtudele, turule jõudmise kiirendamine, kaitstes samal ajal ettevõtte andmeid, ja LLM-i viipade jaoks vajalike tundlike andmete omandiõigus.

RAG kasutusjuht

LLM-ide jaoks populaarne ettevõtte kasutusjuht on Retrieval Augmented Generation (RAG). Järgmisel joonisel on illustreeriv näide, kus viipasid ja allikaid kaitstakse vitraažidega. Joonise vasakpoolne külg näitab kaitsmata viipasid ja lähteteavet. RAGi ettevõttes rakendades võivad allikad sisaldada tundlikku teavet, nagu ettevõtte ärisaladused, intellektuaalomand või finantsteave. Paremal pool on SGT loodud RmoRedi viipade parim võimalik rekonstruktsioon inimloetava tekstina.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Võime täheldada, et isegi parima võimaliku rekonstrueerimise korral on teave täielikult hägune. Mudeli vastus koos teisendusega ja ilma on aga sama, viidates algsetele algdokumentidele, säilitades nii küsimuse kui ka algdokumentide täpsuse seda populaarset ettevõtte kasutusjuhtumit teostades.

Laialdane rakendatavus kõigis LLM-ides ja keeltes

Stained Glass SDK üks tipphetki on see, et see on mudeli edusammude suhtes väga vastupidav ja kohandatav tipptasemel mudelitega, nagu Laama 2. Järgmisel joonisel on kujutatud SGT, mis loodi Llama 2 LLM-iga, mis oli eelnevalt jaapanikeelse tekstiga töötamiseks peenhäälestatud. See näide illustreerib veelgi, et SGT-sid saab luua ja rakendada mis tahes keele jaoks ning isegi peenhäälestatud mudelite sisendeid saab teisendada. SGT üldist rakendatavust juhib Stained Glass SDK tugev alus, mis on mudeli- ja andmeagnostiline.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Peenhäälestusandmete ja viipade kaitsmine

Stained Glass Transform ei piirdu üksnes andmete kaitsmisega järelduste tegemise ajal; see võib kaitsta ka andmeid, mida kasutatakse vundamendi mudeli peenhäälestamiseks. Andmekogumite peenhäälestuse teisenduse loomise protsess on sama, mida selgitati selle postituse varem lahenduse arhitektuuri jaotises. Teisendus luuakse vundamendimudeli peenhäälestamiseks ilma peenhäälestusandmetele juurdepääsuta. Pärast SGT loomist ja vundamendimudeli jaoks väljaõpetamist muudetakse peenhäälestusandmekogum juhuslikeks ümberesitusteks, mida seejärel kasutatakse vundamendi mudeli peenhäälestamiseks. Seda protsessi selgitatakse üksikasjalikumalt jaotises kaasasolev valge paber.

Järgmises näites pidi ettevõtte klient viimistlema olemasoleva mudeli võrgulogi anomaaliate tuvastamiseks. Nad kasutasid Stained Glassi tundliku peenhäälestusandmestiku muutmiseks juhuslikeks manusteks, mida kasutati nende vundamendi mudeli viimistlemiseks. Nad leidsid, et teisendatud esitustega peenhäälestatud tuvastamismudel toimis peaaegu identse täpsusega võrreldes kaitsmata peenhäälestusandmestiku alusmudeli peenhäälestuse hüpoteetilise stsenaariumiga. Järgmises tabelis on kaks näidet lihtteksti andmekirjetest peenhäälestusandmestikust ja rekonstruktsioon samade andmekirjete tekstiks peenhäälestusandmestikust.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

LLM-idele mõeldud Stained Glass Transformi kapoti all

Arvutinägemise puhul töötab SGT sisendpikslite funktsioonidel ja LLM-ide puhul manustamistasandil. Et rõhutada, kuidas Stained Glass Transform töötab, kujutage ette viipasid maatriksina, nagu on näidatud järgmise joonise vasakul küljel. Igas kirjes on deterministlik väärtus. Selle väärtuse saab vastendada algandmetega, paljastades kaitsmata viipa. Stained Glass Transform teisendab selle deterministlike väärtuste maatriksi maatriksiks, mille elemendid on võimaluste pilv.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Teisendatud viip renderdatakse SGT määratletud tõenäosusjaotuste müra valimisega ja valimimüra lisamisega deterministlikele manustele, mis randomiseerib algsed viipa väärtused pöördumatult. Mudel mõistab endiselt juhuslikult taasesitatud viipasid matemaatilisel tasemel ja suudab oma ülesannet täpselt täita.

Järeldus

Selles postituses arutati, kuidas Protopia AI vitraažtransform eraldab algandmete omandiõiguse ja kaitse ML-i toimingute protsessist, võimaldades ettevõtetel säilitada tundliku teabe omandiõigus ja säilitada selle privaatsus LLM-i viipade ja andmete peenhäälestuse kaudu. Kasutades seda nüüdisaegset andmekaitset LLM-i kasutamiseks, saavad ettevõtted kiirendada alusmudelite ja LLM-ide kasutuselevõttu, muretsedes vähem tundliku teabe avaldamise pärast. Tõeliste ettevõtteandmete väärtuse turvaliselt vabastamisega saavad organisatsioonid võimaldada LLM-ide lubatud tõhusust ja äritulemusi tõhusamalt ja kiiremini. Selle tehnoloogia kohta lisateabe saamiseks leiate lisateavet jaotisest kaasasolev valge paber ja Ühendage Protopia AI-ga et saada juurdepääs ja proovida seda oma ettevõtte andmetega.

Protopia AI kohta

Protopia AI on andmekaitse ja privaatsust säilitavate AI/ML-tehnoloogiate liider, mis asub Austinis, Texases ning on spetsialiseerunud tehisintellekti algoritmide ja tarkvaraplatvormide toimimise võimaldamisele ilma lihtteksti teabele juurde pääsemata. Viimase kahe aasta jooksul on Protopia AI USA mereväe, juhtivate finantsteenuste ja ülemaailmsete tehnoloogiapakkujatega edukalt demonstreerinud oma lipulaeva Vitraažtransformi toodet mitmesugustes ML kasutusjuhtudes ja andmetüüpides.

Protopia AI teeb koostööd ettevõtete, generatiivsete AI- ja LLM-i pakkujatega ning pilveteenuse pakkujatega (CSP), et võimaldada AI/ML-lahenduste kasutamisel säilitada ettevõtte andmete omandiõigus ja konfidentsiaalsus. Protopia AI on teinud koostööd AWS-iga, et pakkuda andmekaitse ja omandiõiguse kriitilist komponenti generatiivse AI kasutuselevõtuks ettevõtetes, ning oli üks 21 idufirmast, kes valiti avaüritusele. AWS Generative AI Accelerator 2023. aastal.


Autoritest

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Balaji Chandrasekaran on Protopia AI turulepääsu ja klientide lubamise asepresident, teeb tihedat koostööd klientidega, et kasutada tehisintellekti nende äritegevuses esikohale andmekaitset ja privaatsust. Enne Protopia AI-d oli Balaji Infori tehisintellektilahenduste tootejuht, arendades väärtuskeskseid tooteid, tegutsedes samas usaldusväärse partnerina ettevõtete klientidele erinevates tööstusharudes. Väljaspool tööd naudib ta muusikat, matkamist ja perega reisimist.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Jennifer Cwagenberg juhib Protopia AI insenerimeeskonda ja töötab selle nimel, et vitraažtehnoloogia vastaks nende klientide vajadustele nende andmete kaitsmisel. Jenniferil on varasem kogemus turvalisuse alal töötades Toyotas nende küberturvalisuse grupis, hallates pilve töökoormust ettevõttes N-able ja vastutades andmete eest saidil Match.com.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Andrew Sansom on tehisintellekti lahenduste insener Protopia AI-s, kus ta aitab ettevõtetel kasutada tehisintellekti, säilitades samal ajal oma andmetes privaatset ja tundlikku teavet. Enne Protopia AI-d töötas ta tehnilise konsultandina, keskendudes tehisintellektilahenduste võimaldamisele klientidele paljudes tööstusharudes, sealhulgas rahanduses, tootmises, tervishoius ja hariduses. Samuti õpetas ta arvutiteadust ja matemaatikat keskkooli-, ülikooli- ja erialaõpilastele.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Eiman Ebrahimi, PhD on Protopia AI kaasasutaja ja tegevjuht. Dr Ebrahimi on kirglik, et võimaldada tehisintellektil rikastada inimkogemust erinevates ühiskonna- ja tööstussektorites. Protopia AI on nägemus objektiivi täiustamiseks, mille kaudu AI jälgib vajalikke ja kvaliteetseid andmeid, luues samal ajal uudseid võimalusi tundliku teabe kaitsmiseks. Enne Protopia AI-d oli ta 9 aastat NVIDIA vanemteadur. Tema töö NVIDIA uurimistöös oli suunatud ML/AI tohututele andmekogumitele juurdepääsu probleemide lahendamisele. Ta kirjutas ka eelretsenseeritud väljaandeid selle kohta, kuidas kasutada tuhandete GPU-de võimsust suurte keelemudelite treenimise teostamiseks.

Põhiline andmekaitse ettevõtte LLM-i kiirendamiseks Protopia AI-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Rohit Talluri on Amazon Web Servicesi (AWS) generatiivse AI GTM-i spetsialist. Ta teeb koostööd parimate generatiivsete AI-mudelite koostajate, strateegiliste klientide, peamiste AI/ML-partnerite ja AWS-i teenindusmeeskondadega, et võimaldada AWS-is järgmise põlvkonna tehisintellekti, masinõpet ja kiirendatud andmetöötlust. Varem oli ta Enterprise Solutions'i arhitekt ja AWS-i ühinemiste ja omandamiste nõuandja globaalsete lahenduste juht.

Ajatempel:

Veel alates AWS-i masinõpe