Alapvető adatvédelem a vállalati LLM-gyorsításhoz a Protopia AI segítségével | Amazon webszolgáltatások

Alapvető adatvédelem a vállalati LLM-gyorsításhoz a Protopia AI segítségével | Amazon webszolgáltatások

Ez a bejegyzés Balaji Chandrasekarannal, Jennifer Cwagenberggel és Andrew Sansommal, valamint Eiman Ebrahimivel, a Protopia AI-tól együttműködve készült.

Az új és hatékony nagy nyelvi modellek (LLM-ek) gyorsan megváltoztatják a vállalkozásokat, javítva a hatékonyságot és eredményességet különféle vállalati felhasználási esetekben. A gyorsaság a lényeg, és az LLM-technológiák alkalmazása növelheti vagy megtörheti a vállalkozás versenyelőnyét. Az AWS különösen alkalmas arra, hogy olyan eszközöket biztosítson a vállalatok számára, amelyek szükségesek az LLM-ek széles körű bevezetéséhez, lehetővé téve a kritikus döntéshozatalt.

A generatív mesterségesintelligencia-technológia megvalósítása során a vállalatoknak komoly aggodalmaik vannak az adatok nyilvánosságra hozatalával és az LLM-eknek elküldött bizalmas információk tulajdonjogával kapcsolatban. A magánélet védelmével és az adatvédelemmel kapcsolatos aggályok lelassíthatják vagy korlátozhatják az LLM-ek használatát a szervezetekben. A vállalatoknak felelősségteljes és biztonságosabb módszerre van szükségük arra, hogy bizalmas információkat küldjenek a modelleknek anélkül, hogy vállalniuk kellene a helyszíni DevOps gyakran túl magas rezsiköltségét.

A bejegyzés leírja, hogyan küzdheti le az adatok tulajdonjogának megőrzésével és az adatvédelem megőrzésével járó kihívásokat LLM-ek használata közben, ha a Protopia AI Stained Glass Transform-ját telepíti adatai védelmére. Protopia AI az AWS-szel együttműködve biztosítja az adatvédelem és a tulajdonjog kritikus elemét a generatív mesterséges intelligencia biztonságos és hatékony vállalati alkalmazásához. Ez a bejegyzés felvázolja a megoldást, és bemutatja, hogyan használható az AWS-ben olyan népszerű vállalati felhasználási esetekben, mint például Visszakeresés kiterjesztett generáció (RAG) és a legmodernebb LLM-ekkel, mint pl Láma 2.

Ólomüveg transzformáció áttekintése

A szervezetek arra törekszenek, hogy megtartsák érzékeny vállalati adataik teljes tulajdonjogát és ellenőrzésüket. Ez a felelős mesterséges intelligencia egyik pillére, és az LLM-szolgáltatók alapvető biztonsági és jogi garanciáin túlmutató adatvédelmi és adatvédelmi követelmény.

Bár a vállalati üzleti egységek különféle feladatokra szeretnék felhasználni az LLM-eket, aggasztják őket az üzleti titkok, a szellemi tulajdon és egyéb védett információk, amelyek az ezekre a modellekre küldött adatokon keresztül szivárognak ki. Ugyanakkor a vállalati biztonsági, megfelelőségi, adatkezelési és információs irodák tartanak attól, hogy egyszerű szöveges ügyfélinformációkat vagy más szabályozott adatokat a vállalaton kívülre tegyenek fel vagy szivárogtassanak ki. Az AWS és a Protopia AI együttműködve szállítja azt a kritikus összetevőt, amely megoldja ezt a közös vállalati ügyféligényt.

A Protopia AI Stained Glass Transform (SGT) ezeket a kihívásokat úgy oldja meg, hogy a nem védett vállalati adatokat véletlenszerű újraábrázolásokká alakítja, amelyeket RmoRed adatoknak nevezünk, amint az a következő ábrán látható. Ez az ábrázolás az eredeti adatok sztochasztikus beágyazása, megőrzi azokat az információkat, amelyekre a cél LLM-nek szüksége van a működéséhez anélkül, hogy érzékeny promptokat vagy lekérdezéseket, kontextust vagy finomhangolást tenne fel. Ez az újraábrázolás egy egyirányú átalakítás, amelyet nem lehet visszafordítani, és biztosítja a vállalati adatok holisztikus adatvédelmét és védelmet az egyszerű szöveges érzékeny információk LLM-ekhez való kiszivárgása ellen. Az SGT alkalmazhatósága nem korlátozódik a nyelvi modellekre. Véletlenszerű újraábrázolások is generálhatók vizuális és strukturált adatokhoz. A Stained Glass Transform név a vizuális adatok véletlenszerű újramegjelenítéseinek vizuális megjelenésében gyökerezik, amelyek hasonlíthatnak az adatok ólomüvegen keresztüli megtekintésére, amint azt ez is bemutatja. US Navy használati eset.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Az SGT a legmodernebb LLM-ekkel működik, mint például a Llama 2. A következő ábra példát mutat be az SGT alkalmazására egy Llama 2 modellre az utasítások követésére, miközben egy védelmi réteget ad hozzá az utasításokhoz és a környezethez. Az ábra bal oldalán egy pénzügyi dokumentum példája látható kontextusként, és az utasítás arra kéri a modellt, hogy foglalja össze a dokumentumot. A bal alsó sarokban a Llama 2 által generált válasz látható, amikor a nyers prompton dolgozik. Az SGT használatakor az ehhez a prompthoz társított beágyazások a kliens oldalon sztochasztikus beágyazásokká alakulnak, amint azt ebben a bejegyzésben később részletesen ismertetjük. A jobb alsó sarokban látható, hogy a Llama 2 továbbra is tud helyes választ adni, ha az RmoRed adatokat (transzformáció utáni beágyazások) küldik a nem védett beágyazások helyett. A jobb felső sarokban látható, hogy ha az RmoRed adatok kiszivárognának, az eredeti prompt rekonstrukciója érthetetlen szöveget eredményezne.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

SGT létrehozásához egy adott modellhez, például a Llama 2-höz, a Protopia AI egy könnyű könyvtárat biztosít, az úgynevezett Stained Glass SDK-t, amely a PyTorch kiterjesztése. Amint az a következő ábrán látható, az SGT létrehozása után többféleképpen integrálható a telepítési folyamatokba. Az SDK-ból létrehozott átalakítás helyileg, hibrid beállításban vagy teljesen a felhőben telepíthető. Ez azért lehetséges, mert az SGT-t könnyű folyamatnak tervezték, amely nagyon kevés számítási erőforrást igényel, és mint ilyen, minimális hatással van a következtetés kritikus útvonalára. Egy másik kulcsfontosságú értékelés a modell pontosságának megőrzése újrareprezentált adatok használatával. Megfigyeljük, hogy a különböző adattípusok és modellváltozatok között a pontosság a kívánatos tűréshatárokon belül marad az újrareprezentált adatok használatakor.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ezek a telepítési és a pontosság fenntartási lehetőségei lehetővé teszik, hogy a vállalati szervezeten belül minden érdekelt fél magabiztosan alkalmazza az SGT-t. Az LLM kimenetének további védelme érdekében a Protopia AI a lekérdezési kimeneteket olyan reprezentációba tudja kódolni, amelynek dekódere csak a vállalati adattulajdonos számára érhető el.

Megoldás áttekintése

Az előző rész ismertette, hogyan használhatja a Stained Glass Transformot különféle architektúrákban. A következő ábra részletezi az SGT LLM-ekhez létrehozásának, telepítésének és használatának lépéseit:

  • SGT létrehozása – Az a csapat, amely az alapszintű LLM-alapmodellt oktatja (saját LLM-ek szolgáltatói, felhőszolgáltatók vagy vállalati ML-csapatok, akik saját LLM-eket hoznak létre), a Protopia AI Stained Glass SDK szoftverét futtatják anélkül, hogy megváltoztatnák az LLM képzésére és telepítésére vonatkozó meglévő gyakorlatukat. Az alapmodell betanítása után az SDK optimalizálási lépésként fut a nyelvi modellen az SGT kiszámításához. Ez az optimalizálási út egy bővítményen keresztül érkezik a PyTorch-hoz. Az SDK beburkolja az alapmodellt, és matematikailag felfedez egy egyedi ólomüveg transzformációt az LLM számára. További részletek az alapul szolgáló matematikáról a kísérő fehér papír. Vegye figyelembe, hogy mivel maga az LLM-et kiképző csapat is futtatja a Stained Glass SDK-t, nincs szükség a modell súlyozásának megjelenítésére vagy elküldésére a lépés végrehajtásához.
  • SGT kiadás és üzembe helyezés – A korábbi optimalizálási lépésből kiadott SGT a betanított LLM-et tápláló adatfolyam részeként kerül telepítésre. Az előző részben leírtak szerint az SGT a vállalati ügyféloldalon található.
  • SGT használat – Az SGT a vállalat által létrehozott promptokon fut, és védett promptokat generál, amelyeket elküld a telepített LLM-nek. Ez lehetővé teszi a vállalat számára, hogy megtartsa az érzékeny lekérdezések és kontextus tulajdonjogát. A Protopia AI Stained Glass használatával a nem védett érzékeny adatok nem hagyják el a vállalat telephelyét vagy bizalmi zónáját.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A Stained Glass SDK segítségével többféleképpen is létrehozhat SGT-t. Használhatja például a Stained Glass SDK-t önállóan felügyelt gépi tanulási (ML) környezetekben Amazon Elastic Kubernetes szolgáltatás (Amazon EKS) képzéshez és következtetésekhez vagy azon belül Amazon rugalmas számítási felhő (Amazon EC2) közvetlenül. Egy másik lehetőség, hogy belül futhat Amazon SageMaker hogy SGT-t hozzon létre egy adott betanított modellhez. A telepítéshez szükséges bemenet átalakítása az ügyféltől származó következtetés során független a kiválasztott telepítési megvalósítástól.

A következő ábra egy lehetséges megvalósítást szemléltet egy önmenedzselt ML környezetben, ahol az ólomüveg transzformáció betanítása az Amazon EKS-en történik.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ebben a munkafolyamatban egy tároló jön létre a Stained Glass SDK használatával, és telepíti Amazon Elastic Container Registry (Amazon ECR). Ezt a tárolót ezután telepítik az Amazon EKS-en, hogy betanítsák a mentett SGT-t Amazon egyszerű tárolási szolgáltatás (Amazon S3). Ha Amazon EC2-t használ, az ML-beállítás részeként közvetlenül a példányán betaníthatja az átalakítást. A Stained Glass SDK számos példánytípuson futhat, beleértve az Amazon P5, P4 vagy G5 példánycsaládokat is, az alapszintű LLM-követelmények alapján. Miután az LLM-t a következtetések levonására használták, az ügyfélalkalmazás a létrehozott SGT-t használja, amely egy egyszerű művelet, hogy átalakítsa a promptokat és a kontextust, mielőtt elküldi azokat az LLM-nek. Ezzel csak az átalakított adatok kerülnek az LLM-be, és az eredeti bemenet tulajdonjoga megmarad a kliens oldalon.

A következő ábra bemutatja, hogyan taníthat meg egy transzformációt és futtathat le következtetést a SageMakeren.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Az SGT létrehozása az Amazon EKS beállításához hasonló utat követ: az Amazon S3 képzési adatait beemeli, egy SGT-t betanít egy konténerre, és elmenti az Amazon S3-ba. A Stained Glass SDK-t a meglévő SageMaker-beállításokban használhatja Amazon SageMaker Studio, SageMaker notebookok, És egy SageMaker képzési munka. Az LLM-t SageMaker-végpontként tárolják, amely elérhető az ügyfélalkalmazás által. A kliens alkalmazásra vonatkozó következtetés szintén megegyezik az Amazon EKS beállításával, kivéve azt, ami a modellt szolgálja ki.

Véletlenszerű újraábrázolások az LLM-kérdések védelme és az adatok finomhangolása érdekében

Ez a rész számos felhasználási esetet tárgyal, bemutatva, hogy a véletlenszerű újraábrázolás hogyan védi az LLM-felhívásokat. A példák szemléltetik a vállalati generatív mesterségesintelligencia-erõfeszítések jelentõs következményeit: új ajtók megnyitása a mesterséges intelligencia felhasználási esetei elõtt, a piacra jutás sebességének felgyorsítása, a vállalati adatok megfelelõ védelme mellett, valamint az LLM-kérdésekben való használathoz szükséges érzékeny adatok tulajdonjogának megőrzése.

RAG használati eset

Az LLM-ek népszerű vállalati felhasználási módja a Retrieval Augmented Generation (RAG). A következő ábra szemléltető példát mutat be, ahol az üzenetek és a források ólomüveggel vannak védve. Az ábra bal oldalán láthatók a nem védett promptok és a forrásinformációk. A RAG vállalati megvalósítása során a források érzékeny információkat tartalmazhatnak, például vállalati üzleti titkokat, szellemi tulajdont vagy pénzügyi információkat. A jobb oldalon a lehető legjobb rekonstrukció látható ember által olvasható szövegben az SGT által létrehozott RmoRed promptokból.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Megfigyelhetjük, hogy a lehető legjobb rekonstrukcióban is teljesen elhomályosul az információ. A modell válasza azonban a transzformációval és anélkül ugyanaz, az eredeti forrásdokumentumokra mutató mutatókkal, így mind a kérdés, mind a forrásdokumentum pontossága megőrzi ezt a népszerű vállalati felhasználási esetet.

Széleskörű alkalmazhatóság LLM-ek és nyelvek között

A Stained Glass SDK egyik csúcspontja, hogy rendkívül ellenálló a modellfejlesztésekkel szemben, és adaptálható a legmodernebb modellekhez, mint pl. Láma 2. A következő ábra egy SGT-t mutat, amelyet egy Llama 2 LLM-en hoztak létre, amelyet korábban japán szöveggel való használatra finomítottak. Ez a példa tovább szemlélteti, hogy az SGT-k bármilyen nyelvhez létrehozhatók és alkalmazhatók, és még a finomhangolt modellek bemenetei is átalakíthatók. Az SGT általános alkalmazhatóságát a Stained Glass SDK robusztus alapja, amely modell- és adatagnosztikus.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A finomhangolási adatok és a promptok védelme

A Stained Glass Transform nem korlátozódik kizárólag az adatok védelmére a következtetés időpontjában; az alapmodell finomhangolásához használt adatokat is védheti. A finomhangoló adatkészletek átalakítása létrehozásának folyamata megegyezik a jelen bejegyzés korábbi megoldási architektúrájának szakaszában leírtakkal. Az átalakítás az alapmodell finomhangolásához jön létre a finomhangolási adatok elérése nélkül. Miután az SGT-t létrehozták és betanították az alapmodellhez, a finomhangoló adatkészletet véletlenszerű újraábrázolásokká alakítják át, amelyeket azután az alapmodell finomhangolására használnak fel. Ezt a folyamatot részletesebben a kísérő fehér papír.

A következő példában egy vállalati ügyfélnek finomhangolnia kellett egy meglévő modellt a hálózati napló anomáliák észleléséhez. A Stained Glass segítségével az érzékeny finomhangoló adatkészletet véletlenszerű beágyazásokká alakították át, amelyeket az alapmodell finomhangolására használtak. Megállapították, hogy a transzformált reprezentációkon finomhangolt detektálási modell csaknem azonos pontossággal teljesített, mint az alapmodell finomhangolásának hipotetikus forgatókönyve a nem védett finomhangoló adatkészleten. A következő táblázat két példát mutat be a finomhangoló adatkészletből származó egyszerű szöveges adatrekordokra, valamint a finomhangoló adatkészletből ugyanezen adatrekordok szöveges rekonstrukciójára.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Az LLM-ek számára készült Stained Glass Transform motorháztetője alatt

A számítógépes látásra alkalmazva az SGT a bemeneti pixel funkciókat használja, az LLM-ek esetében pedig a beágyazás szintjén. A Stained Glass Transform működésének kiemeléséhez képzelje el a prompt beágyazásokat mátrixként, ahogy az a következő ábra bal oldalán látható. Minden bejegyzésben van egy determinisztikus érték. Ez az érték leképezhető az eredeti adatokra, felfedve a nem védett promptot. A Stained Glass Transform ezt a determinisztikus értékekből álló mátrixot olyan mátrixsá alakítja, amelynek elemei a lehetőségek felhője.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A transzformált prompt az SGT által meghatározott valószínűségi eloszlásokból származó zaj mintavételével és a mintavételezett zaj hozzáadásával a determinisztikus beágyazásokhoz történik, ami visszafordíthatatlanul véletlenszerűvé teszi az eredeti prompt értékeket. A modell továbbra is megérti a véletlenszerű újrareprezentált prompt matematikai szinten, és pontosan tudja végrehajtani a feladatát.

Következtetés

Ez a bejegyzés azt taglalta, hogy a Protopia AI Stained Glass Transform hogyan választja el a nyers adatok tulajdonjogát és védelmét az ML műveleti folyamattól, lehetővé téve a vállalatok számára, hogy megtartsák a tulajdonjogot és megőrizzék a bizalmas információk védelmét az LLM-kérdésekben és az adatok finomhangolásában. Ennek a legmodernebb adatvédelemnek az LLM használatához való használatával a vállalatok felgyorsíthatják az alapmodellek és LLM-ek elfogadását azáltal, hogy kevésbé aggódnak az érzékeny információk nyilvánosságra hozatala miatt. A valódi vállalati adatok értékének biztonságos felszabadításával a szervezetek hatékonyabban és gyorsabban érhetik el az LLM-ek ígért hatékonyságát és üzleti eredményeit. Ha többet szeretne megtudni erről a technológiáról, további olvasmányokat találhat a kísérő fehér papír és a csatlakozzon a Protopia AI-hez hogy hozzáférjen és kipróbálhassa a vállalati adatain.

A Protopia AI-ről

A Protopia AI vezető szerepet tölt be az adatvédelmi és a magánélet védelmét megőrző AI/ML technológiák területén Austin államban, Texas államban, és arra specializálódott, hogy lehetővé tegye az AI algoritmusok és szoftverplatformok működését anélkül, hogy sima szöveges információkhoz kellene hozzáférni. Az elmúlt 2 év során a Protopia AI sikeresen bemutatta zászlóshajójának ólomüveg-transzformációs termékét a legkülönfélébb ML felhasználási esetekben és adattípusokban az amerikai haditengerészettel, a vezető pénzügyi szolgáltatókkal és a globális technológiai szolgáltatókkal.

A Protopia AI együttműködik a vállalatokkal, a generatív AI- és LLM-szolgáltatókkal, valamint a felhőszolgáltatókkal (CSP), hogy lehetővé tegye a vállalati adatok tulajdonjogának és bizalmasságának megőrzését az AI/ML-megoldások használata közben. A Protopia AI együttműködött az AWS-szel, hogy az adatvédelem és a tulajdonjog kulcsfontosságú elemét biztosítsa a generatív mesterséges intelligencia vállalati átvételéhez, és egyike volt annak a 21 startupnak, amelyet kiválasztottak az avatóünnepségre. AWS Generative AI Accelerator 2023-ban.


A szerzőkről

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Balaji Chandrasekaran a Protopia AI piacra lépésének és ügyfél-engedélyezésének alelnöke, szorosan együttműködik az ügyfelekkel annak érdekében, hogy üzleti tevékenységükben kiaknázzák az AI-t, miközben előtérbe helyezik az adatvédelmet és a magánélet védelmét. A Protopia AI előtt Balaji az AI megoldások termékvezetője volt az Infornál, értékközpontú termékeket fejlesztve, miközben megbízható partnerként működött a vállalati ügyfelek számára különböző iparágakban. Munkán kívül szeret zenélni, túrázni és családjával utazni.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Jennifer Cwagenberg vezeti a Protopia AI mérnöki csapatát, és azon dolgozik, hogy a Stained Glass technológia megfeleljen ügyfeleik adataik védelmére vonatkozó igényeinek. Jennifer korábbi biztonsági tapasztalatokkal rendelkezik a Toyotánál a Kiberbiztonsági Termékcsoportban, a felhőalapú munkaterhelések menedzselésében az N-able-nél, és a Match.com-on az adatokért felelős.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Andrew Sansom a Protopia AI mesterséges intelligencia megoldások mérnöke, ahol segít a vállalkozásoknak az AI használatában, miközben megőrzi adataikban a személyes és érzékeny információkat. A Protopia AI előtt műszaki tanácsadóként dolgozott azzal a céllal, hogy mesterséges intelligencia megoldásokat biztosítson ügyfelei számára számos iparágban, beleértve a pénzügyet, a gyártást, az egészségügyet és az oktatást. Számítástechnikát és matematikát is tanított középiskolai, egyetemi és szakmai hallgatóknak.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Eiman Ebrahimi, PhD, a Protopia AI társalapítója és vezérigazgatója. Dr. Ebrahimi szenvedélyesen törekszik arra, hogy a mesterséges intelligencia gazdagítsa az emberi tapasztalatokat a különböző társadalmi és iparági vertikumokban. A Protopia AI egy vízió az objektív fejlesztésére, amelyen keresztül az AI megfigyeli a szükséges és minőségi adatokat, amelyekre szüksége van, miközben új képességeket hoz létre az érzékeny információk védelmére. A Protopia AI előtt 9 évig az NVIDIA vezető kutatója volt. Az NVIDIA-kutatásban végzett munkája az ML/AI hatalmas adatkészleteihez való hozzáférés problémáinak megoldására irányult. Társszerzőként írt le lektorált kiadványokat is arról, hogyan lehet több ezer GPU-t kihasználni a nagy nyelvi modellek képzésének megvalósítására.

Foundational data protection for enterprise LLM acceleration with Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Rohit Talluri az Amazon Web Services (AWS) generatív AI GTM szakértője. Együttműködik a legjobb generatív AI-modell-készítőkkel, stratégiai ügyfelekkel, kulcsfontosságú AI/ML-partnerekkel és AWS-szolgáltatási csapatokkal, hogy lehetővé tegye a mesterséges intelligencia, a gépi tanulás és a gyorsított számítástechnika következő generációját az AWS-en. Korábban Enterprise Solutions Architect, valamint az AWS Mergers & Acquisitions Advisory globális megoldások vezetője volt.

Időbélyeg:

Még több AWS gépi tanulás