Protezione dei dati fondamentale per l'accelerazione del LLM aziendale con Protopia AI | Servizi Web di Amazon

Protezione dei dati fondamentale per l'accelerazione del LLM aziendale con Protopia AI | Servizi Web di Amazon

Questo post è scritto in collaborazione con Balaji Chandrasekaran, Jennifer Cwagenberg e Andrew Sansom e Eiman Ebrahimi di Protopia AI.

Nuovi e potenti modelli linguistici di grandi dimensioni (LLM) stanno cambiando rapidamente le aziende, migliorando l’efficienza e l’efficacia per una varietà di casi d’uso aziendali. La velocità è essenziale e l'adozione delle tecnologie LLM può creare o distruggere il vantaggio competitivo di un'azienda. AWS è particolarmente adatto a fornire alle aziende gli strumenti necessari per la distribuzione di LLM su larga scala per consentire il processo decisionale critico.

Nell’implementazione della tecnologia di intelligenza artificiale generativa, le imprese nutrono preoccupazioni reali sull’esposizione dei dati e sulla proprietà delle informazioni riservate che potrebbero essere inviate agli LLM. Queste preoccupazioni sulla privacy e sulla protezione dei dati possono rallentare o limitare l'utilizzo di LLM nelle organizzazioni. Le aziende hanno bisogno di un modo responsabile e più sicuro per inviare informazioni sensibili ai modelli senza dover farsi carico dei costi generali, spesso proibitivi, dei DevOps on-premise.

Il post descrive come superare le sfide legate al mantenimento della proprietà dei dati e alla preservazione della privacy dei dati durante l'utilizzo di LLM implementando Stained Glass Transform di Protopia AI per proteggere i tuoi dati. Protopia AI ha collaborato con AWS per fornire la componente fondamentale della protezione e della proprietà dei dati per un'adozione aziendale sicura ed efficiente dell'intelligenza artificiale generativa. Questo post descrive la soluzione e dimostra come può essere utilizzata in AWS per casi d'uso aziendali popolari come Recupero generazione aumentata (RAG) e con LLM all'avanguardia come lama 2.

Panoramica della trasformazione del vetro colorato

Le organizzazioni cercano di mantenere la piena proprietà e il controllo dei propri dati aziendali sensibili. Questo è un pilastro dell’intelligenza artificiale responsabile e un requisito emergente in materia di protezione dei dati e privacy che va oltre la sicurezza di base e le garanzie legali dei fornitori di LLM.

Sebbene le unità aziendali desiderino utilizzare gli LLM per vari compiti, sono anche preoccupate per i segreti commerciali, la proprietà intellettuale e altre informazioni proprietarie che potrebbero fuoriuscire attraverso i dati inviati a questi modelli. Allo stesso tempo, gli uffici di sicurezza aziendale, conformità, gestione dei dati e informazioni temono di esporre o divulgare informazioni sui clienti in testo semplice o altri dati regolamentati al di fuori dell'azienda. AWS e Protopia AI stanno collaborando per fornire il componente critico che risolve questa esigenza comune dei clienti aziendali.

Stained Glass Transform (SGT) di Protopia AI risolve queste sfide convertendo i dati aziendali non protetti in una rirappresentazione randomizzata, denominata dati RmoRed, come mostrato nella figura seguente. Questa rappresentazione è un incorporamento stocastico dei dati originali, preservando le informazioni necessarie al LLM di destinazione per funzionare senza esporre richieste o query sensibili, contesto o dati di ottimizzazione. Questa rirappresentazione è una trasformazione unidirezionale che non può essere invertita, garantendo la privacy olistica dei dati aziendali e la protezione contro la fuga di informazioni sensibili in testo semplice ai LLM. L'applicabilità di SGT non si limita ai modelli linguistici. È inoltre possibile generare rirappresentazioni randomizzate per dati visivi e strutturati. Il nome Stained Glass Transform affonda le sue radici nell'aspetto visivo di ri-rappresentazioni randomizzate di dati visivi che possono assomigliare alla visualizzazione dei dati attraverso il vetro colorato, come dimostrato in questo Caso d'uso della Marina degli Stati Uniti.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

SGT funziona con LLM all'avanguardia come Llama 2. La figura seguente mostra un esempio di applicazione di SGT a un modello Llama 2 per seguire le istruzioni aggiungendo allo stesso tempo un livello di protezione all'istruzione e al contesto. Il lato sinistro della figura mostra un esempio di documento finanziario come contesto, con l'istruzione che chiede al modello di riassumere il documento. In basso a sinistra è mostrata la risposta generata da Llama 2 quando si opera sul prompt grezzo. Quando si utilizza SGT, gli incorporamenti associati a questo prompt vengono trasformati sul lato client in incorporamenti stocastici, come descritto più dettagliatamente più avanti in questo post. In basso a destra mostra che Llama 2 può ancora generare una risposta corretta se vengono inviati i dati RmoRed (embedding post-trasformazione) invece degli embedding non protetti. In alto a destra si vede che in caso di fuga dei dati di RmoRed, una ricostruzione del prompt originale risulterebbe in un testo incomprensibile.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Per creare un SGT per un determinato modello come Llama 2, Protopia AI fornisce una libreria leggera chiamata Stained Glass SDK, che è un'estensione di PyTorch. Come mostrato nella figura seguente, dopo aver creato un SGT, è possibile integrarlo nelle pipeline di distribuzione in diversi modi. La trasformazione creata dall'SDK può essere distribuita localmente, in una configurazione ibrida o completamente nel cloud. Ciò è possibile perché SGT è progettato per essere un processo leggero che richiede pochissime risorse di elaborazione e come tale ha un impatto minimo sul percorso critico dell'inferenza. Un'altra valutazione chiave è il mantenimento dell'accuratezza del modello utilizzando dati rirappresentati. Osserviamo che tra diversi tipi di dati e variazioni del modello, la precisione viene mantenuta entro limiti di tolleranza desiderabili quando si utilizzano dati rirappresentati.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Queste opzioni per l'implementazione e il mantenimento dell'accuratezza consentono un'adozione sicura di SGT da parte di tutte le parti interessate all'interno di un'organizzazione aziendale. Per proteggere ulteriormente l'output di LLM, Protopia AI può codificare gli output delle query in una rappresentazione il cui decodificatore è disponibile solo per il proprietario dei dati aziendali.

Panoramica della soluzione

La sezione precedente descrive come utilizzare Stained Glass Transform in una varietà di architetture. La figura seguente descrive in dettaglio i passaggi coinvolti nella creazione, distribuzione e utilizzo di SGT per LLM:

  • Creazione SGT: il team che forma il modello di base LLM di base (fornitori di LLM proprietari, fornitore di servizi cloud o team ML aziendali che creano i propri LLM) esegue il software Stained Glass SDK di Protopia AI senza alterare le pratiche esistenti per la formazione e l'implementazione di LLM. Una volta completato il training del modello di base, l'SDK viene eseguito come passaggio di ottimizzazione sul modello linguistico per calcolare l'SGT. Questo passaggio di ottimizzazione viene fornito tramite un'estensione a PyTorch. L'SDK avvolge il modello di fondazione e scopre matematicamente una trasformazione di vetro colorato unica per quel LLM. Ulteriori dettagli sulla matematica sottostante possono essere trovati nel file whitepaper allegato. Si noti che poiché il team che forma il LLM stesso esegue anche l'SDK di Stain Glass, non è necessaria alcuna esposizione o invio dei pesi del modello per il completamento di questo passaggio.
  • Rilascio e distribuzione di SGT: il SGT risultante dalla fase di ottimizzazione precedente viene distribuito come parte della pipeline di dati che alimenta il LLM addestrato. Come descritto nella sezione precedente, SGT si trova sul lato client aziendale.
  • Utilizzo di SGT: SGT viene eseguito sui prompt creati dall'azienda e genera prompt protetti, che vengono inviati al LLM distribuito. Ciò consente all'azienda di mantenere la proprietà delle query e del contesto sensibili. Utilizzando Protopia AI Stained Glass, i dati sensibili non protetti non lasciano il sito o la zona sicura dell'azienda.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

È possibile utilizzare Stain Glass SDK per creare un SGT in diversi modi. Ad esempio, puoi utilizzare Stain Glass SDK in ambienti di machine learning (ML) autogestiti con Servizio Amazon Elastic Kubernetes (Amazon EKS) per l'addestramento e l'inferenza o all'interno Cloud di calcolo elastico di Amazon (Amazon EC2) direttamente. Un'altra opzione è che può essere eseguito all'interno Amazon Sage Maker per creare un SGT per un dato modello addestrato. La trasformazione dell'input per la distribuzione durante l'inferenza dal client è indipendente dall'implementazione di distribuzione scelta.

La figura seguente illustra una possibile implementazione in un ambiente ML autogestito in cui l'addestramento di una trasformazione di vetro colorato viene eseguito su Amazon EKS.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

In questo flusso di lavoro, un contenitore viene creato utilizzando Stain Glass SDK e distribuito in Registro dei contenitori Amazon Elastic (Amazon ECR). Questo contenitore viene quindi distribuito su Amazon EKS per addestrare un SGT in cui viene salvato Servizio di archiviazione semplice Amazon (Amazon S3). Se utilizzi Amazon EC2, puoi addestrare una trasformazione direttamente sulla tua istanza come parte della configurazione ML. L'SDK di Steen Glass può essere eseguito su diversi tipi di istanze, tra cui le famiglie di istanze Amazon P5, P4 o G5, in base ai requisiti LLM di base. Dopo che LLM è stato distribuito per essere utilizzato per l'inferenza, l'applicazione client utilizza l'SGT creato, che è un'operazione leggera, per trasformare prompt e contesto prima di inviarli a LLM. In questo modo, solo i dati trasformati vengono esposti a LLM e la proprietà dell'input originale viene mantenuta sul lato client.

La figura seguente mostra come addestrare una trasformazione ed eseguire l'inferenza su SageMaker.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

La creazione di SGT segue un percorso simile alla configurazione di Amazon EKS acquisendo i dati di addestramento da Amazon S3, addestrando un SGT su un container e salvandolo in Amazon S3. Puoi utilizzare Stain Glass SDK nella configurazione SageMaker esistente con Amazon Sage Maker Studio, Taccuini SageMaker, e un Lavoro di formazione SageMaker. LLM è ospitato come endpoint SageMaker accessibile dall'applicazione client. Anche l'inferenza per l'applicazione client è identica alla configurazione di Amazon EKS, ad eccezione di ciò che serve il modello.

Rirappresentazioni randomizzate per proteggere i prompt LLM e ottimizzare i dati

Questa sezione copre una serie di casi d'uso che dimostrano come la rirappresentazione randomizzata protegge i prompt LLM. Gli esempi illustrano le principali implicazioni per gli sforzi di intelligenza artificiale generativa aziendale: apertura di nuove porte ai casi d’uso dell’intelligenza artificiale, accelerazione della velocità di immissione sul mercato proteggendo adeguatamente i dati aziendali e mantenendo la proprietà dei dati sensibili richiesti per l’uso nei prompt LLM.

Caso d'uso RAG

Un caso d'uso aziendale popolare per gli LLM è il Retrieval Augmented Generation (RAG). La figura seguente mostra un esempio illustrativo in cui i prompt e le origini sono protetti utilizzando Stain Glass. Il lato sinistro della figura mostra i prompt non protetti e le informazioni sull'origine. In un'implementazione aziendale di RAG, le fonti potrebbero includere informazioni sensibili come segreti commerciali aziendali, proprietà intellettuale o informazioni finanziarie. Il lato destro mostra la migliore ricostruzione possibile in testo leggibile dai prompt RmoRed creati da SGT.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Possiamo osservare che anche nella migliore ricostruzione possibile l'informazione risulta completamente offuscata. Tuttavia, la risposta del modello con e senza la trasformazione è la stessa, con puntatori ai documenti di origine originali, preservando così l'accuratezza sia della domanda che dei documenti di origine durante l'esecuzione di questo popolare caso d'uso aziendale.

Ampia applicabilità a tutti i LLM e alle lingue

Uno dei punti salienti dell'SDK di Stain Glass è che è altamente resiliente ai progressi dei modelli e adattabile a modelli all'avanguardia come lama 2. La figura seguente mostra un SGT creato su un Llama 2 LLM precedentemente ottimizzato per lavorare con testo giapponese. Questo esempio illustra ulteriormente che i SGT possono essere creati e applicati per qualsiasi lingua e che anche gli input per modelli perfezionati possono essere trasformati. L'applicabilità generale di SGT è guidata dalle solide basi dell'SDK di Stain Glass che sono indipendenti dal modello e dai dati.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Protezione dei dati di regolazione fine e dei prompt

Stained Glass Transform non si limita esclusivamente a proteggere i dati al momento dell'inferenza; può anche proteggere i dati utilizzati per mettere a punto un modello di base. Il processo per creare la trasformazione per ottimizzare i set di dati è lo stesso spiegato nella sezione sull'architettura della soluzione precedentemente in questo post. La trasformazione viene creata per il modello di fondazione da ottimizzare senza accedere ai dati di ottimizzazione. Dopo che l'SGT è stato creato e addestrato per il modello di fondazione, il set di dati di ottimizzazione viene trasformato in ri-rappresentazioni randomizzate che verranno quindi utilizzate per ottimizzare il modello di fondazione. Questo processo è spiegato più dettagliatamente nel whitepaper allegato.

Nell'esempio seguente, un cliente aziendale aveva bisogno di ottimizzare un modello esistente per il rilevamento delle anomalie dei log di rete. Hanno utilizzato il vetro colorato per trasformare il set di dati sensibili di messa a punto in incorporamenti casuali, che sono stati utilizzati per mettere a punto il loro modello di fondazione. Hanno scoperto che il modello di rilevamento messo a punto sulle rappresentazioni trasformate ha funzionato con una precisione quasi identica rispetto allo scenario ipotetico di messa a punto del modello di base sul set di dati di messa a punto non protetto. La tabella seguente mostra due esempi di record di dati in testo semplice dal dataset di fine tuning e una ricostruzione in testo degli stessi record di dati dal dataset di fine tuning.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Sotto il cofano di Stained Glass Transform per LLM

Quando applicato alla visione artificiale, SGT opera sulle funzionalità dei pixel di input e, per gli LLM, opera a livello di incorporamento. Per evidenziare il funzionamento di Stained Glass Transform, immaginare gli incorporamenti di prompt come una matrice, come illustrato a sinistra della figura seguente. In ogni voce c'è un valore deterministico. Questo valore può essere mappato sui dati originali, esponendo il prompt non protetto. Stained Glass Transform converte questa matrice di valori deterministici in una matrice i cui elementi sono una nuvola di possibilità.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Il prompt trasformato viene reso campionando il rumore dalle distribuzioni di probabilità definite dall'SGT e aggiungendo il rumore campionato agli incorporamenti deterministici, che randomizzano i valori del prompt originali in modo irreversibile. Il modello comprende ancora il prompt rirappresentato randomizzato a livello matematico e può svolgere il suo compito in modo accurato.

Conclusione

In questo post viene discusso il modo in cui Stained Glass Transform di Protopia AI disaccoppia la proprietà e la protezione dei dati grezzi dal processo operativo ML, consentendo alle aziende di mantenere la proprietà e preservare la privacy delle informazioni sensibili nei prompt LLM e nel perfezionamento dei dati. Utilizzando questa protezione dei dati all'avanguardia per l'utilizzo di LLM, le aziende possono accelerare l'adozione di modelli di base e LLM preoccupandosi meno dell'esposizione di informazioni sensibili. Sfruttando in modo sicuro il valore dei dati aziendali reali, le organizzazioni possono ottenere le efficienze e i risultati aziendali promessi dai LLM in modo più efficiente e rapido. Per saperne di più su questa tecnologia, puoi trovare ulteriori letture nel whitepaper allegato ed connettersi con Protopia AI per ottenere l'accesso e provarlo sui tuoi dati aziendali.

Informazioni su Protopia AI

Protopia AI è leader nelle tecnologie AI/ML per la protezione dei dati e la tutela della privacy con sede ad Austin, Texas, ed è specializzata nel consentire agli algoritmi di intelligenza artificiale e alle piattaforme software di funzionare senza la necessità di accedere a informazioni di testo semplice. Negli ultimi 2 anni, Protopia AI ha dimostrato con successo il suo prodotto di punta Stain Glass Transform in una varietà di casi d'uso e tipi di dati ML con la Marina degli Stati Uniti, i principali servizi finanziari e fornitori di tecnologia globale.

Protopia AI collabora con aziende, fornitori di IA generativa e LLM e fornitori di servizi cloud (CSP) per consentire il mantenimento della proprietà e della riservatezza dei dati aziendali durante l'utilizzo di soluzioni AI/ML. Protopia AI ha collaborato con AWS per fornire una componente fondamentale di protezione e proprietà dei dati per l'adozione aziendale dell'intelligenza artificiale generativa ed è stata una delle 21 startup selezionate per la prima edizione AWS Generative AI Accelerator nel 2023.


Circa gli autori

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Balaji Chandrasekaran è il vicepresidente per il go-to-market e l'abilitazione del cliente presso Protopia AI, lavora a stretto contatto con i clienti per sfruttare l'intelligenza artificiale nella loro attività, dando priorità alla protezione dei dati e alla privacy. Prima di Protopia AI, Balaji è stato Product Lead per le soluzioni AI presso Infor, sviluppando prodotti incentrati sul valore e agendo come partner di fiducia per clienti aziendali in diversi settori. Fuori dal lavoro gli piace la musica, le escursioni e i viaggi con la famiglia.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Jennifer Cwagenberg guida il team di ingegneri di Protopia AI e lavora per garantire che la tecnologia Stain Glass soddisfi le esigenze dei propri clienti per proteggere i propri dati. Jennifer ha esperienza precedente con la sicurezza lavorando presso Toyota nel loro Product Cybersecurity Group, gestendo i carichi di lavoro cloud presso N-able e responsabile dei dati presso Match.com.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Andrea Sansom è un ingegnere di soluzioni AI presso Protopia AI, dove aiuta le aziende a utilizzare l'intelligenza artificiale preservando le informazioni private e sensibili nei propri dati. Prima di Protopia AI, ha lavorato come consulente tecnico focalizzato sull'abilitazione di soluzioni AI per clienti in molti settori tra cui finanza, produzione, sanità e istruzione. Ha anche insegnato Informatica e Matematica a studenti delle scuole superiori, universitari e professionali.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Eiman Ebrahimi, dottore di ricerca, è cofondatore e amministratore delegato di Protopia AI. La Dott.ssa Ebrahimi è appassionata di consentire all'intelligenza artificiale di arricchire l'esperienza umana in diversi settori verticali e sociali. Protopia AI è una visione per migliorare la lente attraverso la quale l'IA osserva i dati necessari e di qualità di cui ha bisogno, creando al contempo nuove funzionalità per salvaguardare le informazioni sensibili. Prima di Protopia AI, è stato ricercatore senior presso NVIDIA per 9 anni. Il suo lavoro presso NVIDIA Research mirava a risolvere i problemi di accesso a enormi set di dati in ML/AI. È stato inoltre coautore di pubblicazioni sottoposte a revisione paritaria su come utilizzare la potenza di migliaia di GPU per rendere fattibile l'addestramento di modelli linguistici di grandi dimensioni.

Protezione dei dati fondamentale per l'accelerazione LLM aziendale con Protopia AI | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Rohit Talluri è uno specialista GTM di intelligenza artificiale generativa presso Amazon Web Services (AWS). Collabora con i migliori costruttori di modelli di intelligenza artificiale generativa, clienti strategici, partner chiave di intelligenza artificiale/ML e team di servizio AWS per abilitare la prossima generazione di intelligenza artificiale, apprendimento automatico e elaborazione accelerata su AWS. In precedenza è stato Enterprise Solutions Architect e Global Solutions Lead per la consulenza su fusioni e acquisizioni di AWS.

Timestamp:

Di più da Apprendimento automatico di AWS