Tecniche per la sintesi automatica dei documenti utilizzando modelli linguistici | Servizi Web di Amazon

Tecniche per la sintesi automatica dei documenti utilizzando modelli linguistici | Servizi Web di Amazon

Il riepilogo è la tecnica di condensare informazioni considerevoli in una forma compatta e significativa e costituisce la pietra angolare di una comunicazione efficiente nella nostra era ricca di informazioni. In un mondo pieno di dati, riassumere testi lunghi in brevi riassunti fa risparmiare tempo e aiuta a prendere decisioni informate. Il riepilogo condensa i contenuti, risparmiando tempo e migliorando la chiarezza presentando le informazioni in modo conciso e coerente. Il riepilogo ha un valore inestimabile per il processo decisionale e la gestione di grandi volumi di contenuti.

I metodi di riepilogo hanno una vasta gamma di applicazioni che servono a vari scopi, come ad esempio:

  • Aggregazione di notizie - Aggregazione di notizie comporta la sintesi di articoli di notizie in una newsletter per l'industria dei media
  • Riepilogo dei documenti legali - Riepilogo dei documenti legali aiuta i professionisti legali a estrarre informazioni legali chiave da documenti lunghi come termini, condizioni e contratti
  • Ricerca accademica – Il riepilogo annota, indicizza, condensa e semplifica informazioni importanti tratte da documenti accademici
  • Content curation per blog e siti web – Puoi creare riepiloghi di contenuti accattivanti e originali per i lettori, soprattutto nel marketing
  • Rapporti finanziari e analisi di mercato – Puoi estrarre approfondimenti finanziari dai report e creare riepiloghi esecutivi per le presentazioni degli investitori nel settore finanziario

Con i progressi nell’elaborazione del linguaggio naturale (NLP), nei modelli linguistici e nell’intelligenza artificiale generativa, riassumere testi di varia lunghezza è diventato più accessibile. Strumenti come LangChain, combinato con un modello linguistico di grandi dimensioni (LLM) basato su Roccia Amazzonica or JumpStart di Amazon SageMaker, semplificare il processo di implementazione.

Questo post approfondisce le seguenti tecniche di riepilogo:

  • Riepilogo estrattivo utilizzando il riepilogo estrattivo BERT
  • Riepilogo astrattivo utilizzando modelli di riepilogo specializzati e LLM
  • Due tecniche di riepilogo multilivello:
    • Riepilogo estrattivo-astratto utilizzando la strategia di riepilogo del contenuto estrattivo-astratto (EACSS)
    • Riepilogo astrattivo-astrattivo utilizzando Map Reduce e Map ReRank

Tecniche di sintesi del testo

L'esempio di codice completo si trova nel file Repository GitHub. Puoi lanciare questa soluzione in Amazon Sage Maker Studio.

Fai clic qui per aprire la console AWS e segui.

Tipi di riepiloghi

Esistono diverse tecniche per riassumere il testo, che sono generalmente classificate in due approcci principali: estrattivo ed astrattiva riepilogo. Inoltre, le metodologie di riepilogo multilivello incorporano una serie di passaggi, combinando tecniche sia estrattive che astrattive. Questi approcci multilivello sono vantaggiosi quando si ha a che fare con testi con token più lunghi del limite di un LLM, consentendo la comprensione di narrazioni complesse.

Riepilogo estrattivo

Il riepilogo estrattivo è una tecnica utilizzata nella PNL e nell'analisi del testo per creare un riepilogo estraendo frasi chiave. Invece di generare nuove frasi o contenuti come nel riepilogo astrattivo, il riepilogo estrattivo si basa sull'identificazione e sull'estrazione delle parti più rilevanti e informative del testo originale per creare una versione condensata.

Il riepilogo estrattivo, sebbene vantaggioso nel preservare il contenuto originale e garantire un'elevata leggibilità estraendo direttamente frasi importanti dal testo di origine, presenta dei limiti. Manca di creatività, non è in grado di generare frasi nuove e può trascurare dettagli sfumati, potenzialmente perdendo informazioni importanti. Inoltre, può produrre riassunti lunghi, a volte travolgendo i lettori con informazioni eccessive e indesiderate. Esistono molte tecniche di riepilogo estrattivo, come ad esempio Classifica del testo ed Rank Lex. In questo post ci concentriamo sul riepilogo estrattivo BERT.

Riassunto estrattivo BERT

I Riassunto estrattivo BERT è un tipo di modello di riepilogo estrattivo che utilizza il modello del linguaggio BERT per estrarre le frasi più importanti da un testo. BERTA è un modello linguistico pre-addestrato che può essere ottimizzato per una varietà di attività, incluso il riepilogo del testo. Funziona incorporando prima le frasi nel testo utilizzando BERT. Ciò produce una rappresentazione vettoriale per ogni frase che ne cattura il significato e il contesto. Il modello utilizza quindi un algoritmo di clustering per raggruppare le frasi in cluster. Le frasi più vicine al centro di ciascun cluster vengono selezionate per formare il riassunto.

Rispetto agli LLM, il vantaggio del riepilogo estrattivo BERT è che è relativamente semplice addestrare e distribuire il modello ed è più spiegabile. Lo svantaggio è che il riepilogo non è creativo e non genera frasi. Seleziona solo frasi dal testo originale. Ciò limita la sua capacità di riassumere testi complessi o ricchi di sfumature.

Riepilogo astrattivo

Il riepilogo astrattivo è una tecnica utilizzata nella PNL e nell'analisi del testo per creare un riepilogo che va oltre la semplice estrazione di frasi o frasi dal testo di origine. Invece di selezionare e riorganizzare il contenuto esistente, il riepilogo astrattivo genera nuove frasi o frasi che catturano il significato centrale e le idee principali del testo originale in una forma più condensata e coerente. Questo approccio richiede che il modello comprenda il contenuto del testo e lo esprima in un modo che non è necessariamente presente nel materiale originale.

Modelli di riepilogo specializzati

Questi modelli di linguaggio naturale pre-addestrati, come ad esempio BART ed PEGASUS, sono specificatamente studiati per le attività di riepilogo del testo. Impiegano architetture codificatore-decodificatore e hanno parametri più piccoli rispetto alle loro controparti. Questa dimensione ridotta consente una facile messa a punto e distribuzione su istanze più piccole. Tuttavia, è importante notare che questi modelli di riepilogo sono dotati anche di dimensioni dei token di input e output più piccole. A differenza delle loro controparti più generiche, questi modelli sono progettati esclusivamente per attività di riepilogo. Di conseguenza, l’input richiesto per questi modelli è esclusivamente il testo che deve essere riassunto.

Grandi modelli linguistici

A grande modello linguistico si riferisce a qualsiasi modello che viene sottoposto a formazione su set di dati estesi e diversificati, in genere attraverso l'apprendimento auto-supervisionato su larga scala, ed è in grado di essere messo a punto per adattarsi a un'ampia gamma di compiti specifici a valle. Questi modelli hanno dimensioni dei parametri maggiori e prestazioni migliori nelle attività. In particolare, presentano dimensioni dei token di input sostanzialmente più grandi, alcune delle quali valide fino a 100,000, come quello di Anthropic Claude. Per utilizzare uno di questi modelli, AWS offre il servizio completamente gestito Amazon Bedrock. Se hai bisogno di un maggiore controllo sul ciclo di vita dello sviluppo del modello, puoi distribuire LLM tramite SageMaker.

Data la loro natura versatile, questi modelli richiedono istruzioni di attività specifiche fornite tramite testo di input, una pratica denominata ingegneria tempestiva. Questo processo creativo produce risultati diversi in base al tipo di modello e al testo immesso. L'efficacia sia delle prestazioni del modello che della qualità del prompt influenzano in modo significativo la qualità finale degli output del modello. Di seguito sono riportati alcuni suggerimenti quando la progettazione richiede un riepilogo:

  • Includere il testo da riassumere – Inserisci il testo che deve essere riassunto. Questo serve come materiale di partenza per il riepilogo.
  • Definire il compito – Dichiarare chiaramente che l’obiettivo è il riepilogo del testo. Ad esempio, "Riassumi il seguente testo: [testo inserito]".
  • Fornisci contesto – Offrire una breve introduzione o contesto per il testo dato che deve essere riassunto. Ciò aiuta il modello a comprendere il contenuto e il contesto. Ad esempio: "Ti viene fornito il seguente articolo sull'intelligenza artificiale e il suo ruolo nell'assistenza sanitaria: [testo di input]".
  • Richiedi il riepilogo – Richiedere al modello di generare un riepilogo del testo fornito. Sii chiaro sulla lunghezza o sul formato desiderati del riepilogo. Ad esempio, "Genera un riassunto conciso dell'articolo fornito sull'intelligenza artificiale e il suo ruolo nell'assistenza sanitaria: [testo di input]."
  • Imposta vincoli o linee guida sulla lunghezza – Facoltativamente, regolare la lunghezza del riepilogo specificando il conteggio delle parole, il conteggio delle frasi o il limite di caratteri desiderati. Ad esempio, "Genera un riepilogo che non contenga più di 50 parole: [testo inserito]".

Un'efficace ingegneria tempestiva è fondamentale per garantire che i riepiloghi generati siano accurati, pertinenti e allineati con l'attività di riepilogo prevista. Perfeziona la richiesta per ottenere un risultato di riepilogo ottimale con esperimenti e iterazioni. Dopo aver stabilito l'efficacia delle istruzioni, è possibile riutilizzarle con l'uso di modelli di prompt.

Riepilogo multilivello

I riassunti estrattivi e astrattivi sono utili per i testi più brevi. Tuttavia, quando il testo di input supera il limite massimo di token del modello, diventa necessario un riepilogo a più livelli. Il riepilogo multilivello prevede una combinazione di varie tecniche di riepilogo, come metodi estrattivi e astrattivi, per condensare in modo efficace testi più lunghi applicando più livelli di processi di riepilogo. In questa sezione, discutiamo due tecniche di riepilogo multilivello: riepilogo estrattivo-astratto e riepilogo astrattivo-astrattivo.

Riassunto estrattivo-astratto

Il riepilogo estrattivo-astratto funziona generando prima un riassunto estrattivo del testo. Quindi utilizza un sistema di riepilogo astrattivo per perfezionare il riepilogo estrattivo, rendendolo più conciso e informativo. Ciò migliora la precisione fornendo riepiloghi più informativi rispetto ai soli metodi estrattivi.

Strategia di riepilogo dei contenuti estrattivo-astratti

La tecnica EACSS combina i punti di forza di due potenti tecniche: il riepilogo estrattivo BERT per la fase estrattiva e gli LLM per la fase astrattiva, come illustrato nel diagramma seguente.

Riepilogo estrattivo del testo astrattivo

L'EACSS offre numerosi vantaggi, tra cui la conservazione di informazioni cruciali, una migliore leggibilità e adattabilità. Tuttavia, l’implementazione dell’EACSS è computazionalmente costosa e complessa. Esiste il rischio di una potenziale perdita di informazioni e la qualità del riepilogo dipende fortemente dalle prestazioni dei modelli sottostanti, rendendo essenziale un'attenta selezione e messa a punto dei modelli per ottenere risultati ottimali. L'implementazione include i seguenti passaggi:

  1. Il primo passo è suddividere il documento di grandi dimensioni, ad esempio un libro, in sezioni più piccole o pezzi. Questi blocchi sono definiti come frasi, paragrafi o anche capitoli, a seconda della granularità desiderata per il riepilogo.
  2. Per la fase estrattiva utilizziamo il riassunto estrattivo BERT. Questo componente funziona incorporando le frasi all'interno di ciascun blocco e quindi impiegando un algoritmo di clustering per identificare le frasi più vicine ai centroidi del cluster. Questo passaggio estrattivo aiuta a preservare il contenuto più importante e pertinente di ogni blocco.
  3. Dopo aver generato riepiloghi estrattivi per ciascun blocco, si passa alla fase di riepilogo astrattivo. Qui, utilizziamo LLM noti per la loro capacità di generare riepiloghi coerenti e contestualmente rilevanti. Questi modelli prendono come input i riassunti estratti e producono riassunti astratti che catturano l'essenza del documento originale garantendo al tempo stesso leggibilità e coerenza.

Combinando tecniche di riepilogo estrattive e astratte, questo approccio offre un modo efficiente e completo per riassumere documenti lunghi come i libri. Garantisce che vengano estratte informazioni importanti consentendo al tempo stesso la generazione di riepiloghi concisi e leggibili dall'uomo, rendendolo uno strumento prezioso per varie applicazioni nel campo del riepilogo dei documenti.

Riepilogo astrattivo-astrattivo

Il riepilogo astrattivo-astratto è un approccio in cui vengono utilizzati metodi astrattivi sia per estrarre che per generare riepiloghi. Offre notevoli vantaggi, tra cui maggiore leggibilità, coerenza e flessibilità nel regolare la lunghezza e i dettagli del riepilogo. Eccelle nella generazione del linguaggio, consentendo parafrasi ed evitando ridondanze. Tuttavia, ci sono degli svantaggi. Ad esempio, è computazionalmente costoso e richiede molte risorse, e la sua qualità dipende fortemente dall'efficacia dei modelli sottostanti che, se non ben addestrati o versatili, possono influire sulla qualità dei riepiloghi generati. La selezione dei modelli è fondamentale per mitigare queste sfide e garantire sintesi astratte di alta qualità. Per il riepilogo astratto-astratto, discutiamo due strategie: Map Reduce e Map ReRank.

Riduci la mappa utilizzando LangChain

Questo processo in due fasi comprende a Passaggio Mappa e passaggio Riduci, come illustrato nello schema seguente. Questa tecnica consente di riepilogare un input più lungo del limite del token di input del modello.

Mapreduce di riepilogo del testo astrattivo

Il processo si compone di tre fasi principali:

  1. I corpora sono suddivisi in parti più piccole che rientrano nel limite dei token di LLM.
  2. Utilizziamo un passaggio Mappa per applicare individualmente una catena LLM che estrae tutte le informazioni importanti da ogni passaggio e il suo output viene utilizzato come un nuovo passaggio. A seconda delle dimensioni e della struttura dei corpora, ciò potrebbe assumere la forma di temi generali o di brevi riassunti.
  3. La fase Riduci combina i passaggi di output dalla fase Mappa o da una fase Riduci in modo tale da adattarsi al limite del token e inserirli nel LLM. Questo processo viene ripetuto fino a quando l'output finale è un passaggio singolare.

Il vantaggio dell'utilizzo di questa tecnica è che è altamente scalabile e parallelizzabile. Tutta l'elaborazione in ogni fase è indipendente l'una dall'altra, il che sfrutta i sistemi distribuiti o i servizi serverless e i tempi di elaborazione inferiori.

Mappa ReRank utilizzando LangChain

Questa catena esegue un prompt iniziale su ciascun documento che non solo tenta di completare un'attività, ma fornisce anche un punteggio per quanto è sicuro nella sua risposta. Viene restituita la risposta con il punteggio più alto.

Questa tecnica è molto simile a Map Reduce ma con il vantaggio di richiedere meno chiamate complessive, snellendo il processo di riepilogo. Tuttavia, il suo limite risiede nell'incapacità di unire le informazioni su più documenti. Questa restrizione lo rende più efficace negli scenari in cui ci si aspetta una risposta unica e diretta da un singolo documento, rendendolo meno adatto per attività di recupero di informazioni più complesse o sfaccettate che coinvolgono più fonti. Un'attenta considerazione del contesto e della natura dei dati è essenziale per determinare l'adeguatezza di questo metodo per specifiche esigenze di riepilogo.

Cohere ReRank utilizza un sistema di riclassificazione basato sulla semantica che contestualizza il significato della query di un utente oltre la pertinenza delle parole chiave. Viene utilizzato con sistemi di archiviazione vettoriale e motori di ricerca basati su parole chiave, conferendogli flessibilità.

Confronto tra tecniche di riepilogo

Ciascuna tecnica di riepilogo presenta vantaggi e svantaggi specifici:

  • Il riepilogo estrattivo preserva il contenuto originale e garantisce un'elevata leggibilità, ma manca di creatività e può produrre riepiloghi lunghi.
  • Il riepilogo astrattivo, pur offrendo creatività e generando riassunti concisi e fluenti, comporta il rischio di modifiche involontarie dei contenuti, sfide nell'accuratezza del linguaggio e sviluppo ad alta intensità di risorse.
  • Il riepilogo multilivello estrattivo-astratto riassume in modo efficace documenti di grandi dimensioni e offre una migliore flessibilità nella messa a punto della parte estrattiva dei modelli. Tuttavia, è costoso, richiede molto tempo ed è privo di parallelizzazione, il che rende difficile la regolazione dei parametri.
  • Il riepilogo multilivello astrattivo-astratto riassume efficacemente anche documenti di grandi dimensioni ed eccelle in termini di leggibilità e coerenza migliorate. Tuttavia, è computazionalmente costoso e richiede molte risorse, poiché fa molto affidamento sull'efficacia dei modelli sottostanti.

Un’attenta selezione del modello è fondamentale per mitigare le sfide e garantire sintesi astratte di alta qualità in questo approccio. La tabella seguente riepiloga le funzionalità per ciascun tipo di riepilogo.

Aspetto Riepilogo estrattivo Riepilogo astrattivo Riepilogo multilivello
Genera riepiloghi creativi e coinvolgenti Non
Conserva il contenuto originale Non Non
Bilanciare la conservazione delle informazioni e la creatività Non
Adatto per testo breve e obiettivo (lunghezza del testo di input inferiore ai token massimi del modello) Non
Efficace per documenti più lunghi e complessi come i libri (lunghezza del testo di input maggiore dei token massimi del modello) Non Non
Combina l'estrazione e la generazione di contenuti Non Non

Le tecniche di riepilogo multilivello sono adatte per documenti lunghi e complessi in cui la lunghezza del testo di input supera il limite token del modello. La tabella seguente mette a confronto queste tecniche.

Tecnica Vantaggi Svantaggi
EACSS (estrattivo-astrattivo) Conserva le informazioni cruciali, offre la possibilità di mettere a punto la parte estrattiva dei modelli. Dispendioso dal punto di vista computazionale, potenziale perdita di informazioni e mancanza di parallelizzazione.
Riduci mappa (astratto-astratto) Scalabile e parallelizzabile, con meno tempo di elaborazione. La migliore tecnica per generare riassunti creativi e concisi. Processo ad alta intensità di memoria.
Mappa ReRank (astratto-astratto) Riepilogo semplificato con classificazione basata sulla semantica. Fusione di informazioni limitata.

Suggerimenti per il riepilogo del testo

Considera le seguenti best practice quando riassumi il testo:

  • Essere consapevoli della dimensione totale del token – Prepararsi a dividere il testo se supera i limiti dei token del modello o a utilizzare più livelli di riepilogo quando si utilizzano LLM.
  • Essere consapevoli dei tipi e del numero di origini dati – La combinazione di informazioni provenienti da più fonti può richiedere trasformazioni, organizzazione chiara e strategie di integrazione. Roba da LangChain ha l'integrazione su un'ampia varietà di origini dati e tipi di documento. Semplifica il processo di combinazione di testo proveniente da diversi documenti e origini dati con l'uso di questa tecnica.
  • Essere consapevoli della specializzazione del modello – Alcuni modelli possono eccellere in determinati tipi di contenuti ma avere difficoltà con altri. Potrebbero esserci modelli ottimizzati che sono più adatti al tuo dominio di testo.
  • Utilizzare il riepilogo multilivello per grandi quantità di testo – Per i testi che superano i limiti dei token, considerare un approccio di riepilogo multilivello. Inizia con un riepilogo di alto livello per catturare le idee principali e poi riepiloga progressivamente le sottosezioni o i capitoli per approfondimenti più dettagliati.
  • Riepilogare il testo per argomenti – Questo approccio aiuta a mantenere un flusso logico e a ridurre la perdita di informazioni e dà priorità alla conservazione delle informazioni cruciali. Se utilizzi LLM, crea suggerimenti chiari e specifici che guidino il modello a riassumere un particolare argomento anziché l'intero corpo del testo.

Conclusione

Il riepilogo rappresenta uno strumento vitale nella nostra era ricca di informazioni, poiché consente la distillazione efficiente di informazioni estese in forme concise e significative. Svolge un ruolo fondamentale in vari ambiti, offrendo numerosi vantaggi. Il riepilogo fa risparmiare tempo trasmettendo rapidamente contenuti essenziali da documenti lunghi, aiuta il processo decisionale estraendo informazioni critiche e migliora la comprensione nella formazione e nella cura dei contenuti.

Questo post ha fornito una panoramica completa di varie tecniche di riepilogo, inclusi approcci estrattivi, astrattivi e multilivello. Con strumenti come LangChain e modelli linguistici, puoi sfruttare la potenza del riepilogo per semplificare la comunicazione, migliorare il processo decisionale e sbloccare tutto il potenziale di vasti archivi di informazioni. La tabella comparativa presente in questo post può aiutarti a individuare le tecniche di riepilogo più adatte ai tuoi progetti. Inoltre, i suggerimenti condivisi nel post fungono da preziose linee guida per evitare errori ripetitivi durante la sperimentazione con LLM per il riepilogo del testo. Questi consigli pratici ti consentono di applicare le conoscenze acquisite, garantendo una sintesi efficace ed efficace nei progetti.

Riferimenti


Circa gli autori

Tecniche per la sintesi automatica dei documenti utilizzando modelli linguistici | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Nick Biso è un ingegnere di machine learning presso AWS Professional Services. Risolve complesse sfide organizzative e tecniche utilizzando la scienza e l'ingegneria dei dati. Inoltre, crea e distribuisce modelli AI/ML sul cloud AWS. La sua passione si estende alla sua propensione ai viaggi e alle diverse esperienze culturali.

Tecniche per la sintesi automatica dei documenti utilizzando modelli linguistici | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Suha il chowdary Jonnalagadda è un data scientist presso AWS Global Services. La sua passione è aiutare i clienti aziendali a risolvere i loro problemi più complessi con la potenza dell'intelligenza artificiale/ML. Ha aiutato i clienti a trasformare le loro soluzioni aziendali in diversi settori, tra cui finanza, sanità, banche, e-commerce, media, pubblicità e marketing.

Tecniche per la sintesi automatica dei documenti utilizzando modelli linguistici | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Tabby Ward è un Principal Cloud Architect/Consulente tecnico strategico con una vasta esperienza nella migrazione dei clienti e nella modernizzazione del carico di lavoro e dei servizi delle applicazioni su AWS. Con oltre 25 anni di esperienza nello sviluppo e nella progettazione di software, è riconosciuta per la sua capacità di approfondimento e per la capacità di guadagnarsi la fiducia di clienti e partner per progettare architetture e soluzioni su più stack tecnologici e fornitori di servizi cloud.

Tecniche per la sintesi automatica dei documenti utilizzando modelli linguistici | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Shyam Desai è un Cloud Engineer per servizi di big data e machine learning presso AWS. Supporta applicazioni e clienti Big Data a livello aziendale utilizzando una combinazione di competenze di ingegneria del software e scienza dei dati. Ha una vasta conoscenza della visione artificiale e delle applicazioni di imaging per l'intelligenza artificiale, nonché di applicazioni biomediche e bioinformatiche.

Timestamp:

Di più da Apprendimento automatico di AWS