Amazon SageMaker JumpStart ora offre notebook Amazon Comprehend per la classificazione personalizzata e il rilevamento personalizzato delle entità PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Amazon SageMaker JumpStart ora offre notebook Amazon Comprehend per la classificazione personalizzata e il rilevamento di entità personalizzate

Amazon Comprehend è un servizio di elaborazione del linguaggio naturale (NLP) che utilizza l'apprendimento automatico (ML) per scoprire informazioni dal testo. Amazon Comprehend offre funzionalità personalizzate, riconoscimento di entità personalizzate, classificazione personalizzatae API preaddestrate come l'estrazione di frasi chiave, l'analisi del sentiment, il riconoscimento di entità e altro ancora in modo da poter integrare facilmente la PNL nelle tue applicazioni.

Di recente abbiamo aggiunto i notebook correlati ad Amazon Comprehend JumpStart di Amazon SageMaker notebook che possono aiutarti a iniziare rapidamente a utilizzare il classificatore personalizzato e il riconoscimento di entità personalizzato di Amazon Comprehend. È possibile utilizzare la classificazione personalizzata per organizzare i documenti in categorie (classi) definite dall'utente. Il riconoscimento delle entità personalizzate estende la capacità dell'API di rilevamento delle entità preaddestrate di Amazon Comprehend aiutandoti a identificare i tipi di entità univoci per il tuo dominio o azienda che non sono nel generico preimpostato tipi di entità.

In questo post, ti mostriamo come utilizzare JumpStart per creare classificazioni personalizzate di Amazon Comprehend e modelli di rilevamento di entità personalizzati come parte delle tue esigenze NLP aziendali.

SageMaker JumpStart

Il Amazon Sage Maker Studio pagina di destinazione offre la possibilità di utilizzare JumpStart. JumpStart fornisce un modo rapido per iniziare fornendo modelli pre-addestrati per una varietà di tipi di problemi. Puoi addestrare e mettere a punto questi modelli. JumpStart fornisce anche altre risorse come taccuini, blog e video.

I notebook JumpStart sono essenzialmente codice di esempio che puoi utilizzare come punto di partenza per iniziare rapidamente. Attualmente, ti forniamo oltre 40 taccuini che puoi utilizzare così come sono o personalizzare secondo necessità. Puoi trovare i tuoi taccuini utilizzando la ricerca o il pannello di visualizzazione a schede. Dopo aver trovato il notebook che si desidera usare, è possibile importare il notebook, personalizzarlo in base alle proprie esigenze e selezionare l'infrastruttura e l'ambiente in cui eseguire il notebook.

Inizia con i notebook JumpStart

Per iniziare con JumpStart, vai al Amazon Sage Maker console e aprire Studio. Fare riferimento a Inizia con SageMaker Studio per istruzioni su come iniziare a utilizzare Studio. Quindi completare i seguenti passaggi:

  1. In Studio, vai alla pagina di lancio di JumpStart e scegli Vai a SageMaker JumpStart.

Ti vengono offerti diversi modi per cercare. Puoi utilizzare le schede in alto per ottenere ciò che desideri oppure utilizzare la casella di ricerca come mostrato nello screenshot seguente.

  1. Per trovare i taccuini, andiamo al Notebook scheda.

Vai alla scheda Taccuini

Al momento della scrittura, JumpStart offre 47 taccuini. Puoi utilizzare i filtri per trovare i notebook correlati ad Amazon Comprehend.

  1. Sulla Tipo di contenuto menu a discesa, selezionare Taccuino.

Come puoi vedere nello screenshot seguente, al momento disponiamo di due notebook Amazon Comprehend.

Trova i taccuini Comprend

Nelle sezioni seguenti, esploreremo entrambi i notebook.

Classificatore personalizzato Amazon Comprehend

In questo taccuino, dimostriamo come utilizzare il API del classificatore personalizzato per creare un modello di classificazione dei documenti.

Il classificatore personalizzato è una funzionalità di Amazon Comprehend completamente gestita che ti consente di creare modelli di classificazione del testo personalizzati unici per la tua azienda, anche se hai poca o nessuna esperienza di ML. Il classificatore personalizzato si basa sulle funzionalità esistenti di Amazon Comprehend, già addestrate su decine di milioni di documenti. Astrae gran parte della complessità richiesta per costruire un modello di classificazione della PNL. Il classificatore personalizzato carica e ispeziona automaticamente i dati di addestramento, seleziona gli algoritmi ML corretti, addestra il modello, trova gli iperparametri ottimali, verifica il modello e fornisce metriche sulle prestazioni del modello. Il classificatore personalizzato Amazon Comprehend fornisce anche una console di facile utilizzo per l'intero flusso di lavoro ML, inclusa l'etichettatura del testo utilizzando Amazon SageMaker verità fondamentale, addestrare e distribuire un modello e visualizzare i risultati del test. Con un classificatore personalizzato Amazon Comprehend, puoi creare i seguenti modelli:

  • Modello di classificazione multiclasse – Nella classificazione multiclasse, ad ogni documento può essere assegnata una ed una sola classe. Le singole classi si escludono a vicenda. Ad esempio, un film può essere classificato come documentario o come fantascienza, ma non entrambi allo stesso tempo.
  • Modello di classificazione multietichetta – Nella classificazione multi-etichetta, le singole classi rappresentano categorie diverse, ma queste categorie sono in qualche modo correlate e non si escludono a vicenda. Di conseguenza, ogni documento ha almeno una classe assegnata, ma può averne di più. Ad esempio, un film può essere semplicemente un film d'azione, oppure può essere un film d'azione, un film di fantascienza e una commedia, tutto allo stesso tempo.

Questo notebook non richiede competenze di ML per addestrare un modello con il set di dati di esempio o con il set di dati specifico della tua azienda. Puoi utilizzare le operazioni API discusse in questo notebook nelle tue applicazioni.

Riconoscitore entità personalizzata Amazon

In questo taccuino, dimostriamo come utilizzare il API di riconoscimento di entità personalizzate per creare un modello di riconoscimento dell'entità.

Il riconoscimento di entità personalizzate estende le funzionalità di Amazon Comprehend aiutandoti a identificare i tipi di entità specifici che non sono nei tipi di entità generici preimpostati. Ciò significa che è possibile analizzare documenti ed estrarre entità come codici prodotto o entità specifiche dell'azienda che soddisfano le proprie esigenze particolari.

Costruire da soli un riconoscitore di entità personalizzato accurato può essere un processo complesso, che richiede la preparazione di grandi set di documenti di addestramento annotati manualmente e la selezione degli algoritmi e dei parametri corretti per l'addestramento del modello. Amazon Comprehend aiuta a ridurre la complessità fornendo annotazioni automatiche e sviluppo del modello per creare un modello di riconoscimento dell'entità personalizzato.

Il notebook di esempio accetta il set di dati di addestramento in formato CSV ed esegue l'inferenza rispetto all'input di testo. Amazon Comprehend supporta anche un caso d'uso avanzato che prende i dati annotati Ground Truth per l'addestramento e ti consente di eseguire direttamente l'inferenza su PDF e documenti Word. Per ulteriori informazioni, fare riferimento a Crea un riconoscimento di entità personalizzato per documenti PDF utilizzando Amazon Comprehend.

Amazon Comprehend ha abbassato i limiti di annotazione e ti ha permesso di ottenere risultati più stabili, in particolare per sottocampioni di poche riprese. Per ulteriori informazioni su questo miglioramento, fare riferimento a Amazon Comprehend annuncia limiti di annotazione inferiori per il riconoscimento di entità personalizzate.

Questo notebook non richiede competenze di ML per addestrare un modello con il set di dati di esempio o con il set di dati specifico della tua azienda. Puoi utilizzare le operazioni API discusse in questo notebook nelle tue applicazioni.

Utilizza, personalizza e distribuisci i notebook Amazon Comprehend JumpStart

Dopo aver selezionato il notebook Amazon Comprehend che desideri utilizzare, scegli Importa taccuino. Mentre lo fai, puoi vedere l'avvio del kernel del notebook.

Importa taccuino

L'importazione del notebook attiva la selezione dell'istanza notebook, del kernel e dell'immagine utilizzata per eseguire il notebook. Dopo il provisioning dell'infrastruttura predefinita, è possibile modificare le selezioni in base alle proprie esigenze.

Notebook nel tuo SageMaker Studio

Ora, esamina la struttura del notebook e leggi attentamente le sezioni per l'impostazione dei prerequisiti, l'impostazione dei dati, l'addestramento del modello, l'esecuzione dell'inferenza e l'arresto del modello. Sentiti libero di personalizzare il codice generato in base alle tue esigenze.

In base alle tue esigenze, potresti voler personalizzare le seguenti sezioni:

  • Permessi – Per un'applicazione di produzione, si consiglia di limitare i criteri di accesso solo a quelli necessari per eseguire l'applicazione. Le autorizzazioni possono essere limitate in base al caso d'uso, ad esempio addestramento o inferenza, e a nomi di risorse specifici, ad esempio un file completo Servizio di archiviazione semplice Amazon (Amazon S3) nome del bucket o un pattern del nome del bucket S3. Dovresti anche limitare l'accesso al classificatore personalizzato o alle operazioni di SageMaker solo a quelle necessarie alla tua applicazione.
  • Dati e posizione – Il notebook di esempio fornisce dati di esempio e posizioni S3. In base alle tue esigenze, puoi utilizzare i tuoi dati per l'addestramento, la convalida e il test e utilizzare sedi S3 diverse in base alle esigenze. Allo stesso modo, quando il modello viene creato, puoi scegliere di conservarlo in posizioni diverse. Assicurati solo di aver fornito le autorizzazioni corrette per accedere ai bucket S3.
  • Fasi di preelaborazione – Se utilizzi dati diversi per l'addestramento e il test, potresti voler regolare i passaggi di pre-elaborazione in base alle tue esigenze.
  • Dati di test – Puoi portare i tuoi dati di inferenza per il test.
  • ripulire – Elimina le risorse lanciate dal notebook per evitare addebiti ricorrenti.

Conclusione

In questo post, ti abbiamo mostrato come utilizzare JumpStart per imparare e velocizzare l'utilizzo delle API di Amazon Comprehend rendendo conveniente trovare ed eseguire i notebook correlati ad Amazon Comprehend da Studio pur avendo la possibilità di modificare il codice secondo necessità. I notebook utilizzano set di dati di esempio con annunci di prodotti AWS e articoli di notizie di esempio. Puoi utilizzare questo notebook per imparare a utilizzare le API di Amazon Comprehend in un notebook Python oppure puoi utilizzarlo come punto di partenza ed espandere ulteriormente il codice per i tuoi requisiti unici e le distribuzioni di produzione.

Puoi iniziare a utilizzare JumpStart e usufruire di oltre 40 notebook in vari argomenti in tutte le regioni in cui Studio è disponibile senza costi aggiuntivi.


Informazioni sugli autori

Autore - Lana ZhangLana Zhang è Sr. Solutions Architect presso il team AWS WWSO AI Services con esperienza in AI e ML per la moderazione e il riconoscimento dei contenuti. È appassionata di promuovere i servizi di intelligenza artificiale di AWS e aiutare i clienti a trasformare le loro soluzioni aziendali.

Autore - Meenakshisundaram ThandavarayanMeenakshisundaram Tandavarayan è uno specialista senior di AI/ML con AWS. Aiuta gli account strategici hi-tech nel loro percorso di AI e ML. È molto appassionato di IA basata sui dati

Autore - Rachna ChadhaRachna Chada è Principal Solution Architect AI/ML in Strategic Accounts presso AWS. Rachna è un'ottimista che crede che l'uso etico e responsabile dell'IA possa migliorare la società in futuro e portare prosperità economica e sociale. Nel tempo libero, a Rachna piace passare il tempo con la sua famiglia, fare escursioni e ascoltare musica.

Timestamp:

Di più da Apprendimento automatico di AWS