O Amazon SageMaker JumpStart agora oferece notebooks Amazon Comprehend para classificação personalizada e detecção de entidade personalizada PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Amazon SageMaker JumpStart agora oferece notebooks Amazon Comprehend para classificação personalizada e detecção de entidade personalizada

Amazon Comprehend é um serviço de processamento de linguagem natural (NLP) que usa aprendizado de máquina (ML) para descobrir insights de texto. O Amazon Comprehend fornece recursos personalizados, reconhecimento de entidade personalizada, classificação personalizada e APIs pré-treinadas como extração de frase-chave, análise de sentimento, reconhecimento de entidade e muito mais, para que você possa integrar facilmente o NLP em seus aplicativos.

Recentemente, adicionamos blocos de anotações relacionados ao Amazon Comprehend em JumpStart do Amazon SageMaker notebooks que podem ajudá-lo a começar rapidamente a usar o classificador personalizado do Amazon Comprehend e o reconhecedor de entidade personalizado. Você pode usar classificação personalizada para organizar documentos em categorias (classes) definidas por você. O reconhecimento de entidade personalizada amplia a capacidade da API de detecção de entidade pré-treinada do Amazon Comprehend, ajudando você a identificar tipos de entidade exclusivos para seu domínio ou empresa que não estão no genérico predefinido tipos de entidade.

Nesta postagem, mostramos como usar o JumpStart para criar classificação personalizada do Amazon Comprehend e modelos personalizados de detecção de entidades como parte das necessidades de NLP da sua empresa.

SageMaker JumpStart

A Estúdio Amazon SageMaker página inicial oferece a opção de usar o JumpStart. JumpStart fornece uma maneira rápida de começar fornecendo modelos pré-treinados para uma variedade de tipos de problemas. Você pode treinar e ajustar esses modelos. O JumpStart também oferece outros recursos como notebooks, blogs e vídeos.

Os blocos de anotações JumpStart são essencialmente códigos de exemplo que você pode usar como ponto de partida para começar rapidamente. Atualmente, fornecemos a você mais de 40 notebooks que você pode usar como estão ou personalizar conforme necessário. Você pode encontrar seus blocos de anotações usando a pesquisa ou o painel de exibição com guias. Depois de encontrar o notebook que deseja usar, você pode importá-lo, personalizá-lo de acordo com seus requisitos e selecionar a infraestrutura e o ambiente para executar o notebook.

Introdução aos blocos de anotações JumpStart

Para começar a usar o JumpStart, vá para o Amazon Sage Maker console e abra o Studio. Referir-se Introdução ao SageMaker Studio para obter instruções sobre como começar a usar o Studio. Em seguida, conclua as seguintes etapas:

  1. No Studio, vá para a página inicial do JumpStart e escolha Ir para SageMaker JumpStart.

São oferecidas várias maneiras de pesquisar. Você pode usar as guias na parte superior para obter o que deseja ou usar a caixa de pesquisa, conforme mostrado na captura de tela a seguir.

  1. Para encontrar cadernos, vamos ao Notebooks aba.

Vá para a guia Cadernos

No momento da redação deste artigo, o JumpStart oferece 47 notebooks. Você pode usar filtros para encontrar blocos de anotações relacionados ao Amazon Comprehend.

  1. No Tipo de Conteúdo menu suspenso, escolha Portátil.

Como você pode ver na captura de tela a seguir, atualmente temos dois notebooks do Amazon Comprehend.

Encontrar Notebooks Compreender

Nas seções a seguir, exploramos os dois notebooks.

Classificador personalizado do Amazon Comprehend

Neste caderno, demonstramos como usar o API de classificador personalizado para criar um modelo de classificação de documentos.

O classificador personalizado é um recurso totalmente gerenciado do Amazon Comprehend que permite criar modelos personalizados de classificação de texto exclusivos para sua empresa, mesmo que você tenha pouca ou nenhuma experiência em ML. O classificador personalizado se baseia nos recursos existentes do Amazon Comprehend, que já são treinados em dezenas de milhões de documentos. Ele abstrai grande parte da complexidade necessária para construir um modelo de classificação NLP. O classificador personalizado carrega e inspeciona automaticamente os dados de treinamento, seleciona os algoritmos de ML corretos, treina seu modelo, localiza os hiperparâmetros ideais, testa o modelo e fornece métricas de desempenho do modelo. O classificador personalizado do Amazon Comprehend também fornece um console fácil de usar para todo o fluxo de trabalho de ML, incluindo rotulagem de texto usando Verdade no solo do Amazon SageMaker, treinando e implantando um modelo e visualizando os resultados do teste. Com um classificador personalizado do Amazon Comprehend, você pode criar os seguintes modelos:

  • Modelo de classificação multiclasse – Na classificação multiclasse, cada documento pode ter uma e apenas uma classe atribuída a ele. As classes individuais são mutuamente exclusivas. Por exemplo, um filme pode ser classificado como documentário ou ficção científica, mas não os dois ao mesmo tempo.
  • Modelo de classificação de vários rótulos – Na classificação multirrótulo, classes individuais representam categorias diferentes, mas essas categorias estão de alguma forma relacionadas e não são mutuamente exclusivas. Como resultado, cada documento tem pelo menos uma classe atribuída a ele, mas pode ter mais. Por exemplo, um filme pode ser simplesmente um filme de ação ou pode ser um filme de ação, um filme de ficção científica e uma comédia, tudo ao mesmo tempo.

Este notebook não requer experiência em ML para treinar um modelo com o conjunto de dados de exemplo ou com seu próprio conjunto de dados específico de negócios. Você pode usar as operações de API discutidas neste notebook em seus próprios aplicativos.

Reconhecedor de entidade personalizada da Amazon

Neste caderno, demonstramos como usar o API de reconhecimento de entidade personalizada para criar um modelo de reconhecimento de entidade.

O reconhecimento de entidade personalizada amplia os recursos do Amazon Comprehend ajudando você a identificar seus tipos de entidade específicos que não estão nos tipos de entidade genéricos predefinidos. Isso significa que você pode analisar documentos e extrair entidades como códigos de produtos ou entidades específicas de negócios que atendem às suas necessidades específicas.

Construir um reconhecedor de entidade personalizado preciso por conta própria pode ser um processo complexo, exigindo a preparação de grandes conjuntos de documentos de treinamento anotados manualmente e a seleção dos algoritmos e parâmetros corretos para o treinamento do modelo. O Amazon Comprehend ajuda a reduzir a complexidade fornecendo anotação automática e desenvolvimento de modelo para criar um modelo de reconhecimento de entidade personalizado.

O notebook de exemplo pega o conjunto de dados de treinamento no formato CSV e executa a inferência na entrada de texto. O Amazon Comprehend também oferece suporte a um caso de uso avançado que usa dados anotados do Ground Truth para treinamento e permite que você execute inferência diretamente em PDFs e documentos do Word. Para mais informações, consulte Crie um reconhecedor de entidade personalizado para documentos PDF usando o Amazon Comprehend.

O Amazon Comprehend reduziu os limites de anotação e permitiu que você obtivesse resultados mais estáveis, especialmente para subamostras de poucas tomadas. Para obter mais informações sobre essa melhoria, consulte Amazon Comprehend anuncia limites de anotação mais baixos para reconhecimento de entidade personalizada.

Este notebook não requer experiência em ML para treinar um modelo com o conjunto de dados de exemplo ou com seu próprio conjunto de dados específico de negócios. Você pode usar as operações de API discutidas neste notebook em seus próprios aplicativos.

Use, personalize e implante notebooks JumpStart do Amazon Comprehend

Depois de selecionar o bloco de anotações do Amazon Comprehend que deseja usar, escolha Importar bloco de anotações. Ao fazer isso, você pode ver o kernel do notebook iniciando.

Importar Notebook

A importação do notebook aciona a seleção da instância do notebook, do kernel e da imagem usada para executar o notebook. Depois que a infraestrutura padrão for provisionada, você poderá alterar as seleções de acordo com seus requisitos.

Caderno no seu SageMaker Studio

Agora, examine o esboço do notebook e leia atentamente as seções para configuração de pré-requisitos, configuração de dados, treinamento do modelo, execução de inferência e interrupção do modelo. Sinta-se à vontade para personalizar o código gerado de acordo com suas necessidades.

Com base em seus requisitos, você pode personalizar as seguintes seções:

  • Permissões – Para um aplicativo de produção, recomendamos restringir as políticas de acesso apenas às necessárias para executar o aplicativo. As permissões podem ser restritas com base no caso de uso, como treinamento ou inferência, e nomes de recursos específicos, como um Serviço de armazenamento simples da Amazon (Amazon S3) ou um padrão de nome de bucket S3. Você também deve restringir o acesso ao classificador personalizado ou às operações do SageMaker apenas para aqueles de que seu aplicativo precisa.
  • Dados e localização – O notebook de exemplo fornece dados de amostra e locais do S3. Com base em seus requisitos, você pode usar seus próprios dados para treinamento, validação e teste e usar diferentes locais do S3 conforme necessário. Da mesma forma, quando o modelo é criado, você pode optar por mantê-lo em locais diferentes. Apenas certifique-se de ter fornecido as permissões corretas para acessar os buckets do S3.
  • Etapas de pré-processamento – Se você estiver usando dados diferentes para treinamento e teste, convém ajustar as etapas de pré-processamento de acordo com seus requisitos.
  • Dados de teste – Você pode trazer seus próprios dados de inferência para teste.
  • limpar – Exclua os recursos lançados pelo notebook para evitar cobranças recorrentes.

Conclusão

Nesta postagem, mostramos como usar o JumpStart para aprender e acelerar o uso das APIs do Amazon Comprehend, facilitando a localização e a execução de notebooks relacionados ao Amazon Comprehend no Studio, com a opção de modificar o código conforme necessário. Os notebooks usam conjuntos de dados de amostra com anúncios de produtos da AWS e artigos de notícias de amostra. Você pode usar este notebook para aprender a usar as APIs do Amazon Comprehend em um notebook Python ou pode usá-lo como ponto de partida e expandir ainda mais o código para seus requisitos exclusivos e implantações de produção.

Você pode começar a usar o JumpStart e aproveitar mais de 40 notebooks em vários tópicos em todas as regiões onde o Studio está disponível sem custo adicional.


Sobre os autores

Autor - Lana ZhangLana Zhang é arquiteto sênior de soluções da equipe de serviços de IA da AWS WWSO com experiência em IA e ML para moderação e reconhecimento de conteúdo. Ela é apaixonada por promover os serviços de IA da AWS e ajudar os clientes a transformar suas soluções de negócios.

Autor - Meenakshisundaram ThandavarayanMeenakshisundaram Thandavarayan é especialista sênior em IA/ML da AWS. Ele ajuda contas estratégicas de alta tecnologia em suas jornadas de IA e ML. Ele é muito apaixonado por IA orientada por dados

Autor - Rachna ChadhaRachna Chadha é Arquiteto Principal de Soluções AI/ML em Contas Estratégicas na AWS. Rachna é uma otimista que acredita que o uso ético e responsável da IA ​​pode melhorar a sociedade no futuro e trazer prosperidade econômica e social. Em seu tempo livre, Rachna gosta de passar o tempo com sua família, fazer caminhadas e ouvir música.

Carimbo de hora:

Mais de Aprendizado de máquina da AWS