Resolva problemas de negócios de ponta a ponta por meio do aprendizado de máquina nas soluções Amazon SageMaker JumpStart

Republicado por Platão

seguidores: 0

JumpStart do Amazon SageMaker fornece modelos pré-treinados e de código aberto para uma ampla variedade de tipos de problemas para ajudá-lo a começar com o aprendizado de máquina (ML). JumpStart também fornece modelos de solução que configuram infraestrutura para casos de uso comuns e notebooks de exemplo executáveis para ML com Amazon Sage Maker.

Como usuário empresarial, você pode fazer o seguinte com as soluções JumpStart:

Explore as soluções e avalie quais são as mais adequadas às necessidades do seu negócio.
Lance soluções com um único clique Estúdio Amazon SageMaker. Isto lança um Formação da Nuvem AWS modelo para criar os recursos necessários.
Modifique a solução para atender às suas necessidades com acesso a notebooks subjacentes e ativos de modelo.
Exclua os recursos adquiridos quando terminar.

Esta postagem se concentra nas cinco soluções de ML que foram adicionadas recentemente para enfrentar cinco desafios de negócios diferentes. No momento em que este livro foi escrito, o JumpStart oferecia 23 soluções de negócios, variando desde a detecção de fraudes em transações financeiras até o reconhecimento de caligrafia. O número de soluções oferecidas pelo JumpStart aumenta regularmente à medida que mais soluções são adicionadas a ele.

Visão geral da solução

As cinco novas soluções são as seguintes:

Otimização de preços – Oferece modelos de ML personalizáveis para ajudá-lo a tomar decisões ideais para definir o preço do seu produto ou serviço a fim de atingir seu objetivo de negócios, como maximizar receita, lucro ou outras métricas personalizadas.
Previsão de espécies de aves – Mostra como você pode treinar e ajustar um modelo de detecção de objetos. Ele demonstra o ajuste do modelo por meio do aumento da imagem de treinamento e mapeia as melhorias de precisão que ocorrem nas iterações (épocas) do trabalho de treinamento.
Previsão de sobrevivência ao câncer de pulmão – Mostra como você pode alimentar recursos radiômicos 2D e 3D e dados demográficos do paciente em um algoritmo de ML para prever as chances de sobrevivência do câncer de pulmão de um paciente. Os resultados desta previsão podem ajudar os prestadores a tomar medidas proativas adequadas.
Classificação de pagamentos financeiros – Demonstra como treinar e implantar um modelo de ML para classificar transações financeiras com base em informações de transação. Você também pode usar esta solução como uma etapa intermediária na detecção de fraudes, personalização ou detecção de anomalias.
Previsão de rotatividade para clientes de telefonia móvel – Demonstra como desenvolver rapidamente um modelo de previsão de rotatividade usando um conjunto de dados de transações de chamadas móveis. Este é um exemplo simples para usuários novos no ML.

Pré-requisitos

Para usar essas soluções, certifique-se de ter acesso ao Studio com uma função de execução que permite executar a funcionalidade do SageMaker. Para sua função de usuário no Studio, certifique-se de que o Projetos SageMaker e JumpStart opção está ativada.

Nas seções a seguir, examinaremos cada uma das cinco novas soluções e discutiremos detalhadamente como elas funcionam, juntamente com algumas recomendações sobre como você pode usá-las para suas próprias necessidades de negócios.

Otimização de preço

As empresas gostam de usar várias alavancas para obter os melhores resultados. Por exemplo, o preço de um produto ou serviço é uma alavanca que uma empresa pode controlar. A questão é como decidir a que preço definir um produto ou serviço, a fim de maximizar um objetivo comercial, como lucro ou receita.

Esta solução fornece modelos de ML personalizáveis para ajudá-lo a tomar decisões ideais para definir o preço do seu produto ou serviço a fim de atingir seu objetivo, como maximizar receita, lucro ou outras métricas personalizadas. A solução usa abordagens de ML e inferência causal para aprender as relações preço-volume a partir de dados históricos e é capaz de fazer recomendações dinâmicas de preços em tempo real para otimizar as métricas objetivas personalizadas.

A captura de tela a seguir mostra os dados de entrada de amostra.

A solução inclui três partes:

Estimativa de elasticidade de preço – Isso é estimado por inferência causal por meio de um algoritmo de ML duplo
Previsão de volume – Isso é previsto usando o algoritmo do Profeta
Otimização de preço – Isto é conseguido através de uma simulação hipotética através de diferentes cenários de preços

A solução fornece o preço recomendado para o dia seguinte para maximizar a receita. Além disso, os resultados incluem a elasticidade de preço estimada, que é um valor que indica o efeito do preço no volume, e um modelo de previsão, que é capaz de prever o volume do dia seguinte. O gráfico a seguir mostra como um modelo causal que incorporou a elasticidade de preço calculada tem um desempenho muito melhor em uma análise hipotética (com grandes desvios do comportamento do preço) do que um modelo preditivo que usa o Prophet para prever o volume usando dados de séries temporais.

Você pode aplicar esta solução ao seu negócio para os seguintes casos de uso:

Determine o preço ideal das mercadorias para uma loja de varejo
Estime o efeito dos cupons de desconto nas compras dos clientes
Preveja o efeito de vários métodos de incentivo em qualquer negócio

Previsão de espécies de aves

Existem vários aplicativos de visão computacional (CV) para empresas hoje. Uma dessas aplicações é a detecção de objetos, onde um algoritmo de ML detecta a localização de um objeto em uma imagem desenhando uma caixa delimitadora ao seu redor e identifica o tipo de objeto que se trata. Aprender como aplicar um modelo de detecção de objetos e ajustá-lo pode ser de grande valor para uma organização que tem necessidades de currículo.

Esta solução fornece um exemplo de como traduzir as especificações da caixa delimitadora ao fornecer imagens ao algoritmo SageMaker. Esta solução também demonstra como melhorar um modelo de detecção de objetos adicionando imagens de treinamento que são invertidas horizontalmente (imagens espelhadas).

É fornecido um caderno para experimentar desafios de detecção de objetos quando há um grande número de classes (200 espécies de aves). O caderno também mostra como mapear as melhorias de precisão que ocorrem ao longo das épocas do trabalho de treinamento. A imagem a seguir mostra imagens de exemplo do conjunto de dados de pássaros.

Esta solução contém cinco etapas:

Prepare os dados, incluindo download e RecordIO geração de arquivo.
Crie e treine um modelo de detecção de objetos.
Implante um endpoint e avalie o desempenho do modelo.
Crie e treine novamente um modelo de detecção de objetos com o conjunto de dados expandido.
Implante um endpoint e avalie o desempenho do modelo expandido.

Você obtém o seguinte como saída:

Resultados de detecção de objetos com caixas de ligação em sua imagem de teste
Um modelo de detecção de objetos treinado
Um modelo de detecção de objetos treinado com um conjunto de dados expandido (invertido) adicional
Dois endpoints separados implantados com um de cada modelo

O gráfico a seguir mostra a melhoria do modelo em relação às iterações do modelo (épocas) durante o treinamento.

Os exemplos a seguir são produzidos a partir de duas imagens de teste.

Você pode aplicar esta solução ao seu negócio para os seguintes casos de uso:

Detecte objetos em uma esteira transportadora em uma indústria de embalagens
Detectar coberturas em uma pizza
Implementar aplicativos operacionais da cadeia de suprimentos que envolvam detecção de objetos

Previsão de sobrevivência ao câncer de pulmão

A COVID-19 trouxe muito mais atenção aos desafios médicos relacionados aos pulmões. Também colocou muita pressão sobre hospitais, médicos, enfermeiros e radiologistas. Imagine uma possibilidade em que você possa aplicar o ML como uma ferramenta poderosa para auxiliar os médicos e ajudá-los a agilizar seu trabalho. Nesta solução, mostramos como características radiômicas 2D e 3D e dados demográficos do paciente podem ser alimentados em um algoritmo de ML para prever as chances de sobrevivência do câncer de pulmão de um paciente. Os resultados desta previsão podem ajudar os prestadores a tomar medidas proativas adequadas.

Esta solução demonstra como construir um pipeline de ML escalonável para o conjunto de dados de radiogenômica do câncer de pulmão de células não pequenas (NSCLC), que consiste em dados de sequenciamento de RNA, dados clínicos (refletivos de dados de EHR) e imagens médicas. O uso de vários tipos de dados para criar um modelo de máquina é conhecido como multimodal ml. Esta solução prevê o resultado de sobrevivência de pacientes diagnosticados com câncer de pulmão de células não pequenas.

A imagem a seguir mostra um exemplo dos dados de entrada do conjunto de dados de radiogenômica do câncer de pulmão de células não pequenas (NSCLC).

Como parte da solução, o RNA total foi extraído do tecido tumoral e analisado com tecnologia de sequenciamento de RNA. Embora os dados originais contenham mais de 22,000 genes, mantemos 21 genes de 10 agrupamentos de genes altamente coexpressos (metagenes) que foram identificados, validados em coortes de expressão gênica disponíveis publicamente e correlacionados com o prognóstico.

Os registros clínicos são armazenados em formato CSV. Cada linha corresponde a um paciente e as colunas contêm informações sobre os pacientes, incluindo dados demográficos, estágio do tumor e status de sobrevivência.

Para dados genômicos, mantemos 21 genes de 10 agrupamentos de genes altamente coexpressos (metagenes) que foram identificados, validados em coortes de expressão gênica disponíveis publicamente e correlacionados com o prognóstico.

Para dados de imagens médicas, criamos recursos radiômicos 3D no nível do paciente que explicam o tamanho, a forma e os atributos visuais dos tumores observados nas tomografias computadorizadas. Para cada estudo de paciente, são realizadas as seguintes etapas:

Leia os arquivos de fatia DICOM 2D para tomografia computadorizada e segmentação de tumor, combine-os em volumes 3D e salve os volumes no formato NIfTI.
Alinhe o volume da TC e a segmentação do tumor para que possamos focar o cálculo dentro do tumor.
Calcule características radiômicas que descrevem a região do tumor usando a biblioteca piradiômica.
Extraia 120 características radiômicas de oito classes, como representações estatísticas da distribuição e coocorrência da intensidade na região tumoral de interesse e medições baseadas na forma que descrevem o tumor morfologicamente.

Para criar uma visão multimodal de um paciente para treinamento de modelo, unimos os vetores de características de três modalidades. Em seguida, processamos os dados. Primeiro, normalizamos a gama de recursos independentes usando escalonamento de recursos. Em seguida, realizamos análise de componentes principais (PCA) nos recursos para reduzir a dimensionalidade e identificar os recursos mais discriminativos que contribuem com 95% de variação nos dados.

Isso resulta em uma redução de dimensionalidade de 215 recursos para 45 componentes principais, que constituem recursos para o aluno supervisionado.

A solução produz um modelo de ML que prevê o status de sobrevivência dos pacientes com CPNPC (vivos ou mortos) em forma de probabilidade. Além do modelo e da previsão, também geramos relatórios para explicar o modelo. O pipeline de imagens médicas produz volumes de tomografia computadorizada de pulmão em 3D e segmentação de tumores para fins de visualização.

Você pode aplicar esta solução a casos de uso de saúde e ciências biológicas.

Classificação de pagamentos financeiros

Pegar todas as transações financeiras de uma empresa ou consumidor e organizá-las em várias categorias pode ser bastante útil. Ele pode ajudar o usuário a saber quanto gastou em cada categoria e também pode gerar alertas quando as transações ou gastos em uma determinada categoria aumentam ou diminuem inesperadamente.

Esta solução demonstra como treinar e implantar um modelo de ML para classificar transações financeiras com base em informações de transações. Muitos bancos oferecem isto como um serviço para dar aos seus utilizadores finais uma visão geral dos seus hábitos de consumo. Você também pode usar esta solução como uma etapa intermediária na detecção de fraudes, personalização ou detecção de anomalias. Usamos o SageMaker para treinar e implantar um modelo XGBoost com a infraestrutura subjacente necessária.

O conjunto de dados sintético que demonstramos esta solução possui os seguintes recursos:

categoria_transação – A categoria da transação, dentre as 19 opções a seguir: Uncategorized, Entertainment, Education, Shopping, Personal Care, Health and Fitness, Food and Dining, Gifts and Donations, Investments, Bills and Utilities, Auto and Transport, Travel, Fees and Charges, Business Services, Personal Services, Taxes, Gambling, Home e Pension and insurances.
receiver_id – Um identificador para a parte receptora. O identificador consiste em 16 números.
ID_do_remetente – Um identificador para a parte remetente. O identificador consiste em 16 números.
quantidade – O valor transferido.
timestamp – O carimbo de data/hora da transação no formato AAAA-MM-DD HH:MM:SS.

As primeiras cinco observações do conjunto de dados são as seguintes:

Para esta solução, usamos XGBoost, uma implementação de código aberto popular e eficiente do algoritmo de árvores com aumento de gradiente. O gradiente boosting é um algoritmo de aprendizado supervisionado que tenta prever com precisão uma variável alvo combinando um conjunto de estimativas de um conjunto de modelos mais simples e mais fracos. Sua implementação está disponível nos algoritmos integrados do SageMaker.

A solução de classificação de pagamentos financeiros contém quatro etapas:

Prepare os dados.
Construa uma loja de recursos.
Crie e treine um modelo XGBoost.
Implante um endpoint e avalie o desempenho do modelo.

Obtemos a seguinte saída:

Um modelo XGBoost treinado com base em nosso conjunto de dados de exemplo
Um endpoint SageMaker que pode prever a categoria da transação

Depois de executar esta solução, você deverá ver um relatório de classificação semelhante ao seguinte.

As possíveis aplicações para o seu negócio incluem o seguinte:

Várias aplicações financeiras em bancos de varejo e de investimento
Quando as transações precisam ser classificadas em qualquer caso de uso (não apenas financeiro)

Previsão de rotatividade para clientes de telefonia móvel

Prever a rotatividade de clientes é uma necessidade comercial muito comum. Numerosos estudos mostram que o custo de reter um cliente existente é muito menor do que adquirir um novo cliente. O desafio geralmente surge quando as empresas têm dificuldade em entender por que um cliente está mudando ou em construir um modelo que preveja a rotatividade.

Neste exemplo, os usuários que são novos no ML podem experimentar como um modelo de previsão de rotatividade pode ser desenvolvido rapidamente usando um conjunto de dados de transações de chamadas móveis. Esta solução usa o SageMaker para treinar e implantar um modelo XGBoost em um conjunto de dados de perfil de cliente para prever se um cliente provavelmente deixará uma operadora de telefonia móvel.

O conjunto de dados usado por esta solução está disponível publicamente e é mencionado no livro Discovering Knowledge in Data, de Daniel T. Larose. É atribuído pelo autor ao Repositório de conjuntos de dados de aprendizado de máquina da Universidade da Califórnia em Irvine.

Este conjunto de dados usa os 21 atributos a seguir para descrever o perfil de um cliente de uma operadora móvel desconhecida dos EUA.

Estado: o estado dos EUA em que o cliente reside, indicado por uma abreviatura de duas letras; por exemplo, OH ou NJ
Duração da conta: o número de dias que esta conta está ativa
Código de área: o código de área de três dígitos do número de telefone do cliente correspondente
Telefone: o número de telefone restante de sete dígitos
Plano Internacional: se o cliente possui plano de ligações internacionais: sim/não
Plano VMail: se o cliente possui recurso de correio de voz: sim/não
Mensagem VMail: o número médio de mensagens de correio de voz por mês
Day Mins: o número total de minutos de chamada usados durante o dia
Chamadas diurnas: o número total de chamadas feitas durante o dia
Cobrança diária: o custo faturado das chamadas diurnas
Eve Mins, Eve Calls, Eve Charge: o custo faturado para chamadas feitas durante a noite
Night Mins, Night Calls, Night Charge: o custo faturado para chamadas feitas durante a noite
Minutos Internacionais, Chamadas Internacionais, Cobrança Internacional: o custo faturado para chamadas internacionais
Chamadas CustServ: o número de chamadas feitas para o Atendimento ao Cliente
Churn?: se o cliente abandonou o serviço: verdadeiro/falso

Esta solução contém três etapas:

Prepare os dados.
Crie e treine um modelo XGBoost.
Implante um endpoint e avalie o desempenho do modelo.

Obtemos a seguinte saída:

Um modelo XGBoost treinado com base em nosso conjunto de dados de exemplo para prever a rotatividade de usuários
Um endpoint SageMaker que pode prever a rotatividade de usuários

Este modelo ajuda a estimar quantos dos 5,000 clientes de telefonia móvel provavelmente deixarão de usar sua operadora de telefonia móvel atual.

O gráfico a seguir mostra uma distribuição de probabilidade do churn como resultado do modelo.

Você pode aplicar isso ao seu negócio para os seguintes casos de uso:

Preveja a rotatividade de clientes em seu próprio negócio
Classifique quais clientes podem abrir seu e-mail de marketing e quem não (classificação binária)
Preveja quais alunos provavelmente abandonarão um curso

Limpe os recursos

Depois de terminar de executar uma solução no JumpStart, certifique-se de escolher Excluir todos os recursos assim, todos os recursos que você criou no processo serão excluídos e seu faturamento será interrompido.

Resumo

Esta postagem mostrou como resolver diversos problemas de negócios aplicando ML, com base nas soluções JumpStart. Embora esta postagem tenha se concentrado nas cinco novas soluções adicionadas recentemente ao JumpStart, há um total de 23 soluções disponíveis. Recomendamos que você faça login no Studio e veja você mesmo as soluções JumpStart e comece a obter valor imediato delas. Para obter mais informações, consulte Estúdio Amazon SageMaker e SageMaker JumpStart.

Observação: se você não encontrar todas as cinco soluções acima no console JumpStart da sua região AWS, aguarde uma semana e verifique novamente. Estamos liberando-os para diversas regiões de forma faseada.

Sobre os autores

Dr. Raju Penmatcha é arquiteto de soluções especialista em IA/ML em plataformas de IA na AWS. Ele trabalha no conjunto de serviços de baixo código/sem código do SageMaker que ajuda os clientes a criar e implantar facilmente modelos e soluções de aprendizado de máquina. Quando não está atendendo clientes, ele gosta de viajar para novos lugares.

Manan Xá é gerente de desenvolvimento de software na Amazon Web Services. Ele é um entusiasta de ML e se concentra na construção de produtos de IA/ML sem código/low-code. Ele se esforça para capacitar outras pessoas técnicas e talentosas para construir softwares excelentes.

Carimbo de hora: 31 de outubro de 20221 de novembro de 2022

Carimbo de hora: 22 Novembro, 2023

Resolva problemas de negócios de ponta a ponta por meio de machine learning nas soluções Amazon SageMaker JumpStart

Republicado por Platão

Visão geral da solução

Pré-requisitos

Otimização de preço

Previsão de espécies de aves

Previsão de sobrevivência ao câncer de pulmão

Classificação de pagamentos financeiros

Previsão de rotatividade para clientes de telefonia móvel

Limpe os recursos

Resumo

Sobre os autores

Mais de Aprendizado de máquina da AWS

Realize pesquisas inteligentes em e-mails em seu espaço de trabalho do Google usando o conector do Gmail para Amazon Kendra

Analise a infestação de roedores usando os recursos geoespaciais do Amazon SageMaker | Amazon Web Services

Usar amostras do Github com o Amazon SageMaker Data Wrangler

Pesquise conteúdo Alfresco de forma inteligente usando o Amazon Kendra

AWS e Mistral AI se comprometem a democratizar a IA generativa com uma colaboração fortalecida | Amazon Web Services

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta