Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Crie um fluxo de trabalho de machine learning de gerenciamento de riscos no Amazon SageMaker sem código

Desde a crise financeira global, o gerenciamento de risco assumiu um papel importante na tomada de decisões dos bancos, incluindo a previsão do status do empréstimo para clientes em potencial. Geralmente, esse é um exercício com uso intensivo de dados que requer aprendizado de máquina (ML). No entanto, nem todas as organizações têm os recursos e a experiência em ciência de dados para criar um fluxo de trabalho de ML de gerenciamento de risco.

Amazon Sage Maker é uma plataforma de ML totalmente gerenciada que permite que engenheiros de dados e analistas de negócios criem, treinem e implantem modelos de ML de maneira rápida e fácil. Engenheiros de dados e analistas de negócios podem colaborar usando os recursos sem código/com pouco código do SageMaker. Os engenheiros de dados podem usar Gerenciador de dados do Amazon SageMaker para agregar e preparar rapidamente dados para construção de modelos sem escrever código. Em seguida, os analistas de negócios podem usar a interface visual de apontar e clicar do Tela do Amazon SageMaker para gerar previsões precisas de ML por conta própria.

Neste post, mostramos como é simples para engenheiros de dados e analistas de negócios colaborarem para criar um fluxo de trabalho de ML envolvendo preparação de dados, construção de modelos e inferência sem escrever código.

Visão geral da solução

Embora o desenvolvimento de ML seja um processo complexo e iterativo, você pode generalizar um fluxo de trabalho de ML nos estágios de preparação de dados, desenvolvimento de modelo e implantação de modelo.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

O Data Wrangler e o Canvas abstraem as complexidades da preparação de dados e desenvolvimento de modelos, para que você possa se concentrar em agregar valor ao seu negócio, extraindo insights de seus dados sem ser um especialista em desenvolvimento de código. O diagrama de arquitetura a seguir destaca os componentes em uma solução sem código/com pouco código.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Serviço de armazenamento simples da Amazon (Amazon S3) atua como nosso repositório de dados para dados brutos, dados de engenharia e artefatos de modelo. Você também pode optar por importar dados de Amazon RedShift, Amazona atena, Databricks e Floco de Neve.

Como cientistas de dados, usamos o Data Wrangler para análise exploratória de dados e engenharia de recursos. Embora o Canvas possa executar tarefas de engenharia de recursos, a engenharia de recursos geralmente requer algum conhecimento estatístico e de domínio para enriquecer um conjunto de dados na forma correta para o desenvolvimento de modelos. Portanto, atribuímos essa responsabilidade aos engenheiros de dados para que eles possam transformar dados sem escrever código com o Data Wrangler.

Após a preparação dos dados, passamos as responsabilidades de construção do modelo para os analistas de dados, que podem usar o Canvas para treinar um modelo sem precisar escrever nenhum código.

Por fim, fazemos previsões únicas e em lote diretamente no Canvas a partir do modelo resultante sem precisar implantar nós mesmos os endpoints do modelo.

Visão geral do conjunto de dados

Usamos os recursos do SageMaker para prever o status de um empréstimo usando uma versão modificada do Lending Club conjunto de dados de análise de empréstimos disponível publicamente. O conjunto de dados contém dados de empréstimos emitidos até 2007–2011. As colunas que descrevem o empréstimo e o mutuário são nossas características. A coluna loan_status é a variável de destino, que é o que estamos tentando prever.

Para demonstrar no Data Wrangler, dividimos o conjunto de dados em dois arquivos CSV: parte um e parte dois. Removemos algumas colunas do conjunto de dados original do Lending Club para simplificar a demonstração. Nosso conjunto de dados contém mais de 37,000 linhas e 21 colunas de recursos, conforme descrito na tabela a seguir.

Nome da coluna Descrição
loan_status Situação atual do empréstimo (variável alvo).
loan_amount O valor listado do empréstimo solicitado pelo mutuário. Se o departamento de crédito reduz o valor do empréstimo, isso se reflete nesse valor.
funded_amount_by_investors O valor total comprometido pelos investidores para esse empréstimo naquele momento.
term O número de pagamentos do empréstimo. Os valores estão em meses e podem ser 36 ou 60.
interest_rate Taxa de juros do empréstimo.
installment O pagamento mensal devido pelo mutuário se o empréstimo se originar.
grade LC atribuiu grau de empréstimo.
sub_grade Subclasse de empréstimo atribuída a LC.
employment_length Tempo de trabalho em anos. Os valores possíveis estão entre 0 e 10, onde 0 significa menos de um ano e 10 significa dez ou mais anos.
home_ownership O status de propriedade da casa fornecido pelo mutuário durante o registro. Nossos valores são ALUGUEL, PRÓPRIO, HIPOTECA e OUTROS.
annual_income A renda anual autodeclarada fornecida pelo mutuário durante o registro.
verification_status Indica se a renda foi verificada ou não pela LC.
issued_amount O mês em que o empréstimo foi financiado.
purpose Uma categoria fornecida pelo mutuário para a solicitação de empréstimo.
dti Um índice calculado usando o total de pagamentos mensais da dívida do mutuário sobre as obrigações totais da dívida, excluindo hipoteca e o empréstimo LC solicitado, dividido pela renda mensal informada pelo mutuário.
earliest_credit_line O mês em que a primeira linha de crédito informada do mutuário foi aberta.
inquiries_last_6_months O número de consultas nos últimos 6 meses (excluindo consultas de automóveis e hipotecas).
open_credit_lines O número de linhas de crédito abertas no arquivo de crédito do mutuário.
derogatory_public_records O número de registros públicos depreciativos.
revolving_line_utilization_rate Taxa de utilização da linha rotativa, ou a quantidade de crédito que o mutuário está usando em relação a todo o crédito rotativo disponível.
total_credit_lines O número total de linhas de crédito atualmente no arquivo de crédito do mutuário.

Usamos esse conjunto de dados para nossa preparação de dados e treinamento de modelo.

Pré-requisitos

Conclua as seguintes etapas de pré-requisito:

  1. Carregue os dois arquivos de empréstimo para um bucket do S3 de sua escolha.
  2. Certifique-se de ter as permissões necessárias. Para obter mais informações, consulte Introdução ao Data Wrangler.
  3. Configure um domínio do SageMaker configurado para usar o Data Wrangler. Para obter instruções, consulte Integrado ao domínio do Amazon SageMaker.

Importar os dados

Criar um novo fluxo de dados do Data Wrangler do IU do Amazon SageMaker Studio.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Importe dados do Amazon S3 selecionando os arquivos CSV do bucket do S3 em que você colocou seu conjunto de dados. Depois de importar os dois arquivos, você pode ver dois fluxos de trabalho separados no Fluxo de dados Visão.

Você pode escolher várias opções de amostragem ao importar seus dados em um fluxo do Data Wrangler. A amostragem pode ajudar quando você tem um conjunto de dados muito grande para ser preparado interativamente ou quando deseja preservar a proporção de eventos raros em seu conjunto de dados amostrado. Como nosso conjunto de dados é pequeno, não usamos amostragem.

Prepare os dados

Para nosso caso de uso, temos dois conjuntos de dados com uma coluna comum: id. Como primeiro passo na preparação de dados, queremos combinar esses arquivos juntando-os. Para obter instruções, consulte Transformar dados.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Usamos o Cadastrar etapa de transformação de dados e use o Interior tipo de junção no id coluna.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Como resultado de nossa transformação de junção, o Data Wrangler cria duas colunas adicionais: id_0 e id_1. No entanto, essas colunas são desnecessárias para nossos propósitos de construção de modelo. Eliminamos essas colunas redundantes usando o Gerenciar colunas passo de transformação.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.
Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Importamos nossos conjuntos de dados, os juntamos e removemos colunas desnecessárias. Agora estamos prontos para enriquecer nossos dados por meio da engenharia de recursos e nos preparar para a construção de modelos.

Executar engenharia de recursos

Usamos o Data Wrangler para preparar os dados. Você também pode usar o Recurso de relatório de insights e qualidade de dados dentro do Data Wrangler para verificar a qualidade de seus dados e detectar anormalidades em seus dados. Os cientistas de dados geralmente precisam usar esses insights de dados para aplicar com eficiência o conhecimento de domínio certo aos recursos de engenharia. Para esta postagem, presumimos que concluímos essas avaliações de qualidade e podemos passar para a engenharia de recursos.

Nesta etapa, aplicamos algumas transformações em colunas numéricas, categóricas e de texto.

Primeiro, normalizamos a taxa de juros para escalar os valores entre 0 e 1. Fazemos isso usando o Processo numérico transformar para dimensionar o interest_rate coluna usando um scaler min-max. O propósito da normalização (ou padronização) é eliminar o viés de nosso modelo. Variáveis ​​que são medidas em diferentes escalas não contribuirão igualmente para o processo de aprendizagem do modelo. Portanto, uma função de transformação como uma transformação de escalonador min-max ajuda a normalizar recursos.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Para converter uma variável categorial em um valor numérico, usamos a codificação one-hot. Nós escolhemos o Codificar categórico transformar, então escolha Codificação one-hot. A codificação one-hot melhora a capacidade preditiva de um modelo de ML. Esse processo converte um valor categórico em um novo recurso atribuindo um valor binário de 1 ou 0 ao recurso. Como um exemplo simples, se você tivesse uma coluna que continha um valor de yes or no, a codificação one-hot converteria essa coluna em duas colunas: uma Yes coluna e um No coluna. Um valor sim teria 1 no Yes coluna e um 0 na No coluna. A codificação one-hot torna nossos dados mais úteis porque os valores numéricos podem determinar mais facilmente uma probabilidade para nossas previsões.

Por fim, destacamos o employer_title coluna para transformar seus valores de string em um vetor numérico. Aplicamos o Vetorizador de contagem e um tokenizer padrão dentro do Vetorizar transformar. A tokenização divide uma frase ou série de texto em palavras, enquanto um vetorizador converte dados de texto em um formato legível por máquina. Essas palavras são representadas como vetores.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Com todas as etapas de engenharia de recursos concluídas, podemos exportar os dados e gerar os resultados em nosso bucket do S3. Como alternativa, você pode exportar seu fluxo como código Python ou um notebook Jupyter para criar um pipeline com sua visualização usando Pipelines Amazon SageMaker. Considere isso quando quiser executar suas etapas de engenharia de recursos em escala ou como parte de um pipeline de ML.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Agora podemos usar o arquivo de saída do Data Wrangler como nossa entrada para o Canvas. Referenciamos isso como um conjunto de dados no Canvas para construir nosso modelo de ML.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

No nosso caso, exportamos nosso conjunto de dados preparado para o bucket padrão do Studio com um output prefixo. Referenciamos esse local do conjunto de dados ao carregar os dados no Canvas para a próxima construção do modelo.

Crie e treine seu modelo de ML com o Canvas

No console do SageMaker, inicie o aplicativo Canvas. Para construir um modelo de ML a partir dos dados preparados na seção anterior, realizamos as seguintes etapas:

  1. Importe o conjunto de dados preparado para o Canvas do bucket do S3.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Referenciamos o mesmo caminho do S3 em que exportamos os resultados do Data Wrangler da seção anterior.

  1. Crie um novo modelo no Canvas e nomeie-o loan_prediction_model.
  2. Selecione o conjunto de dados importado e adicione-o ao objeto de modelo.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Para que o Canvas construa um modelo, devemos selecionar a coluna de destino.

  1. Como nosso objetivo é prever a probabilidade da capacidade de um credor pagar um empréstimo, escolhemos a loan_status coluna.

O Canvas identifica automaticamente o tipo de declaração de problema de ML. No momento da escrita, o Canvas suporta problemas de regressão, classificação e previsão de séries temporais. Você pode especificar o tipo de problema ou fazer com que o Canvas inferir automaticamente o problema de seus dados.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

  1. Escolha sua opção para iniciar o processo de construção do modelo: Construção rápida or Versão padrão.

A Construção rápida A opção usa seu conjunto de dados para treinar um modelo em 2 a 15 minutos. Isso é útil quando você está experimentando um novo conjunto de dados para determinar se o conjunto de dados que você possui será suficiente para fazer previsões. Usamos esta opção para este post.

A Versão padrão A opção escolhe a precisão sobre a velocidade e usa aproximadamente 250 candidatos a modelo para treinar o modelo. O processo geralmente leva de 1 a 2 horas.

Após a construção do modelo, você pode revisar os resultados do modelo. O Canvas estima que seu modelo é capaz de prever o resultado certo em 82.9% das vezes. Seus próprios resultados podem variar devido à variabilidade nos modelos de treinamento.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Além disso, você pode mergulhar profundamente na análise de detalhes do modelo para saber mais sobre o modelo.

A importância do recurso representa a importância estimada de cada recurso na previsão da coluna de destino. Nesse caso, a coluna da linha de crédito tem o impacto mais significativo na previsão se um cliente pagará o valor do empréstimo, seguido pela taxa de juros e renda anual.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

A matriz de confusão no Métricas avançadas A seção contém informações para usuários que desejam uma compreensão mais profunda do desempenho de seu modelo.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Antes de implantar seu modelo para cargas de trabalho de produção, use o Canvas para testar o modelo. O Canvas gerencia nosso endpoint de modelo e nos permite fazer previsões diretamente na interface do usuário do Canvas.

  1. Escolha Prever e revise as conclusões sobre o Previsão de lote or Previsão única aba.

No exemplo a seguir, fazemos uma única previsão modificando valores para prever nossa variável de destino loan_status em tempo real

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Também podemos selecionar um conjunto de dados maior e fazer com que o Canvas gere previsões em lote em nosso nome.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Conclusão

O aprendizado de máquina de ponta a ponta é complexo e iterativo e geralmente envolve várias pessoas, tecnologias e processos. O Data Wrangler e o Canvas permitem a colaboração entre equipes sem exigir que essas equipes escrevam nenhum código.

Um engenheiro de dados pode facilmente preparar dados usando o Data Wrangler sem escrever nenhum código e passar o conjunto de dados preparado para um analista de negócios. Um analista de negócios pode criar facilmente modelos de ML precisos com apenas alguns cliques usando o Canvas e obter previsões precisas em tempo real ou em lote.

Comece com o Data Wrangler usando essas ferramentas sem ter que gerenciar nenhuma infraestrutura. Você pode configurar o Canvas comece de forma rápida e imediata a criar modelos de ML para atender às suas necessidades de negócios.


Sobre os autores

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.Pedro Chung é arquiteto de soluções da AWS e tem paixão por ajudar os clientes a descobrir insights de seus dados. Ele vem construindo soluções para ajudar as organizações a tomar decisões baseadas em dados nos setores público e privado. Ele possui todas as certificações da AWS, bem como duas certificações do GCP.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai. Meenakshisundaram Thandavarayan é especialista sênior em IA/ML da AWS. Ele ajuda contas estratégicas de alta tecnologia em sua jornada de IA e ML. Ele é muito apaixonado por IA orientada a dados.

Crie um fluxo de trabalho de aprendizado de máquina de gerenciamento de riscos no Amazon SageMaker sem código PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.Dan Ferguson é Arquiteto de Soluções na AWS, com sede em Nova York, EUA. Como especialista em serviços de aprendizado de máquina, Dan trabalha para apoiar os clientes em sua jornada para integrar fluxos de trabalho de ML de maneira eficiente, eficaz e sustentável.

Carimbo de hora:

Mais de Aprendizado de máquina da AWS