Gerenciador de dados do Amazon SageMaker é uma interface visual única que reduz o tempo necessário para preparar dados e executar a engenharia de recursos de semanas para minutos com a capacidade de selecionar e limpar dados, criar recursos e automatizar a preparação de dados em fluxos de trabalho de aprendizado de máquina (ML) sem escrever nenhum código.
SageMaker Data Wrangler suporta Floco de neve, uma fonte de dados popular para usuários que desejam realizar ML. Lançamos a conexão direta Snowflake do SageMaker Data Wrangler para melhorar a experiência do cliente. Antes do lançamento desse recurso, os administradores precisavam configurar a integração de armazenamento inicial para se conectar ao Snowflake para criar recursos para ML no Data Wrangler. Isso inclui provisionamento Serviço de armazenamento simples da Amazon (Amazon S3) baldes, Gerenciamento de acesso e identidade da AWS (IAM) permissões de acesso, integração de armazenamento Snowflake para usuários individuais e um mecanismo contínuo para gerenciar ou limpar cópias de dados no Amazon S3. Este processo não é escalável para clientes com controle rígido de acesso a dados e grande número de usuários.
Nesta postagem, mostramos como a conexão direta do Snowflake no SageMaker Data Wrangler simplifica a experiência do administrador e a jornada de ML do cientista de dados, dos dados aos insights de negócios.
Visão geral da solução
Nesta solução, usamos o SageMaker Data Wrangler para acelerar a preparação de dados para ML e Piloto automático do Amazon SageMaker para criar, treinar e ajustar automaticamente os modelos de ML com base em seus dados. Ambos os serviços são projetados especificamente para aumentar a produtividade e reduzir o tempo de retorno para os profissionais de ML. Também demonstramos o acesso simplificado aos dados do SageMaker Data Wrangler para o Snowflake com conexão direta para consultar e criar recursos para ML.
Consulte o diagrama abaixo para obter uma visão geral do processo de ML de baixo código com Snowflake, SageMaker Data Wrangler e SageMaker Autopilot.
O fluxo de trabalho inclui as seguintes etapas:
- Navegue até o SageMaker Data Wrangler para suas tarefas de preparação de dados e engenharia de recursos.
- Configure a conexão do Snowflake com o SageMaker Data Wrangler.
- Explore suas tabelas Snowflake no SageMaker Data Wrangler, crie um conjunto de dados de ML e execute a engenharia de recursos.
- Treine e teste os modelos usando o SageMaker Data Wrangler e o SageMaker Autopilot.
- Carregue o melhor modelo em um endpoint de inferência em tempo real para previsões.
- Use um notebook Python para invocar o endpoint de inferência em tempo real iniciado.
Pré-requisitos
Para esta postagem, o administrador precisa dos seguintes pré-requisitos:
Os cientistas de dados devem ter os seguintes pré-requisitos
Por fim, você deve preparar seus dados para o Snowflake
- Usamos dados de transações de cartão de crédito de Kaggle para criar modelos de ML para detectar transações de cartão de crédito fraudulentas, para que os clientes não sejam cobrados por itens que não compraram. O conjunto de dados inclui transações de cartão de crédito em setembro de 2013 feitas por titulares de cartões europeus.
- Você deve usar o Cliente SnowSQL e instale-o em sua máquina local, para que você possa usá-lo para carregar o conjunto de dados em uma tabela Snowflake.
As etapas a seguir mostram como preparar e carregar o conjunto de dados no banco de dados Snowflake. Esta é uma configuração única.
Tabela de floco de neve e preparação de dados
Conclua as etapas a seguir para esta configuração única:
- Primeiro, como administrador, crie um warehouse virtual, usuário e função do Snowflake e conceda acesso a outros usuários, como cientistas de dados, para criar um banco de dados e preparar dados para seus casos de uso de ML:
- Como cientista de dados, vamos agora criar um banco de dados e importar as transações de cartão de crédito para o banco de dados Snowflake para acessar os dados do SageMaker Data Wrangler. Para fins de ilustração, criamos um banco de dados Snowflake chamado
SF_FIN_TRANSACTION
: - Baixe o arquivo CSV do conjunto de dados para sua máquina local e crie um estágio para carregar os dados na tabela do banco de dados. Atualize o caminho do arquivo para apontar para o local do conjunto de dados baixado antes de executar o comando PUT para importar os dados para o estágio criado:
- Crie uma tabela chamada
credit_card_transactions
: - Importe os dados para a tabela criada a partir do palco:
Configurar o SageMaker Data Wrangler e a conexão Snowflake
Depois de preparar o conjunto de dados para usar com o SageMaker Data Wrangler, vamos criar uma nova conexão Snowflake no SageMaker Data Wrangler para conectar ao sf_fin_transaction
banco de dados no Snowflake e consultar o credit_card_transaction
tabela:
- Escolha Floco de neve no SageMaker Data Wrangler Conexão Disputas de Comerciais.
- Forneça um nome para identificar sua conexão.
- Selecione seu método de autenticação para se conectar ao banco de dados Snowflake:
- Se estiver usando autenticação básica, forneça o nome de usuário e a senha compartilhados pelo administrador do Snowflake. Para esta postagem, usamos autenticação básica para conectar ao Snowflake usando as credenciais de usuário que criamos na etapa anterior.
- Se você estiver usando OAuth, forneça suas credenciais de provedor de identidade.
Por padrão, o SageMaker Data Wrangler consulta seus dados diretamente do Snowflake sem criar nenhuma cópia de dados em depósitos S3. O novo aprimoramento de usabilidade do SageMaker Data Wrangler usa o Apache Spark para se integrar ao Snowflake para preparar e criar perfeitamente um conjunto de dados para sua jornada de ML.
Até agora, criamos o banco de dados no Snowflake, importamos o arquivo CSV para a tabela do Snowflake, criamos as credenciais do Snowflake e criamos um conector no SageMaker Data Wrangler para conectar ao Snowflake. Para validar a conexão Snowflake configurada, execute a seguinte consulta na tabela Snowflake criada:
Observe que a opção de integração de armazenamento que era necessária antes agora é opcional nas configurações avançadas.
Explorar os dados do floco de neve
Depois de validar os resultados da consulta, escolha importação para salvar os resultados da consulta como o conjunto de dados. Usamos esse conjunto de dados extraído para análise exploratória de dados e engenharia de recursos.
Você pode escolher amostrar os dados do Snowflake na IU do SageMaker Data Wrangler. Outra opção é baixar dados completos para seus casos de uso de treinamento de modelo de ML usando trabalhos de processamento do SageMaker Data Wrangler.
Realize análises exploratórias de dados no SageMaker Data Wrangler
Os dados no Data Wrangler precisam ser projetados antes de serem treinados. Nesta seção, demonstramos como executar a engenharia de recursos nos dados do Snowflake usando os recursos integrados do SageMaker Data Wrangler.
Primeiro, vamos usar o Data Quality and Insights Report
recurso dentro do SageMaker Data Wrangler para gerar relatórios para verificar automaticamente a qualidade dos dados e detectar anormalidades nos dados do Snowflake.
Você pode usar o relatório para ajudá-lo a limpar e processar seus dados. Ele fornece informações como o número de valores ausentes e o número de valores discrepantes. Se você tiver problemas com seus dados, como vazamento de alvo ou desequilíbrio, o relatório de insights pode chamar sua atenção para esses problemas. Para entender os detalhes do relatório, consulte Acelere a preparação de dados com qualidade de dados e insights no Amazon SageMaker Data Wrangler.
Depois de verificar a correspondência de tipo de dados aplicada pelo SageMaker Data Wrangler, conclua as seguintes etapas:
- Escolha o sinal de mais ao lado de Tipos de dados e escolha Adicionar análise.
- Escolha Tipo de análise, escolha Relatório de insights e qualidade de dados.
- Escolha Crie.
- Consulte os detalhes do Relatório de insights e qualidade de dados para verificar os avisos de alta prioridade.
Você pode optar por resolver os avisos relatados antes de prosseguir com sua jornada de ML.
A coluna de destino Class
a ser previsto é classificado como uma string. Primeiro, vamos aplicar uma transformação para remover os caracteres vazios obsoletos.
- Escolha Adicionar etapa e escolha String de formato.
- Na lista de transformações, escolha Tira esquerda e direita.
- Digite os caracteres para remover e escolha Adicionar.
Em seguida, convertemos a coluna de destino Class
do tipo de dados string para booleano porque a transação é legítima ou fraudulenta.
- Escolha Adicionar etapa.
- Escolha Analisar coluna como tipo.
- Para Coluna, escolha
Class
. - Escolha De, escolha Tanga.
- Escolha Para, escolha Booleano.
- Escolha Adicionar.
Após a transformação da coluna de destino, reduzimos o número de colunas de recursos, pois há mais de 30 recursos no conjunto de dados original. Usamos a Análise de Componentes Principais (PCA) para reduzir as dimensões com base na importância do recurso. Para entender mais sobre PCA e redução de dimensionalidade, consulte Algoritmo de Análise de Componentes Principais (PCA).
- Escolha Adicionar etapa.
- Escolha Redução de dimensionalidade.
- Escolha Transformar, escolha Análise do componente principal.
- Escolha Colunas de entrada, escolha todas as colunas, exceto a coluna de destino
Class
. - Escolha o sinal de mais ao lado de Fluxo de dados e escolha Adicionar análise.
- Escolha Tipo de análise, escolha Modelo Rápido.
- Escolha Nome da análise, Insira o nome.
- Escolha O rótulo, escolha
Class
. - Escolha Execute.
Com base nos resultados do PCA, você pode decidir quais recursos usar para construir o modelo. Na captura de tela a seguir, o gráfico mostra os recursos (ou dimensões) ordenados com base na maior para a menor importância para prever a classe de destino, que neste conjunto de dados indica se a transação é fraudulenta ou válida.
Você pode optar por reduzir o número de recursos com base nessa análise, mas, para esta postagem, deixamos os padrões como estão.
Isso conclui nosso processo de engenharia de recursos, embora você possa optar por executar o modelo rápido e criar um relatório de insights e qualidade de dados novamente para entender os dados antes de realizar outras otimizações.
Exportar dados e treinar o modelo
Na próxima etapa, usamos o SageMaker Autopilot para criar, treinar e ajustar automaticamente os melhores modelos de ML com base em seus dados. Com o SageMaker Autopilot, você ainda mantém total controle e visibilidade de seus dados e modelo.
Agora que concluímos a exploração e a engenharia de recursos, vamos treinar um modelo no conjunto de dados e exportar os dados para treinar o modelo de ML usando o SageMaker Autopilot.
- No Training guia, escolha Exportar e treinar.
Podemos monitorar o progresso da exportação enquanto esperamos que ela seja concluída.
Vamos configurar o SageMaker Autopilot para executar um trabalho de treinamento automatizado especificando o destino que queremos prever e o tipo de problema. Nesse caso, como estamos treinando o conjunto de dados para prever se a transação é fraudulenta ou válida, usamos a classificação binária.
- Insira um nome para seu experimento, forneça os dados de localização do S3 e escolha Próximo: Alvo e recursos.
- Escolha Target, escolha
Class
como a coluna a prever. - Escolha Próximo: Método de treinamento.
Vamos permitir que o piloto automático do SageMaker decida o método de treinamento com base no conjunto de dados.
- Escolha Método de treinamento e algoritmos, selecione Auto.
Para entender mais sobre os modos de treinamento suportados pelo SageMaker Autopilot, consulte Modos de treinamento e algoritmo .
- Escolha Próximo: Implantação e configurações avançadas.
- Escolha Opção de implantação, escolha Implante automaticamente o melhor modelo com transformações do Data Wrangler, que carrega o melhor modelo para inferência após a conclusão da experimentação.
- Insira um nome para o endpoint.
- Escolha Selecione o tipo de problema de aprendizado de máquina, escolha Classificação binária.
- Escolha Métrica de objeção, escolha F1.
- Escolha Próximo: Revisar e criar.
- Escolha Criar experimento.
Isso inicia um trabalho do SageMaker Autopilot que cria um conjunto de trabalhos de treinamento que usa combinações de hiperparâmetros para otimizar a métrica objetiva.
Aguarde até que o piloto automático do SageMaker conclua a criação dos modelos e a avaliação do melhor modelo de ML.
Inicie um endpoint de inferência em tempo real para testar o melhor modelo
O SageMaker Autopilot executa experimentos para determinar o melhor modelo que pode classificar transações de cartão de crédito como legítimas ou fraudulentas.
Quando o SageMaker Autopilot conclui o experimento, podemos visualizar os resultados do treinamento com as métricas de avaliação e explorar o melhor modelo na página de descrição do trabalho do SageMaker Autopilot.
- Selecione o melhor modelo e escolha Implantar modelo.
Usamos um endpoint de inferência em tempo real para testar o melhor modelo criado por meio do SageMaker Autopilot.
- Selecionar Faça previsões em tempo real.
Quando o endpoint está disponível, podemos passar a carga útil e obter resultados de inferência.
Vamos iniciar um notebook Python para usar o endpoint de inferência.
- No console do SageMaker Studio, escolha o ícone de pasta no painel de navegação e escolha Criar caderno.
- Use o seguinte código Python para invocar o endpoint de inferência em tempo real implantado:
A saída mostra o resultado como false
, o que implica que os dados do recurso de amostra não são fraudulentos.
limpar
Para garantir que você não seja cobrado após concluir este tutorial, desligue o aplicativo SageMaker Data Wrangler e desligar a instância do notebook usado para fazer inferência. Você também deveria exclua o endpoint de inferência você criou usando o SageMaker Autopilot para evitar cobranças adicionais.
Conclusão
Nesta postagem, demonstramos como trazer seus dados diretamente do Snowflake sem criar cópias intermediárias no processo. Você pode obter amostras ou carregar seu conjunto de dados completo no SageMaker Data Wrangler diretamente do Snowflake. Em seguida, você pode explorar os dados, limpá-los e executar a engenharia de recursos usando a interface visual do SageMaker Data Wrangler.
Também destacamos como você pode treinar e ajustar facilmente um modelo com o SageMaker Autopilot diretamente da interface do usuário do SageMaker Data Wrangler. Com a integração do SageMaker Data Wrangler e do SageMaker Autopilot, podemos criar rapidamente um modelo após a conclusão da engenharia de recursos, sem escrever nenhum código. Em seguida, referenciamos o melhor modelo do SageMaker Autopilot para executar inferências usando um endpoint em tempo real.
Experimente hoje a nova integração direta do Snowflake com o SageMaker Data Wrangler para criar facilmente modelos de ML com seus dados usando o SageMaker.
Sobre os autores
Hariharan Suresh é Arquiteto de Soluções Sênior na AWS. Ele é apaixonado por bancos de dados, aprendizado de máquina e design de soluções inovadoras. Antes de ingressar na AWS, Hariharan foi arquiteto de produtos, especialista em implementação de core banking e desenvolvedor, e trabalhou com organizações BFSI por mais de 11 anos. Fora da tecnologia, ele gosta de parapente e ciclismo.
Aparajithan Vaidyanathan é Arquiteto Principal de Soluções Corporativas da AWS. Ele oferece suporte a clientes corporativos que migram e modernizam suas cargas de trabalho na nuvem AWS. Ele é um arquiteto de nuvem com mais de 23 anos de experiência projetando e desenvolvendo sistemas de software corporativos, de grande escala e distribuídos. Ele é especialista em aprendizado de máquina e análise de dados com foco no domínio de engenharia de dados e recursos. Ele é um aspirante a corredor de maratona e seus hobbies incluem caminhadas, andar de bicicleta e passar o tempo com sua esposa e dois filhos.
Canção de Tim é um engenheiro de desenvolvimento de software na AWS SageMaker, com mais de 10 anos de experiência como desenvolvedor de software, consultor e líder de tecnologia, ele demonstrou capacidade de fornecer produtos escaláveis e confiáveis e resolver problemas complexos. Em seu tempo livre, ele gosta da natureza, corrida ao ar livre, caminhadas e etc.
bosco albuquerque é arquiteto sênior de soluções de parceiros na AWS e tem mais de 20 anos de experiência trabalhando com produtos de análise e banco de dados de fornecedores de bancos de dados corporativos e provedores de nuvem. Ele ajudou grandes empresas de tecnologia a projetar soluções de análise de dados e liderou equipes de engenharia na concepção e implementação de plataformas de análise de dados e produtos de dados.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Automotivo / EVs, Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- BlockOffsets. Modernizando a Propriedade de Compensação Ambiental. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-business-insights-with-the-amazon-sagemaker-data-wrangler-direct-connection-to-snowflake/
- :tem
- :é
- :não
- $UP
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 20
- 20 anos
- 2013
- 27
- 30
- 40
- 500
- 7
- 9
- a
- habilidade
- Sobre
- acelerar
- Acesso
- Conta
- Adicional
- administradores
- avançado
- Depois de
- novamente
- AI / ML
- Todos os Produtos
- permitir
- tb
- Apesar
- Amazon
- Amazon Sage Maker
- Gerenciador de dados do Amazon SageMaker
- Amazon Web Services
- quantidade
- an
- análise
- analítica
- e
- Outro
- qualquer
- apache
- api
- aplicado
- Aplicar
- SOMOS
- AS
- aspirador
- At
- por WhatsApp.
- Autenticação
- automatizar
- Automatizado
- automaticamente
- disponível
- AWS
- Bancário
- baseado
- basic
- BE
- Porque
- antes
- abaixo
- MELHOR
- BFSI
- corpo
- ambos
- trazer
- construir
- Prédio
- construídas em
- negócio
- mas a
- by
- CAN
- capacidades
- capturar
- cartão
- casas
- casos
- caracteres
- carregada
- acusações
- verificar
- Escolha
- classe
- classificação
- classificado
- classificar
- cliente
- Na nuvem
- código
- Coluna
- colunas
- combinações
- Empresas
- completar
- Efetuado
- Completa
- completando
- integrações
- componente
- configurado
- Contato
- da conexão
- cônsul
- consultor
- continuar
- ao controle
- converter
- núcleo
- Banco central
- crio
- criado
- cria
- Criar
- Credenciais
- crédito
- cartão de crédito
- cliente
- experiência do cliente
- Clientes
- dados,
- acesso a dados
- análise de dados
- Análise de Dados
- Preparação de dados
- cientista de dados
- banco de dados
- bases de dados
- decidir
- Padrão
- defaults
- entregar
- demonstrar
- demonstraram
- implantar
- implantado
- desenvolvimento
- descrição
- Design
- projetado
- concepção
- detalhes
- Determinar
- Developer
- em desenvolvimento
- Desenvolvimento
- dimensões
- diretamente
- diretamente
- distribuído
- domínio
- não
- down
- download
- facilmente
- ou
- Ponto final
- engenheiro
- Engenharia
- Entrar
- Empreendimento
- etc.
- Europa
- avaliação
- Exceto
- existe
- vasta experiência
- experimentar
- experimentos
- exploração
- Análise exploratória de dados
- explorar
- exportar
- longe
- Característica
- Funcionalidades
- Apresentando
- Envie o
- financeiro
- acabamento
- Primeiro nome
- Flutuador
- Foco
- seguinte
- Escolha
- formato
- fraudulento
- da
- cheio
- mais distante
- gerar
- ter
- dá
- conceder
- gráfico
- Ter
- he
- ajudar
- ajudou
- mais
- Destaque
- sua
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTML
- http
- HTTPS
- ÍCONE
- identificar
- Identidade
- if
- desequilíbrio
- implementação
- implementação
- importar
- importância
- importador
- importações
- melhorar
- in
- incluir
- inclui
- Crescimento
- Individual
- INFORMAÇÕES
- do estado inicial,
- inovadores
- insights
- instalar
- integrar
- integração
- Interface
- interno
- para dentro
- questões
- IT
- Unid
- Trabalho
- Empregos
- juntando
- viagem
- jpg
- json
- grande
- em grande escala
- lançamento
- lançado
- líder
- aprendizagem
- Deixar
- levou
- esquerda
- legítimo
- deixar
- Biblioteca
- LIMITE
- Lista
- carregar
- cargas
- local
- localização
- menor
- máquina
- aprendizado de máquina
- moldadas
- a manter
- fazer
- gerencia
- Maratona
- correspondente
- Posso..
- mecanismo
- método
- métrico
- Métrica
- migrado
- Minutos
- desaparecido
- ML
- modelo
- modelos
- modernizar
- modos
- Monitore
- mais
- nome
- Nomeado
- Natureza
- Navegação
- Cria
- Novo
- Próximo
- caderno
- agora
- número
- juramento
- objeto
- objetivo
- of
- on
- contínuo
- Otimize
- Opção
- or
- ordem
- organizações
- original
- OS
- Outros
- A Nossa
- Fora
- saída
- lado de fora
- Acima de
- Visão geral
- página
- pão
- parceiro
- passar
- apaixonado
- Senha
- caminho
- Realizar
- realização
- permissões
- Plataformas
- platão
- Inteligência de Dados Platão
- PlatãoData
- mais
- ponto
- Popular
- Publique
- predizer
- previsto
- Previsões
- preparação
- Preparar
- pré-requisitos
- evitar
- anterior
- Diretor
- Impressão
- Prévio
- Problema
- problemas
- processo
- em processamento
- Produto
- produtividade
- Produtos
- Progresso
- fornecer
- provedor
- fornecedores
- público
- compra
- fins
- colocar
- Python
- qualidade
- consultas
- Links
- rapidamente
- em tempo real
- reduzir
- reduz
- redução
- confiável
- remover
- substituir
- Denunciar
- Informou
- Relatórios
- solicitar
- requeridos
- resposta
- resultar
- Resultados
- rever
- equitação
- Tipo
- Execute
- corredor
- corrida
- s
- sábio
- Salvar
- escalável
- Cientista
- cientistas
- sem problemas
- Seção
- enviar
- senior
- Setembro
- Serviços
- conjunto
- Configurações
- instalação
- compartilhado
- rede de apoio social
- mostrar
- Shows
- assinar
- simples
- simplificada
- solteiro
- So
- Software
- desenvolvimento de software
- solução
- Soluções
- RESOLVER
- canção
- fonte
- Faísca
- especialista
- especializada
- especificamente
- velocidade
- Passar
- Etapa
- começa
- Passo
- Passos
- Ainda
- armazenamento
- loja
- Estrito
- Tanga
- estudo
- enviar
- bem sucedido
- entraram com sucesso
- tal
- ajuda
- Suportado
- suportes
- sistemas
- mesa
- Target
- tarefas
- equipes
- tecnologia
- Tecnologia
- empresas de tecnologia
- teste
- que
- A
- The Graph
- deles
- então
- Lá.
- deles
- isto
- aqueles
- Através da
- tempo
- para
- hoje
- Trem
- treinado
- Training
- transação
- Transações
- Transformação
- transformações
- verdadeiro
- tutorial
- dois
- tipo
- ui
- compreender
- Atualizar
- us
- usabilidade
- usar
- usava
- Utilizador
- Interface de Usuário
- usuários
- usos
- utilização
- v1
- VALIDAR
- valor
- Valores
- fornecedores
- verificar
- Ver
- Virtual
- visibilidade
- esperar
- queremos
- foi
- we
- web
- serviços web
- semanas
- foram
- se
- qual
- enquanto
- QUEM
- mulher
- de
- dentro
- sem
- Atividades:
- trabalhou
- de gestão de documentos
- fluxos de trabalho
- trabalhar
- escrita
- anos
- Vocês
- investimentos
- zefirnet