Gerenciador de dados do Amazon SageMaker é uma ferramenta de agregação e preparação de dados criada especificamente para aprendizado de máquina (ML). Ele permite que você use uma interface visual para acessar dados e realizar análise exploratória de dados (EDA) e engenharia de recursos. O recurso EDA vem com recursos integrados de análise de dados para gráficos (como gráfico de dispersão ou histograma) e recursos de análise de modelo que economizam tempo, como importância do recurso, vazamento de destino e explicabilidade do modelo. O recurso de engenharia de recursos tem mais de 300 transformações internas e pode realizar transformações personalizadas usando o tempo de execução Python, PySpark ou Spark SQL.
Para visualizações e transformações personalizadas, o Data Wrangler agora fornece trechos de código de exemplo para tipos comuns de visualizações e transformações. Neste post, demonstramos como usar esses trechos de código para iniciar rapidamente seu EDA no Data Wrangler.
Visão geral da solução
No momento da redação deste artigo, você pode importar conjuntos de dados para o Data Wrangler de Serviço de armazenamento simples da Amazon (Amazon S3), Amazona atena, Amazon RedShift, Databricks e Floco de Neve. Para este post, usamos o Amazon S3 para armazenar o Amazon 2014 analisa o conjunto de dados. A seguir, uma amostra do conjunto de dados:
Neste post, realizamos EDA usando três colunas—asin
, reviewTime
e overall
— que mapeiam para o ID do produto, a data da revisão e a pontuação geral da revisão, respectivamente. Usamos esses dados para visualizar a dinâmica do número de revisões em meses e anos.
Usando exemplo de trecho de código para EDA no Data Wrangler
Para começar a executar o EDA no Data Wrangler, conclua as etapas a seguir:
- Faça o download do Conjunto de dados de resenhas de música digital JSON e carregue-o no Amazon S3.
Usamos isso como o conjunto de dados brutos para o EDA. - Abra Estúdio Amazon SageMaker e crie um novo fluxo do Data Wrangler e importe o conjunto de dados do Amazon S3.
Esse conjunto de dados tem nove colunas, mas usamos apenas três:
asin
,reviewTime
eoverall
. Precisamos eliminar as outras seis colunas. - Crie uma transformação personalizada e escolha Python (PySpark).
- Expandir Pesquisar snippets de exemplo e escolha Solte todas as colunas, exceto várias.
- Insira o snippet fornecido em sua transformação personalizada e siga as instruções para modificar o código.
Agora que temos todas as colunas de que precisamos, vamos filtrar os dados para manter apenas as revisões entre 2000 e 2020.
- Use o Filtrar carimbo de data/hora fora do intervalo snippet para descartar os dados antes do ano 2000 e depois de 2020:
Em seguida, extraímos o ano e o mês da coluna reviewTime.
- Use o Destaque data/hora transformar.
- Escolha Extrair colunas, escolha ano e mês.
Em seguida, queremos agregar o número de avaliações por ano e mês que criamos na etapa anterior.
- Use o Calcular estatísticas em grupos trecho:
- Renomeie a agregação da etapa anterior de
count(overall)
parareviews_num
escolhendo Gerenciar colunas e os votos de Renomear coluna transformar.
Por fim, queremos criar um mapa de calor para visualizar a distribuição das avaliações por ano e por mês. - Na guia análise, escolha Visualização personalizada.
- Expandir Pesquisar trecho e escolha Heatmap no menu suspenso.
- Insira o snippet fornecido em sua visualização personalizada:
Obtemos a seguinte visualização.
Se quiser aprimorar ainda mais o mapa de calor, você pode dividir os dados para mostrar apenas as avaliações anteriores a 2011. Elas são difíceis de identificar no mapa de calor que acabamos de criar devido ao grande volume de avaliações desde 2012. - Adicione uma linha de código à sua visualização personalizada:
Obtemos o seguinte mapa de calor.
Agora o mapa de calor reflete as avaliações anteriores a 2011 de forma mais visível: podemos observar os efeitos sazonais (o final do ano traz mais compras e, portanto, mais avaliações) e identificar meses anômalos, como outubro de 2003 e março de 2005. Vale a pena investigar mais determinar a causa dessas anomalias.
Conclusão
O Data Wrangler é uma ferramenta de agregação e preparação de dados criada especificamente para ML. Neste post, demonstramos como realizar EDA e transformar seus dados rapidamente usando trechos de código fornecidos pelo Data Wrangler. Você só precisa encontrar um snippet, inserir o código e ajustar os parâmetros para corresponder ao seu conjunto de dados. Você pode continuar a iterar em seu script para criar visualizações e transformações mais complexas.
Para saber mais sobre o Data Wrangler, consulte Criar e usar um fluxo do Data Wrangler.
Sobre os autores
Nikita Ivkin é um cientista aplicado, Amazon SageMaker Data Wrangler.
Haider Naqvi é arquiteto de soluções na AWS. Ele tem uma extensa experiência em desenvolvimento de software e arquitetura corporativa. Ele se concentra em permitir que os clientes obtenham resultados de negócios com a AWS. Ele é baseado em Nova York.
Harish Rajagopalan é arquiteto de soluções sênior da Amazon Web Services. A Harish trabalha com clientes corporativos e os ajuda em sua jornada na nuvem.
James Wu é um especialista sênior em AI/ML SA na AWS. Ele trabalha com os clientes para acelerar sua jornada na nuvem e acelerar a realização do valor comercial. Além disso, James também é apaixonado por desenvolver e dimensionar grandes soluções de IA/ML em vários domínios. Antes de ingressar na AWS, ele liderou uma equipe de tecnologia de inovação multidisciplinar com engenheiros de ML e desenvolvedores de software para uma das principais empresas globais do mercado e do setor de publicidade.
- Coinsmart. A melhor troca de Bitcoin e criptografia da Europa.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. ACESSO LIVRE.
- CryptoHawk. Radar Altcoin. Teste grátis.
- Fonte: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- Sobre
- acelerar
- Acesso
- Alcançar
- em
- Adição
- Publicidade
- Todos os Produtos
- permite
- Amazon
- Amazon Web Services
- análise
- aplicado
- arquitetura
- disponível
- AWS
- eixo
- Porque
- antes
- entre
- construídas em
- negócio
- capacidades
- Causar
- charts
- Escolha
- Na nuvem
- código
- Coluna
- comum
- completar
- integrações
- continuar
- controles
- crio
- criado
- personalizadas
- Clientes
- dados,
- análise de dados
- demonstrar
- demonstraram
- Determinar
- desenvolvedores
- em desenvolvimento
- Desenvolvimento
- distribuição
- domínios
- down
- Cair
- dinâmica
- efeitos
- permitindo
- Engenharia
- Engenheiros
- Entrar
- Empreendimento
- exemplo
- Exceto
- vasta experiência
- extenso
- mais rápido
- Característica
- Finalmente
- Empresa
- Primeiro nome
- fluxo
- concentra-se
- seguir
- seguinte
- da
- função
- funções
- mais distante
- Global
- ótimo
- Do grupo
- ter
- útil
- ajuda
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTTPS
- identificar
- importância
- indústria
- Inovação
- Interface
- IT
- viagem
- Guarda
- grande
- APRENDER
- aprendizagem
- levou
- Line
- Lista
- máquina
- aprendizado de máquina
- mapa,
- Março
- mercado
- Match
- ML
- modelo
- Mês
- mês
- mais
- Música
- nomes
- New York
- número
- Outros
- global
- apaixonado
- realização
- jogar
- Preparar
- anterior
- Produto
- fornecer
- fornecido
- fornece
- compra
- compras
- quantitativo
- rapidamente
- Cru
- registros
- reflete
- rever
- Opinões
- dimensionamento
- Cientista
- Serviços
- simples
- desde
- SIX
- Software
- desenvolvimento de software
- Soluções
- especialista
- começo
- estatística
- armazenamento
- loja
- Target
- Profissionais
- Equipar
- A
- assim sendo
- três
- tempo
- ferramenta
- topo
- Transformar
- transformações
- tipos
- usar
- valor
- vário
- visualização
- volumes
- web
- serviços web
- QUEM
- Maravilhoso
- trabalho
- Equivalente há
- escrita
- X
- ano
- anos
- investimentos