Gerenciador de dados do Amazon SageMaker reduz o tempo para agregar e preparar dados para aprendizado de máquina (ML) de semanas para minutos. Com o Data Wrangler, você pode selecionar e consultar dados com apenas alguns cliques, transformar dados rapidamente com mais de 300 transformações de dados integradas e entender seus dados com visualizações integradas sem escrever nenhum código.
Além disso, você pode criar transformações personalizadas exclusivo para suas necessidades. As transformações personalizadas permitem escrever transformações personalizadas usando PySpark, Pandas ou SQL.
O Data Wrangler agora suporta um Função definida pelo usuário do Pandas (UDF) que pode processar grandes conjuntos de dados com eficiência. Você pode escolher entre dois modos UDF personalizados do Pandas: Pandas e Python. Ambos os modos fornecem uma solução eficiente para processar conjuntos de dados, e o modo escolhido depende de sua preferência.
Neste post, demonstramos como usar a nova transformação UDF do Pandas em qualquer um dos modos.
Visão geral da solução
No momento da redação deste artigo, você pode importar conjuntos de dados para o Data Wrangler de Serviço de armazenamento simples da Amazon (Amazon S3), Amazona atena, Amazon RedShift, Databricks e Floco de Neve. Para este post, usamos o Amazon S3 para armazenar o 2014 Conjunto de dados de revisões da Amazon.
Os dados têm uma coluna chamada reviewText
contendo texto gerado pelo usuário. O texto também contém vários pare de palavras, que são palavras comuns que não fornecem muitas informações, como "um", "um" e "o". A remoção de palavras de parada é uma etapa comum de pré-processamento em pipelines de processamento de linguagem natural (NLP). Podemos criar uma função personalizada para remover as palavras de parada dos comentários.
Criar uma transformação UDF Pandas personalizada
Vamos percorrer o processo de criação de duas transformações Pandas UDF personalizadas do Data Wrangler usando os modos Pandas e Python.
- Faça o download do Conjunto de dados de resenhas de música digital e faça o upload para o Amazon S3.
- Abra Estúdio Amazon SageMaker e crie um novo fluxo do Data Wrangler.
- Debaixo Datas de importação, escolha Amazon S3 e navegue até o local do conjunto de dados.
- Escolha Tipo de arquivo, escolha JSON.
Uma visualização dos dados deve ser exibida na tabela.
- Escolha importação para prosseguir.
- Depois que seus dados forem importados, escolha o sinal de mais ao lado de Tipos de dados e escolha Adicionar transformação.
- Escolha Transformação personalizada.
- No menu suspenso, Python (função definida pelo usuário).
Agora criamos nossa transformação personalizada para remover palavras de parada.
- Especifique sua coluna de entrada, coluna de saída, tipo de retorno e modo.
O exemplo a seguir usa o modo Pandas. Isso significa que a função deve aceitar e retornar uma série Pandas do mesmo tamanho. Você pode pensar em uma série Pandas como uma coluna em uma tabela ou um pedaço da coluna. Este é o modo UDF do Pandas com melhor desempenho porque o Pandas pode vetorizar operações em lotes de valores em vez de um de cada vez. o pd.Series
dicas de tipo são necessárias no modo Pandas.
Se você preferir usar Python puro em oposição à API do Pandas, o modo Python permite especificar uma função Python pura que aceita um único argumento e retorna um único valor. O exemplo a seguir é equivalente ao código Pandas anterior em termos de saída. As dicas de tipo não são necessárias no modo Python.
- Escolha Adicionar para adicionar sua transformação personalizada.
Conclusão
O Data Wrangler tem mais de 300 transformações integradas e você também pode adicionar transformações personalizadas exclusivas aos seus requisitos. Neste post, demonstramos como processar conjuntos de dados com a nova transformação Pandas UDF personalizada do Data Wrangler, usando os modos Pandas e Python. Você pode usar qualquer um dos modos com base em sua preferência. Para saber mais sobre o Data Wrangler, consulte Criar e usar um fluxo do Data Wrangler.
Sobre os autores
Ben Harris é um engenheiro de software com experiência em projetar, implantar e manter pipelines de dados escaláveis e soluções de aprendizado de máquina em vários domínios. Ben construiu sistemas para coleta e rotulagem de dados, classificação de imagens e textos, modelagem de sequência a sequência, incorporação e agrupamento, entre outros.
Haider Naqvi é arquiteto de soluções na AWS. Ele tem uma vasta experiência em Desenvolvimento de Software e Arquitetura Corporativa. Ele se concentra em permitir que os clientes obtenham resultados de negócios com a AWS. Ele é baseado em Nova York.
Vishal Srivastava é um gerente técnico de contas na AWS. Com experiência em desenvolvimento de software e análise, ele trabalha principalmente com o setor de serviços financeiros e clientes empresariais nativos digitais e apoia sua jornada na nuvem. Nas horas vagas, adora viajar com a família.
- Coinsmart. A melhor troca de Bitcoin e criptografia da Europa.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. ACESSO LIVRE.
- CryptoHawk. Radar Altcoin. Teste grátis.
- Fonte: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- Sobre
- Conta
- em
- Amazon
- entre
- analítica
- api
- arquitetura
- disponível
- AWS
- fundo
- construídas em
- negócio
- Escolha
- classificação
- Na nuvem
- código
- coleção
- Coluna
- comum
- contém
- crio
- Criar
- personalizadas
- Clientes
- dados,
- demonstrar
- demonstraram
- depende
- Implantação
- concepção
- Desenvolvimento
- digital
- domínios
- eficiente
- eficientemente
- permitindo
- engenheiro
- Empreendimento
- exemplo
- vasta experiência
- extenso
- família
- financeiro
- serviços financeiros
- fluxo
- concentra-se
- seguinte
- Gratuito
- função
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTTPS
- imagem
- INFORMAÇÕES
- entrada
- IT
- Junta
- marcação
- língua
- grande
- APRENDER
- aprendizagem
- localização
- máquina
- aprendizado de máquina
- Gerente
- Match
- ML
- mais
- a maioria
- Música
- natural
- New York
- Operações
- Preparar
- visualização
- processo
- em processamento
- fornecer
- Links
- rapidamente
- requeridos
- Requisitos
- retorno
- Retorna
- Opinões
- escalável
- setor
- Série
- Serviços
- simples
- Software
- desenvolvimento de software
- Engenheiro de Software
- solução
- Soluções
- espaços
- armazenamento
- loja
- suportes
- sistemas
- Dados Técnicos:
- Através da
- tempo
- token
- Tokens
- Transformar
- viagens
- compreender
- único
- usar
- valor
- variedade
- sem
- palavras
- trabalho
- escrita