Funções definidas pelo usuário do Pandas agora estão disponíveis no Amazon SageMaker Data Wrangler

Republicado por Platão

seguidores: 0

Gerenciador de dados do Amazon SageMaker reduz o tempo para agregar e preparar dados para aprendizado de máquina (ML) de semanas para minutos. Com o Data Wrangler, você pode selecionar e consultar dados com apenas alguns cliques, transformar dados rapidamente com mais de 300 transformações de dados integradas e entender seus dados com visualizações integradas sem escrever nenhum código.

Além disso, você pode criar transformações personalizadas exclusivo para suas necessidades. As transformações personalizadas permitem escrever transformações personalizadas usando PySpark, Pandas ou SQL.

O Data Wrangler agora suporta um Função definida pelo usuário do Pandas (UDF) que pode processar grandes conjuntos de dados com eficiência. Você pode escolher entre dois modos UDF personalizados do Pandas: Pandas e Python. Ambos os modos fornecem uma solução eficiente para processar conjuntos de dados, e o modo escolhido depende de sua preferência.

Neste post, demonstramos como usar a nova transformação UDF do Pandas em qualquer um dos modos.

Visão geral da solução

No momento da redação deste artigo, você pode importar conjuntos de dados para o Data Wrangler de Serviço de armazenamento simples da Amazon (Amazon S3), Amazona atena, Amazon RedShift, Databricks e Floco de Neve. Para este post, usamos o Amazon S3 para armazenar o 2014 Conjunto de dados de revisões da Amazon.

Os dados têm uma coluna chamada reviewText contendo texto gerado pelo usuário. O texto também contém vários pare de palavras, que são palavras comuns que não fornecem muitas informações, como "um", "um" e "o". A remoção de palavras de parada é uma etapa comum de pré-processamento em pipelines de processamento de linguagem natural (NLP). Podemos criar uma função personalizada para remover as palavras de parada dos comentários.

Criar uma transformação UDF Pandas personalizada

Vamos percorrer o processo de criação de duas transformações Pandas UDF personalizadas do Data Wrangler usando os modos Pandas e Python.

Faça o download do Conjunto de dados de resenhas de música digital e faça o upload para o Amazon S3.
Abra Estúdio Amazon SageMaker e crie um novo fluxo do Data Wrangler.
Debaixo Datas de importação, escolha Amazon S3 e navegue até o local do conjunto de dados.
Escolha Tipo de arquivo, escolha JSON.

Uma visualização dos dados deve ser exibida na tabela.

Escolha importação para prosseguir.
Depois que seus dados forem importados, escolha o sinal de mais ao lado de Tipos de dados e escolha Adicionar transformação.
Escolha Transformação personalizada.
No menu suspenso, Python (função definida pelo usuário).

Agora criamos nossa transformação personalizada para remover palavras de parada.

Especifique sua coluna de entrada, coluna de saída, tipo de retorno e modo.

O exemplo a seguir usa o modo Pandas. Isso significa que a função deve aceitar e retornar uma série Pandas do mesmo tamanho. Você pode pensar em uma série Pandas como uma coluna em uma tabela ou um pedaço da coluna. Este é o modo UDF do Pandas com melhor desempenho porque o Pandas pode vetorizar operações em lotes de valores em vez de um de cada vez. o pd.Series dicas de tipo são necessárias no modo Pandas.

import pandas as pd
from sklearn.feature_extraction import text # Input: the quick brown fox jumped over the lazy dog
# Output: quick brown fox jumped lazy dog
def remove_stopwords(series: pd.Series) -> pd.Series: """Removes stop words from the given string.""" # Replace nulls with empty strings and lowercase to match stop words case series = series.fillna("").str.lower() tokens = series.str.split() # Remove stop words from each entry of series tokens = tokens.apply(lambda t: [token for token in t if token not in text.ENGLISH_STOP_WORDS]) # Joins the filtered tokens by spaces return tokens.str.join(" ")

Se você preferir usar Python puro em oposição à API do Pandas, o modo Python permite especificar uma função Python pura que aceita um único argumento e retorna um único valor. O exemplo a seguir é equivalente ao código Pandas anterior em termos de saída. As dicas de tipo não são necessárias no modo Python.

from sklearn.feature_extraction import text def remove_stopwords(value: str) -> str: if not value: return "" tokens = value.lower().split() tokens = [token for token in tokens if token not in text.ENGLISH_STOP_WORDS] return " ".join(tokens)

Escolha Adicionar para adicionar sua transformação personalizada.

Conclusão

O Data Wrangler tem mais de 300 transformações integradas e você também pode adicionar transformações personalizadas exclusivas aos seus requisitos. Neste post, demonstramos como processar conjuntos de dados com a nova transformação Pandas UDF personalizada do Data Wrangler, usando os modos Pandas e Python. Você pode usar qualquer um dos modos com base em sua preferência. Para saber mais sobre o Data Wrangler, consulte Criar e usar um fluxo do Data Wrangler.

Sobre os autores

Ben Harris é um engenheiro de software com experiência em projetar, implantar e manter pipelines de dados escaláveis e soluções de aprendizado de máquina em vários domínios. Ben construiu sistemas para coleta e rotulagem de dados, classificação de imagens e textos, modelagem de sequência a sequência, incorporação e agrupamento, entre outros.

Haider Naqvi é arquiteto de soluções na AWS. Ele tem uma vasta experiência em Desenvolvimento de Software e Arquitetura Corporativa. Ele se concentra em permitir que os clientes obtenham resultados de negócios com a AWS. Ele é baseado em Nova York.

Vishal Srivastava é um gerente técnico de contas na AWS. Com experiência em desenvolvimento de software e análise, ele trabalha principalmente com o setor de serviços financeiros e clientes empresariais nativos digitais e apoia sua jornada na nuvem. Nas horas vagas, adora viajar com a família.

Carimbo de hora: 28 de abril de 2022

Mais de Aprendizado de máquina da AWS

Gere previsões de inicialização a frio para produtos sem dados históricos usando o Amazon Forecast, agora com inteligência de dados PlatoBlockchain até 45% mais precisa. Pesquisa vertical. Ai.

Gere previsões de inicialização a frio para produtos sem dados históricos usando o Amazon Forecast, agora até 45% mais preciso

Grupo de origem:

Aprendizado de máquina da AWS

Nó Fonte: 1761594

Carimbo de hora: 21 Novembro, 2022

Localize conteúdo em vários idiomas usando os serviços de machine learning da AWS

Aprendizado de máquina da AWS

Nó Fonte: 1279228

Carimbo de hora: 25 de abril, 2022

As funções definidas pelo usuário do Pandas agora estão disponíveis no Amazon SageMaker Data Wrangler

Republicado por Platão

Visão geral da solução

Criar uma transformação UDF Pandas personalizada

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Gere previsões de inicialização a frio para produtos sem dados históricos usando o Amazon Forecast, agora até 45% mais preciso

Localize conteúdo em vários idiomas usando os serviços de machine learning da AWS

Resumo do lançamento do Amazon Textract 2022H2

Chronomics detecta resultados de testes de COVID-19 com rótulos personalizados do Amazon Rekognition

Otimizando custos do Amazon SageMaker Canvas com desligamento automático de aplicativos ociosos | Amazon Web Services

Avaliar grandes modelos de linguagem quanto à qualidade e responsabilidade | Amazon Web Services

Preparação unificada de dados, treinamento de modelos e implantação com Amazon SageMaker Data Wrangler e Amazon SageMaker Autopilot – Parte 2

Desmistificando o aprendizado de máquina na borda por meio de casos de uso reais

Crie um preditor de toxicidade baseado em texto robusto

Modelos de transformadores de face abraçada de host usando o Amazon SageMaker Serverless Inference

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta